Information Retrieval - PowerPoint PPT Presentation

About This Presentation
Title:

Information Retrieval

Description:

Title: Information Retrieval Subject: Information Retrieval im WEB Author: Bj rn Gustavs Keywords: IR, Information Retrieval, Last modified by: Bj rn – PowerPoint PPT presentation

Number of Views:85
Avg rating:3.0/5.0
Slides: 50
Provided by: Bjrn60
Category:

less

Transcript and Presenter's Notes

Title: Information Retrieval


1
Information Retrieval
  • IR-Grundlagen von Suchmaschinen im Ãœberblick
  • Björn Gustavs

2
Was ist IR?
  • Information Storage and RetrievalDas
    systematische Vorgehen, um Daten zu sammeln und
    derart zu katalogisieren, dass sie auf Anfrage
    wieder aufgefunden und angezeigt werden können.
  • Für Suchmaschinen ? alle Dokumente im Internet
    aufspüren, analysieren und auf Abfrage optimal
    wiedergeben

3
Inhalt / Ausblick
  • Motivation
  • Einblick Web Traversierung
  • IR-Probleme
  • Methoden der Index-Erstellung
  • Methoden des IR auf dem Index
  • Zusammenfassung

4
Motivation
  • Informationsgehalt im Internet
  • Mai 2003 Anzahl der Seiten gt 6 Milliarden
  • verdoppelt sich alle 4-8 Monate
  • rund 40 des Internets verändert sich monatlich
  • um dieses Potential zu nutzen ?gewünschte Inhalte
    effizient gezielt finden
  • Textinformation rechnergestützt auswerten

5
Dokumentensuche im Web
  • 1. Suchroboter (aka Web robot, wanderer, worm,
    walker, spider, knownbot) traversieren das Web
    pro Anfrage
  • Nutzer gibt Suchbegriff an
  • Roboter durchsucht systematisch das Web nach
    Dokumenten
  • Relevanzberechnung
  • Rückgabe einer rang-sortieren Liste
  • Größe des Netzes Wachstum machen diesen Ansatz
    praktisch unmöglich

6
Dokumentensuche im Web
  • 2. vorbereiteter Index wird durchsucht
  • Index ist ein durchsuchbares Archiv mit
    Referenzen zu Dokumenten im Web
  • Suche wird auf dem Index ausgeführt

7
Der Index (1)
  • Index ist eine Dokumentenrepräsentation
  • Dokumente durch Inhaltsbeschreibung und
    enthaltenen Termen repräsentiert
  • Terme dienen zu Ermittlung der Relevanz bei
    Suchanfragen
  • Terme können automatisch oder von Spezialisten
    erzeugt werden

8
Index-Erzeugung (1)
  • Seiten sammeln?Analysieren,Aufbereiten?Index
  • Programme (Robots, Crawler) suchen alle
    Webseiten
  • Ausgehend von einer Anfangsadresse werden alle
    URLs in Tiefen- oder Breitensuche verfolgt.
  • von Menge von Anfangsadressen aus- abhängig von
    der Popularität der jeweiligen Seite
  • Partitionierung des WWW- ausgehend von
    Internetnamen oder Landesgrenzen - wird das WWW
    rekursiv durchsucht.
  • Auslesen von Metaangaben (manuell erstellte
    Beschreibungen)
  • Textanalyse
  • Ermitteln von inhaltsrelevanten Termen zum
    Dokument, Häufigkeit

9
Index-Erzeugung (3)-Qualität
  • Effektivität eines Indexing Systems wird bestimmt
    über
  • Indexing exhaustivity Erfassungsgrad der
    Dokumententhemen in den Index- exhaustive alle
    Aspekte der Themen erfassen- nonexhaustive
    weniger, aber die Kernthemen
  • Term specificity Grad, zu welchem die Menge
    aller vorhandenen nützlichen Dokumente erfasst
    werden
  • allgemeine/umfassende Terme ? viele nützliche
    viele unnütze Resultate
  • genaue Terme ? weniger Resultate, evtl. auch
    verpasste gute Ergebnisse

10
IR Qualität (1)
  • Genannte Parameter haben Auswirkung auf das
    Indexierungssystem
  • Resultierende Retrieval Effiziens über 2
    Parameter beschrieben
  • Recall (Vollständigkeit)
  • Precision (Trefferquote)

11
IR Qualität (2) - Recall
  • Recall (Vollständigkeit)Wieviele der relevanten
    Dokumente werden erfasst?
  • Verhältnis der - Anzahl erfasster, relevanter
    Dokumente zur - Anzahl relevanter Dokumente

12
IR Qualität (3) - Precision
  • Precisionwieviele relevante Dokumente werden
    erfasst
  • Verhältnis der - Anzahl erfasster, relevanter
    Dokumentezur- Anzahl erfasster Dokumente

13
IR Qualität (2)
  • Optimal hohe Recall Precision
  • Aber gehen jeweils auf Kosten des anderen
  • Effektivität wird gemessen anhand verschiedenen
    Precision, bei festen Recall-Werten
  • Kompromiss

14
Der Index (4)
  • Suchmaschinen nutzen inverted index
  • besteht aus
  • durchsuchbares Wörterbuch, mit allen Wörtern im
    Index, enthält
  • Vorkommen
  • Verweis auf inverted list des Wortes
  • inverted list für jedes Wort im Index,
    enthält
  • Verweise auf Dokumente
  • Häufigkeit des Wortes im Dokument
  • weitere Optimierungen, z.B. Position/Offset des
    Wortes im Dokument

15
Inverted Index, Beispiel
Lexikon inverted index list
16
Index Builder
  • Index BuilderSortierung, 1. nach Term, dann
    nach DocID,

17
Indexierungsmethoden
  • Automatische Indexierungsmethoden
  • Single Term Indexierung
  • Statistische Methoden
  • Informationstheoretische Methoden
  • Probabilistische Methoden
  • Mutli-Term / Phrasen Indexierung
  • Statistische Methoden
  • Probabilistische Methoden
  • Linguistische Methoden

18
Single Term Indexing (1)
  • Welche Wörter eines Dokumentes in den Index?
  • alle Worte herauslösen
  • unwichtige Worte herausfiltern (Stoppwörter,
    Füllworte,)
  • evtl. Rückführung auf Wortstamm
  • Häufigkeit im Dokument ermitteln

19
Single Term Indexing (2)
  • pro Dokument wird analysiert
  • Menge der auftretenden Wörter
  • deren Häufigkeiten
  • Ziel hohes Recall
  • Vorgehensweisen, Wörter zu gewichten
  • Statistisch
  • informations-theoretisch
  • probabilistische

20
Single Term Indexing(3)-statistisch
  • Statistische Methode
  • z.B. basiert rein auf Termhäufigkeitwij tfij
    log(N / dfj)
  • tfij Term Frequency, des Terms j im Dokument i
  • dfj Document Frequency, Häufigkeit des Terms in
    allen Dokumenten

21
Single Term Indexing (4)-inf.th.
  • Informationstheoretische Methode
  • basiert auf AussageTerm, dessen Vorkommen am
    unwahrscheinlichsten ist, birgt meiste
    Information
  • Methode bevorzugt in einzelnen Dokumenten
    konzentrierte Terme

22
Single Term Indexing(5)-probal.
  • Probabilistische Methode
  • basiert auf Relevanz-Wahrscheinlichkeit
  • erfordert Training für Berechnungsgrundlage
  • Benutzer bewerten Relevanz von Suchresultaten
  • aus Trainingsergebnissen wird Termgewichtung
    basierend auf bedingter Wahrscheinlichkeit des
    Auftretens eines Terms berechnet

23
Multi-Term/Phrase Indexing (1)
  • Phrasen verhindern Doppeldeutigkeit einzelner
    Wörter ohne Zusammenhang
  • Term trägt spezifischere Bedeutung
  • soll Precision erhöhen
  • Methoden zur Erzeugung von Phrasen für Index
  • statistisch
  • probabilistisch
  • sprachtheoretisch

24
Multi Term Indexing (2) -statistisch
  • Statistische Methode
  • Phrase besteht aus Kopf und Zusätzen
  • Hier muss der Kopf in weiteren Dokumenten
    auftretenund weiteren Komponenten im gleichen
    Satz
  • wenn Kombinationen in vielen Dokumenten
    auftreten, werden diese gruppiert
  • (dies erzwingt keine semantische Beziehung
    zwischen den Worten), fehleranfällig

25
Multi Term Indexing (3) lingust.
  • Linguistische Methode
  • Einsatz von sprachlicher Analyse für Term-
    Zusammenhängen(Adjektive, Substantive, Verben)
  • verbessert statistischen Methoden, Reduktion
    falscher Wortzusammenhänge
  • Einbringen semantischer Faktoren in die
    Gruppierung

26
Multi Term Indexing (4) -probabil.
  • Probabilistische Methode
  • erzeugt komplexe Indexstrukturen, basierend auf
    Abhängigkeiten der Terme
  • man müsste exponentielle Anzahl von
    Term-Kombinationen betrachten
  • daher kaum Anwendung

27
Information Retrieval
  • Rückblick auf Indexerzeugung
  • Auffinden von Dokumenten im Netz
  • Analyse des Inhaltes
  • Metainformationen
  • Textinformationen (Inhalt) auswerten
  • Kurzbeschreibung erstellen (Terme)
  • Single- vs. Multi-term Indexing
  • jetzt RetrievalSuchmechanismen auf dem Index

28
Information Retrieval Modelle
  • Ein IR-Modell wird beschrieben durch
  • Repräsentation für Dokumente Abfragen
  • Strategien zur Bewertung der Relevanz von
    Dokumenten bzgl. der Abfrage eines Benutzer
  • Ranking-Methoden, gewichtete Ordnung der
    Resultate
  • Methoden zum Erhalt von nutzerrelevantem-Feedback
  • 4 Verfahren
  • Boolesche Verfahren
  • Statistische Verfahren
  • Vektorraum Verfahren
  • Probabilistisches Verfahren
  • Hybrid Verfahren

29
Boolesches Modell (1)
  • basiert auf Mengenlehre und boolescher
    Algebrabekannteste Verfahren, oft von IR
    Systemen genutzt
  • Abfragen werden gebildet durch Terme, verbunden
    durch logische Operatoren
  • Term aus Query im Dokument enthalten?
  • Dokument ist Treffer, wenn boolesche Auswertung
    der Query wahr ist

30
Boolesches Modell (2)-Beispiel
DocID Term A Term B Term C Term D
1 ? ?
2 ? ?
3 ? ?
4 ?
Anfrage Ergebnis
A AND (C OR D) Doc1, Doc3
B OR C Doc1, Doc2, Doc4
31
Boolesches Verfahren (3)
  • Vorteile
  • leicht implementierbar
  • effizient in Anwendung (Computer DB)
  • Nachteile
  • nicht triviale Queries schwierig zu formulieren
  • Ganz oder gar nicht
  • keine Gewichtung ? keine Reihenfolge

32
Boolesches Verfahren,erweitert (3)
  • Smart Boolean
  • Anwender gibt sprachliche Frage ein, wird dann
    automatisch in ein boolesches Konstrukt
    umgewandelt
  • Techniken, um Abfragen einzuschränken zu
    erweitern

33
Boolesches Verfahren,erweitert (4)
  • Fuzzy-Mengen Modell
  • Ziel Boolesche Strenge aufweichen Ranking
  • Fuzzytheorie
  • auch Dokumente als Resultat, die wenn Query nur
    teilweise WAHR ist
  • Ergebnisstufen zwischen 0 und 1 ? Aufweichung des
    GoG
  • Stufe beschreibt, wie stark Term dem Query
    entspricht

34
Vektorraumverfahren (1)
  • Wurde in den 60ern in Havard im Laufe des
    Smart-Projektes entwickelt und in den 80ern
    überarbeitet
  • Dokumente Abfragen als Vektoren in einem
    mehrdimensionalen Vektorraum aufgefasst
  • Dimensionen sind die Terme des Dokumentenindexes
  • Vektoren enthalten Gewichte aller Terme
  • Terme in Query können gewichtet werden

35
Vektorraumverfahren (2)
Jedes Dokument wird anhand des Auftretens
Gewichtung der Suchterme im Dokument, durch einen
Vektor repräsentiert. Nähe zum Query-Vektor
bestimmt Suchresultat -Reihenfolge.
Term1
  • Dokument 1

Query
Dokument 2
Term2
Dokument 3
Term3
36
Vektorraumverfahren (3)
  • im Smart-Projekt wurden heuristische Formeln
    zur Berechnung von Gewichten für die Indexierung
    entwickelt? verbesserte Suchergebnisse
  • Trefferberechnung Vergleich von Dokumenten-
    Query-Vektoren
  • Vergleich z.B. cosinus-basiert

37
Vektorraumverfahren (4)
  • Vorteile
  • Relevanzabstufungen möglich (durch
    Termgewichtungen)
  • Sortierung nach Ähnlichkeitsgrad möglich ?Rang
  • Nachteile
  • es wird vorausgesetzt, dass Therme wechselseitig
    unabhängig sind

38
Hybrid-Modell (extended boolean)
  • Verbindung des Booleschen Modells mit dem
    Vektormodell, für freie Gewichtung
  • Idee
  • Nutzer kann boolesche Anfrage stellen
  • zusätzlicher Parameter steuert die
    Interpretation wie strikt AND,OR ausgewertet
    werden
  • von 2 bis unendlich
  • 2 ? keine Unterscheidung zwischen AND,OR
  • unendlich ? binäres Ranking (Treffer, nicht
    Treffer)
  • beste Werte, empirische Untersuchungen 2 lt p lt
    5

39
Probabilistisches Verfahren (1)
  • Berechnung der Wahrscheinlichkeit, dass Dokument
    relevant ist
  • Training erforderlich
  • Berechnung stützt sich auf Parameter
  • Wahrscheinlichkeit der Relevanz UND
  • Irrelevanz eines Dokumentes auf die Query
  • Kostenparameter. Verlust bei
  • Auffinden eines irrelevanten Dokumentes
  • Nichtauffinden eines relevanten Dokumentes

40
Probabilistisches Verfahren (2)
  • Vorteile
  • Gefundene Dokumente werden nach
    Wahrscheinlichkeit ihrer Relevanz sortiert
  • Nachteil
  • ist so gut, wie die Wahrscheinlichkeitsberechnung
    eingepegelt ist (Training)
  • Häufigkeit eines Terms im Dokument ist irrelevant

41
IR-Modelle-Zusammenfassung
Boolesches Modell im Vergleich schlechte
Ergebnisse, aber verbreitet.
42
Relevanz der Ergebnisse
  • alle relevanten Dokumente gefunden? Ranking
    hilfreich?
  • Relevanz-Feedback vom Anwender gewünscht
  • Anwender bewertet Dokument des Suchergebnisses
  • 2-Level brauchbar nicht brauchbar
  • Multi-Level Zwischenstufen im Bezug zu anderen
    Dokumenten (weniger relevant als)

43
Relevanz-Feedback-Nutzung
  • 1. Query anpassen
  • Gewichtungen der Query verändern (Termgewichte
    des Queryvektors)
  • Query Erweiterung (Hinzufügen von Termen)
  • Query Splitting

44
Relevanz-Feedback-Nutzung (2)
  • 2. Index verändern
  • Index manipulieren (Gewichtungen im Index)

45
Relevanz-Feedback (4)
  • kein Suchdienst bietet heute Relevanz-Feedback
    Techniken!
  • Gefahren?

46
Zusammenfassung
  • Rückblick
  • versch. Methoden zur Bestimmung der Relevanz von
    Query zu indexierten Dokumenten
  • damit verbunden, Ranking-Verfahren
  • Hilfe vom Benutzer wünschenswert

47
IR und das WWW
  • IR viele Einsatzfelder
  • Besonderheiten im Web
  • riesige Datenmengen, dunkle Bereiche im Web
    (500x sichtbares Web) , wachsend)
  • oft nicht-statische Seiten (generierte Seiten,
    DB)
  • Dynamik (verdoppelt sich alle 4-8 Monate)? tote
    Links
  • Sprachenvielfalt
  • Duplikate
  • hohe Verlinkung (8Links/Seite) ?
    Indexierungsaufwand
  • Benutzerverhalten kennen (Geschwindigkeit,
    Ergebnisseiten)

48
  • Noch Fragen ?

49
Literaturangaben
  • Venkat N. Gudivada, Vijay V. Raghavan, William I.
    Grosky, Rajesh Kasanagottu. Information
    Retrieval on the World Wide Web. IEEE Internet
    Computing. September-October 1997 (Vol. 1, No.
    5). pp. 58-68
  • Mei Kobayashi, Koichi Takeda. Information
    Retrieval on the Web. ACM Computing Surveys, Vol.
    32, No. 2, June 2000. pp 144-173.
  • IR und das Web, Interuniversitäres Seminar 2001,
    Martin Waldburger, PDF
  • Building Fast Search Engines, Hugh E. Williams,
    http//www.hughwilliams.com/t1.pdf
  • Datamining im WWW,Knowledge Discovery im
    Internet, Johann Zehentner, Ausarbeitung 2000
Write a Comment
User Comments (0)
About PowerShow.com