Title: Information Retrieval
1Information Retrieval
- IR-Grundlagen von Suchmaschinen im Ãœberblick
- Björn Gustavs
2Was ist IR?
- Information Storage and RetrievalDas
systematische Vorgehen, um Daten zu sammeln und
derart zu katalogisieren, dass sie auf Anfrage
wieder aufgefunden und angezeigt werden können. - Für Suchmaschinen ? alle Dokumente im Internet
aufspüren, analysieren und auf Abfrage optimal
wiedergeben
3Inhalt / Ausblick
- Motivation
- Einblick Web Traversierung
- IR-Probleme
- Methoden der Index-Erstellung
- Methoden des IR auf dem Index
- Zusammenfassung
4Motivation
- Informationsgehalt im Internet
- Mai 2003 Anzahl der Seiten gt 6 Milliarden
- verdoppelt sich alle 4-8 Monate
- rund 40 des Internets verändert sich monatlich
- um dieses Potential zu nutzen ?gewünschte Inhalte
effizient gezielt finden - Textinformation rechnergestützt auswerten
5Dokumentensuche im Web
- 1. Suchroboter (aka Web robot, wanderer, worm,
walker, spider, knownbot) traversieren das Web
pro Anfrage - Nutzer gibt Suchbegriff an
- Roboter durchsucht systematisch das Web nach
Dokumenten - Relevanzberechnung
- Rückgabe einer rang-sortieren Liste
- Größe des Netzes Wachstum machen diesen Ansatz
praktisch unmöglich
6Dokumentensuche im Web
- 2. vorbereiteter Index wird durchsucht
- Index ist ein durchsuchbares Archiv mit
Referenzen zu Dokumenten im Web - Suche wird auf dem Index ausgeführt
7Der Index (1)
- Index ist eine Dokumentenrepräsentation
- Dokumente durch Inhaltsbeschreibung und
enthaltenen Termen repräsentiert - Terme dienen zu Ermittlung der Relevanz bei
Suchanfragen - Terme können automatisch oder von Spezialisten
erzeugt werden
8Index-Erzeugung (1)
- Seiten sammeln?Analysieren,Aufbereiten?Index
- Programme (Robots, Crawler) suchen alle
Webseiten - Ausgehend von einer Anfangsadresse werden alle
URLs in Tiefen- oder Breitensuche verfolgt. - von Menge von Anfangsadressen aus- abhängig von
der Popularität der jeweiligen Seite - Partitionierung des WWW- ausgehend von
Internetnamen oder Landesgrenzen - wird das WWW
rekursiv durchsucht. - Auslesen von Metaangaben (manuell erstellte
Beschreibungen) - Textanalyse
- Ermitteln von inhaltsrelevanten Termen zum
Dokument, Häufigkeit
9Index-Erzeugung (3)-Qualität
- Effektivität eines Indexing Systems wird bestimmt
über - Indexing exhaustivity Erfassungsgrad der
Dokumententhemen in den Index- exhaustive alle
Aspekte der Themen erfassen- nonexhaustive
weniger, aber die Kernthemen - Term specificity Grad, zu welchem die Menge
aller vorhandenen nützlichen Dokumente erfasst
werden - allgemeine/umfassende Terme ? viele nützliche
viele unnütze Resultate - genaue Terme ? weniger Resultate, evtl. auch
verpasste gute Ergebnisse
10IR Qualität (1)
- Genannte Parameter haben Auswirkung auf das
Indexierungssystem - Resultierende Retrieval Effiziens über 2
Parameter beschrieben - Recall (Vollständigkeit)
- Precision (Trefferquote)
11IR Qualität (2) - Recall
- Recall (Vollständigkeit)Wieviele der relevanten
Dokumente werden erfasst? - Verhältnis der - Anzahl erfasster, relevanter
Dokumente zur - Anzahl relevanter Dokumente
12IR Qualität (3) - Precision
- Precisionwieviele relevante Dokumente werden
erfasst - Verhältnis der - Anzahl erfasster, relevanter
Dokumentezur- Anzahl erfasster Dokumente
13IR Qualität (2)
- Optimal hohe Recall Precision
- Aber gehen jeweils auf Kosten des anderen
- Effektivität wird gemessen anhand verschiedenen
Precision, bei festen Recall-Werten - Kompromiss
14Der Index (4)
- Suchmaschinen nutzen inverted index
- besteht aus
- durchsuchbares Wörterbuch, mit allen Wörtern im
Index, enthält - Vorkommen
- Verweis auf inverted list des Wortes
- inverted list für jedes Wort im Index,
enthält - Verweise auf Dokumente
- Häufigkeit des Wortes im Dokument
- weitere Optimierungen, z.B. Position/Offset des
Wortes im Dokument
15Inverted Index, Beispiel
Lexikon inverted index list
16Index Builder
- Index BuilderSortierung, 1. nach Term, dann
nach DocID,
17Indexierungsmethoden
- Automatische Indexierungsmethoden
- Single Term Indexierung
- Statistische Methoden
- Informationstheoretische Methoden
- Probabilistische Methoden
- Mutli-Term / Phrasen Indexierung
- Statistische Methoden
- Probabilistische Methoden
- Linguistische Methoden
18Single Term Indexing (1)
- Welche Wörter eines Dokumentes in den Index?
- alle Worte herauslösen
- unwichtige Worte herausfiltern (Stoppwörter,
Füllworte,) - evtl. Rückführung auf Wortstamm
- Häufigkeit im Dokument ermitteln
19Single Term Indexing (2)
- pro Dokument wird analysiert
- Menge der auftretenden Wörter
- deren Häufigkeiten
- Ziel hohes Recall
- Vorgehensweisen, Wörter zu gewichten
- Statistisch
- informations-theoretisch
- probabilistische
20Single Term Indexing(3)-statistisch
- Statistische Methode
- z.B. basiert rein auf Termhäufigkeitwij tfij
log(N / dfj) - tfij Term Frequency, des Terms j im Dokument i
- dfj Document Frequency, Häufigkeit des Terms in
allen Dokumenten
21Single Term Indexing (4)-inf.th.
- Informationstheoretische Methode
- basiert auf AussageTerm, dessen Vorkommen am
unwahrscheinlichsten ist, birgt meiste
Information - Methode bevorzugt in einzelnen Dokumenten
konzentrierte Terme
22Single Term Indexing(5)-probal.
- Probabilistische Methode
- basiert auf Relevanz-Wahrscheinlichkeit
- erfordert Training für Berechnungsgrundlage
- Benutzer bewerten Relevanz von Suchresultaten
- aus Trainingsergebnissen wird Termgewichtung
basierend auf bedingter Wahrscheinlichkeit des
Auftretens eines Terms berechnet
23Multi-Term/Phrase Indexing (1)
- Phrasen verhindern Doppeldeutigkeit einzelner
Wörter ohne Zusammenhang - Term trägt spezifischere Bedeutung
- soll Precision erhöhen
- Methoden zur Erzeugung von Phrasen für Index
- statistisch
- probabilistisch
- sprachtheoretisch
24Multi Term Indexing (2) -statistisch
- Statistische Methode
- Phrase besteht aus Kopf und Zusätzen
- Hier muss der Kopf in weiteren Dokumenten
auftretenund weiteren Komponenten im gleichen
Satz - wenn Kombinationen in vielen Dokumenten
auftreten, werden diese gruppiert - (dies erzwingt keine semantische Beziehung
zwischen den Worten), fehleranfällig
25Multi Term Indexing (3) lingust.
- Linguistische Methode
- Einsatz von sprachlicher Analyse für Term-
Zusammenhängen(Adjektive, Substantive, Verben) - verbessert statistischen Methoden, Reduktion
falscher Wortzusammenhänge - Einbringen semantischer Faktoren in die
Gruppierung
26Multi Term Indexing (4) -probabil.
- Probabilistische Methode
- erzeugt komplexe Indexstrukturen, basierend auf
Abhängigkeiten der Terme - man müsste exponentielle Anzahl von
Term-Kombinationen betrachten - daher kaum Anwendung
27Information Retrieval
- Rückblick auf Indexerzeugung
- Auffinden von Dokumenten im Netz
- Analyse des Inhaltes
- Metainformationen
- Textinformationen (Inhalt) auswerten
- Kurzbeschreibung erstellen (Terme)
- Single- vs. Multi-term Indexing
- jetzt RetrievalSuchmechanismen auf dem Index
28Information Retrieval Modelle
- Ein IR-Modell wird beschrieben durch
- Repräsentation für Dokumente Abfragen
- Strategien zur Bewertung der Relevanz von
Dokumenten bzgl. der Abfrage eines Benutzer - Ranking-Methoden, gewichtete Ordnung der
Resultate - Methoden zum Erhalt von nutzerrelevantem-Feedback
- 4 Verfahren
- Boolesche Verfahren
- Statistische Verfahren
- Vektorraum Verfahren
- Probabilistisches Verfahren
- Hybrid Verfahren
29Boolesches Modell (1)
- basiert auf Mengenlehre und boolescher
Algebrabekannteste Verfahren, oft von IR
Systemen genutzt - Abfragen werden gebildet durch Terme, verbunden
durch logische Operatoren - Term aus Query im Dokument enthalten?
- Dokument ist Treffer, wenn boolesche Auswertung
der Query wahr ist
30Boolesches Modell (2)-Beispiel
DocID Term A Term B Term C Term D
1 ? ?
2 ? ?
3 ? ?
4 ?
Anfrage Ergebnis
A AND (C OR D) Doc1, Doc3
B OR C Doc1, Doc2, Doc4
31Boolesches Verfahren (3)
- Vorteile
- leicht implementierbar
- effizient in Anwendung (Computer DB)
- Nachteile
- nicht triviale Queries schwierig zu formulieren
- Ganz oder gar nicht
- keine Gewichtung ? keine Reihenfolge
32Boolesches Verfahren,erweitert (3)
- Smart Boolean
- Anwender gibt sprachliche Frage ein, wird dann
automatisch in ein boolesches Konstrukt
umgewandelt - Techniken, um Abfragen einzuschränken zu
erweitern
33Boolesches Verfahren,erweitert (4)
- Fuzzy-Mengen Modell
- Ziel Boolesche Strenge aufweichen Ranking
- Fuzzytheorie
- auch Dokumente als Resultat, die wenn Query nur
teilweise WAHR ist - Ergebnisstufen zwischen 0 und 1 ? Aufweichung des
GoG - Stufe beschreibt, wie stark Term dem Query
entspricht
34Vektorraumverfahren (1)
- Wurde in den 60ern in Havard im Laufe des
Smart-Projektes entwickelt und in den 80ern
überarbeitet - Dokumente Abfragen als Vektoren in einem
mehrdimensionalen Vektorraum aufgefasst - Dimensionen sind die Terme des Dokumentenindexes
- Vektoren enthalten Gewichte aller Terme
- Terme in Query können gewichtet werden
35Vektorraumverfahren (2)
Jedes Dokument wird anhand des Auftretens
Gewichtung der Suchterme im Dokument, durch einen
Vektor repräsentiert. Nähe zum Query-Vektor
bestimmt Suchresultat -Reihenfolge.
Term1
Query
Dokument 2
Term2
Dokument 3
Term3
36Vektorraumverfahren (3)
- im Smart-Projekt wurden heuristische Formeln
zur Berechnung von Gewichten für die Indexierung
entwickelt? verbesserte Suchergebnisse - Trefferberechnung Vergleich von Dokumenten-
Query-Vektoren - Vergleich z.B. cosinus-basiert
37Vektorraumverfahren (4)
- Vorteile
- Relevanzabstufungen möglich (durch
Termgewichtungen) - Sortierung nach Ähnlichkeitsgrad möglich ?Rang
- Nachteile
- es wird vorausgesetzt, dass Therme wechselseitig
unabhängig sind
38Hybrid-Modell (extended boolean)
- Verbindung des Booleschen Modells mit dem
Vektormodell, für freie Gewichtung - Idee
- Nutzer kann boolesche Anfrage stellen
- zusätzlicher Parameter steuert die
Interpretation wie strikt AND,OR ausgewertet
werden - von 2 bis unendlich
- 2 ? keine Unterscheidung zwischen AND,OR
- unendlich ? binäres Ranking (Treffer, nicht
Treffer) - beste Werte, empirische Untersuchungen 2 lt p lt
5
39Probabilistisches Verfahren (1)
- Berechnung der Wahrscheinlichkeit, dass Dokument
relevant ist - Training erforderlich
- Berechnung stützt sich auf Parameter
- Wahrscheinlichkeit der Relevanz UND
- Irrelevanz eines Dokumentes auf die Query
- Kostenparameter. Verlust bei
- Auffinden eines irrelevanten Dokumentes
- Nichtauffinden eines relevanten Dokumentes
40Probabilistisches Verfahren (2)
- Vorteile
- Gefundene Dokumente werden nach
Wahrscheinlichkeit ihrer Relevanz sortiert - Nachteil
- ist so gut, wie die Wahrscheinlichkeitsberechnung
eingepegelt ist (Training) - Häufigkeit eines Terms im Dokument ist irrelevant
41IR-Modelle-Zusammenfassung
Boolesches Modell im Vergleich schlechte
Ergebnisse, aber verbreitet.
42Relevanz der Ergebnisse
- alle relevanten Dokumente gefunden? Ranking
hilfreich? - Relevanz-Feedback vom Anwender gewünscht
- Anwender bewertet Dokument des Suchergebnisses
- 2-Level brauchbar nicht brauchbar
- Multi-Level Zwischenstufen im Bezug zu anderen
Dokumenten (weniger relevant als)
43Relevanz-Feedback-Nutzung
- 1. Query anpassen
- Gewichtungen der Query verändern (Termgewichte
des Queryvektors) - Query Erweiterung (Hinzufügen von Termen)
- Query Splitting
44Relevanz-Feedback-Nutzung (2)
- 2. Index verändern
- Index manipulieren (Gewichtungen im Index)
45Relevanz-Feedback (4)
- kein Suchdienst bietet heute Relevanz-Feedback
Techniken! - Gefahren?
46Zusammenfassung
- Rückblick
- versch. Methoden zur Bestimmung der Relevanz von
Query zu indexierten Dokumenten - damit verbunden, Ranking-Verfahren
- Hilfe vom Benutzer wünschenswert
47IR und das WWW
- IR viele Einsatzfelder
- Besonderheiten im Web
- riesige Datenmengen, dunkle Bereiche im Web
(500x sichtbares Web) , wachsend) - oft nicht-statische Seiten (generierte Seiten,
DB) - Dynamik (verdoppelt sich alle 4-8 Monate)? tote
Links - Sprachenvielfalt
- Duplikate
- hohe Verlinkung (8Links/Seite) ?
Indexierungsaufwand - Benutzerverhalten kennen (Geschwindigkeit,
Ergebnisseiten)
48 49Literaturangaben
- Venkat N. Gudivada, Vijay V. Raghavan, William I.
Grosky, Rajesh Kasanagottu. Information
Retrieval on the World Wide Web. IEEE Internet
Computing. September-October 1997 (Vol. 1, No.
5). pp. 58-68 - Mei Kobayashi, Koichi Takeda. Information
Retrieval on the Web. ACM Computing Surveys, Vol.
32, No. 2, June 2000. pp 144-173. - IR und das Web, Interuniversitäres Seminar 2001,
Martin Waldburger, PDF - Building Fast Search Engines, Hugh E. Williams,
http//www.hughwilliams.com/t1.pdf - Datamining im WWW,Knowledge Discovery im
Internet, Johann Zehentner, Ausarbeitung 2000