Title: Informationsintegration Das Verborgene Web (Hidden Web)
1Informationsintegration Das Verborgene
Web(Hidden Web)
2Überblick
- Motivation Be01,To01
- Suche über das Web
- Begriffe und Definitionen
- Auffinden von Hidden Web Informationsquellen
- Potentielle Hidden Web Quellen Finden BC04
- Themen extrahieren
IGS01 - Klassifikation nach Themen
IGS01 - Anfragen an relevante Quellen des Hidden Web
- Anfragen geeignet verteilen IGS01
- Anfragesprache lernen BC04
- (Ergebnisse integrieren)
3Das Web
Invisible Web (unsichtbares Netz)
Surface web
Shallow web
Deep web (tiefes Netz)
Quelle To01
4Surface Web vs. Hidden Web
- Hidden Web
- Keine Link-Struktur
- Dokumente verborgen in DBMS
- Dokumente nicht durch Internet-Suchmaschinen
indiziert - Dokumente eventl. durch Intranet-Suchemaschinen
indiziert - Anfragen auf jede Sammlung einzeln
- Surface Web
- Link-Struktur
- Kann gecrawled werden
- Dokumente durch Suchmaschinen indiziert
- Anfragen auf viele Websites gleichzeitig
Quelle Folie aus IGS01
5Hidden Web Beispiel
- Suche in PubMed nach diabetes
- 178,975 Treffer
- Google Suche diabetes sitewww.ncbi.nlm.nih.gov
- nur 119 matches
- Weitere Beispiele
Database Query Matches Google
PubMed diabetes 178,975 119
U.S. Patents wireless network 16,741 0
Library of Congress visa regulations gt10,000 0
- Gegenbeispiel
- Amazon Hilft explizit bei Verlinkung
Quelle Folie aus IGS01
6Suche über das Web
- Kataloge
- Suchmaschinen
- Metacrawler
- Antwort Services
- Unsichtbares/Tiefes/Verborgenes Web
7Kataloge
- Indices speichern URL, Titel, Kategorien, und
Zusammenfassung - Wartung durch Experten
- freiwillig, bezahlt, Selbst-Registrierung
- Das Web (Stand 2001)
- gt5,000,000,000 Dateien
- Yahoo
- 2,000,000 Sites
- 1/2500th des bekannten Webs
Quelle To01
8Suchmaschinen
- Indices speichern URL, Titel, Meta-Tags, Links,
und vollständigen Inhalt - Wartung durch Agenten (Crawler)
- Das Web (Stand 2001)
- gt5,000,000,000 Dateien
- Google
- 2,469,940,685 Seiten
- FAST
- 2,112,188,990 Seiten
- HotBot (Inktomi)
- 500,000,000 Seiten
Quelle To01
9Meta-Suchmaschinen
- Haben keinen eigenen Katalog oder Index
- Nutzer geben Suchbegriff ein, der simultan an
andere Suchmaschinen weitergeleitet wird. - Ergebnisse werden integriert und als eine Liste
zurückgegeben. - Vorteile
- Eine einzige Anfrage
- Geschwindigkeit (parallel statt sequentiell)
- Nachteile
- Time-outs und unvollständige Suche
- Anfragesyntax oft reduziert auf kleinsten
gemeinsamen Nenner
Quelle To01
10Antwort Services
- Datenbank mit gespeicherten häufigen Fragen
- Katalog von Ask Jeeves enthält 7,000,000 Fragen
- Natürlich-sprachliche Suche
- Suche in eigener DB und in fremden
Katalogen/Indices - Kennt Spezial-Daten-quellen des Hidden Web
- Gewichtung anerkannter Quellen (z.B. Almanache)
Quelle To01
11Invisible/Hidden/Deep Web
Quelle To01
12Surface vs. Hidden Web Be01
crawling
- Der Inhalt des Surface Web ist persistent auf
statischen Seiten, die mittels crawling von
Suchmaschinen entdeckt werden kann. Inhalt des
Hidden Web wird dynamisch präsentiert in Antwort
auf eine konkrete Anfrage. - der größte Anteil Inhalts des Hidden Web wird
unterhalb der Oberfläche bleiben und kann nur im
Kontext einer bestimmten Anfrage entdeckt werden.
Quelle To01
trawling
13Das Verborgene Web
- Der Teil des Webs, der nicht durch Suchmaschinen
indiziert wird. - Oft gespeichert in Datenbanken
- Dynamisch generierte Web Seiten durch Anwendungen
im Server - jsp, cgi,
- Sites und Seiten mit Passwort-geschütztem Inhalt
- Inhalt von Dateien, die nicht in
Standard-Formaten gespeichert werden - .pdf, .ppt, .doc
- Grafikformate
Quelle To01
14Begriffe / Synonyme
- Surface Web (Oberflächen-Web)
- Inhalt für normale Suchmaschinen sichtbar
- Shallow Web (Flaches Web)
- Normale Web-Seiten, die dynamisch generiert
werden - Anfragen durch Klicken auf Links
- Hidden Web (verborgenes Web)
- Inhalt für normale Suchmaschinen unsichtbar
- Invisible Web (unsichtbares Web)
- Synonym mit Hidden web
- Deep Web (tiefes Web)
- nach BrightPlanet,
- Synonym mit Hidden Web
Quelle To01
15Statistiken Be01
- 400 to 550 fach größer als Surface Web
- 7,500 Terabytes Informationen im Hidden Web
- 19 Terabytes Information im Surface Web
- 550 Milliarden Dokumente im Hidden Web
- 1 Milliarde Dokumente im Surface Web
- je nach dem, was man zählt
- Dynamische Seiten...
- 100,000 Hidden Websites
- ca. 84 sind auf Text Dokumente spezialisiert
- ca. 95 des Hidden Web ist öffentlich verfügbar.
Quelle To01
16Eigenschaften Be01
- Hidden Websites haben thematisch oft
schmaleren, aber tieferen Inhalt. - Oft qualitativ bessere Informationen
- Meist relevanter Inhalt
- Kein Spam
- Über die Hälfte aller Hidden Websites sind
thematisch spezialisiert. - Am schnellsten wachsende Kategorie neuer
Informationen im Internet
Quelle To01
17Beispiel CompletePlanet.com
18Überblick
- Motivation Be01,To01
- Suche über das Web
- Begriffe und Definitionen
- Auffinden von Hidden Web Informationsquellen
- Potentielle Hidden Web Quellen Finden BC04
- Themen extrahieren
IGS01 - Klassifikation nach Themen
IGS01 - Anfragen an relevante Quellen des Hidden Web
- Anfragen geeignet verteilen IGS01
- Anfragesprache lernen BC04
- (Ergebnisse integrieren)
19Auffinden von Hidden Web Quellen BC04
- Ziel Finde Webseiten, die als Einstiegspunkt ins
Hidden Web dienen. - Seiten mit HTML Formular
- Einschränkungen
- Textuelle Formulare
- mindestens ein Textinput
- Nicht nur radio buttons, menus, checkboxen...
- Anfrageformulare
- Formulare, die Anfragen entgegennehmen und
Informationen liefern - Keine Login Seiten
- Hidden Web Formulare
- Keine Seiten mit komplexen Formularen (mehr als
ein Inputfeld) - Aufgabe Automatisches Finden und Erkennen von
Hidden Web Formularen
André Bergholz, Xerox
20Auffinden von Hidden Web Quellen BC04
- Manuell ?
- Automatisches Auffinden von Formularen
- Google-Suche (nach Themen)
- Lokales breadth-first Crawling bis Formular
gefunden - Innerhalb einer Site
- Bis zu einer festen Tiefe
- Automatisches Erkennen von Hidden Web Formularen
(Heuristiken) - Testanfragen mit positiven und negativen
Suchwörtern - Positiv passende Worte
- Negativ Fantasieworte
- Ergebnisse negativer Suchwörter immer gleich groß
(Byte) - Ergebnisse positiver Suchworte immer größer als
negative - Berechnung der Größe durch Subtraktion von
Webseiten (als Baum)
21Überblick
- Motivation Be01,To01
- Suche über das Web
- Begriffe und Definitionen
- Auffinden von Hidden Web Informationsquellen
- Potentielle Hidden Web Quellen Finden BC04
- Themen extrahieren
IGS01 - Klassifikation nach Themen
IGS01 - Anfragen an relevante Quellen des Hidden Web
- Anfragen geeignet verteilen IGS01
- Anfragesprache lernen BC04
- (Ergebnisse integrieren)
Panagiotis G. Ipeirotis, NYU
22Suche im Hidden Web Probleme
- Auswahl relevanter Quellen für Anfrage
- Themen extrahieren
- Content summary
- Nach Themen klassifizieren
Hidden Web
Hidden Web Metasearcher
PubMed
Library of Congress
ESPN
Nieren 220,000 Steine 40,000 ...
Nieren 5 Steine 40 ...
Nieren 20 Steine 950 ...
Quelle Folie aus IGS01
23Klassifikation von Hidden Web Quellen
- Klassifikation hier
- Hierarchie über Kategorien und Subkategorien
- Zuordnung von Quellen ist nicht immer eindeutig.
- Manuell
- Yahoo
- InvisibleWeb (www.invisibleweb.com)
- SearchEngineGuide (www.searchengineguide.com)
- Hierarchien sind einsehbar.
- Automatisch
- Basierend auf Kategorie der Dokumente in der
Quelle
24(No Transcript)
25(No Transcript)
26Content Summaries
- Statistiken, die den Inhalt einer Hidden Web
Quelle beschreiben - Document-cardinality dc
- Anzahl der Dokumente insgesamt
- Document-frequency df(w)
- Pro Wort Anzahl der Dokumente, die dieses Wort
enthalten
KrebsDB KrebsDB
Document cardinality 148.944 Document cardinality 148.944
Wort Document frequency
Darm 121.134
Krebs 91.688
... ...
Vorschau zur Verwendung von content
summaries Anfrage Darm-Krebs Anzahl Treffer
dc df(Darm)/dc df(Krebs)/dc 74569
27Suche im Hidden Web Probleme
- Wie extrahiert man content summaries?
- Wie verwendet man content summaries?
Basketball 4 Krebs 4,532 CPU 23
Web Database
Basketball 4 Krebs 4,532 CPU 23
Web Database 1
Basketball 4 Krebs 60,298 CPU 0
Web Database 2
Metasearcher
Krebs
Basketball 6,340 Krebs 2 CPU 0
Web Database 3
Quelle Folie aus IGS01
28Extraktion von Content Summaries Probleme
- Kein direkter Zugang zu den Dokumenten ohne
konkrete Anfrage - Gebundene Variablen
- Deswegen Anfrage-basiertes Dokument-Sampling
- Sinnvolle Anfrage an Datenbank schicken
(focussed probing) - Ergebnisliste mit Links
- (Ergebnisdokument)
- Ergebnisdokumente aus Liste einholen (das
Sample) - Sample verwenden um content summary zu erstellen
Quelle Folie aus IGS01
29Zufälliges Anfrage-basiertes Sampling
- Start mit leerem content summary
- Jedes Wort hat df(w) 0.
- Wähle ein Wort und schicke es als Anfrage an
Hidden Web Quelle. - Wähle top-k Dokumente der Antwort (z.B. k4).
- Zähle df(w) für alle w in Sample um content
summary zu füllen. - Wiederhole bis genug (z.B. 300) Dokumente
empfangen wurden
Wort Häufigkeit in Sample Krebs 150 (out of
300) aids 114 (out of 300) Herz 98 (out of 300)
Basketball 2 (out of 300)
Quelle Folie aus IGS01
30Zufälliges Sampling Probleme
- df(w) zwischen 1 und Anzahl der Dokumente
- Es wird nicht Document-frequency ermittelt,
sondern Sample-frequency. - Absolute Zahlen sind nicht aussagekräftig.
- Große Quellen haben ähnliche content summary wie
kleine Quellen. - Zahlen sind nur relativ zu interpretieren (als
ranking). - Viele Anfragen ohne oder nur mit kleinem Ergebnis
(Zipfs law) - Viele, seltene Worte fehlen in der content
summary.
Viele Worte erscheinen nur in ein oder zwei
Dokumenten.
Deshalb jetzt verbesserte Lösung
Quelle Folie aus IGS01
31Zufälliges Sampling Verbesserung
- Algorithmus Überblick
- Trainiere Dokument-Klassifikatoren
- Finde repräsentative Wörter für jede Kategorie.
- Verwende Klassifikationsregeln um ein
themenspezifisches Sample aus Quelle zu erhalten. - Schätze df(w) aller entdeckten Wörter.
Quelle Folie aus IGS01
32Fokussiertes Sampling Trainingsphase
- Start mit vordefinierter Themen-Hierarchie und
bereits klassifizierten Dokumenten - Bsp Yahoo, dmoz Open Directory, Google ...
- Trainiere Dokument-Klassifikatoren für jeden
Knoten der Hierarchie. - Extrahiere automatisch Regeln aus den
Klassifikatoren - ibm AND computers ? Computers
- lung AND cancer ? Health
-
- angina ? Heart
- hepatitis AND liver ? Hepatitis
Root
Health
Quelle Folie aus IGS01
33Fokussiertes Sampling
- Transformiere jede Regel in eine Boolesche
Anfrage. - Für jede Anfrage
- Schicke Anfrage an Quelle
- Merke Anzahl der Ergebnisse
- Parsing
- Hole top-k Dokumente ein.
- Am Ende einer Runde
- Analysiere Ergebnisse für jede Kategorie
(zählen). - Wähle Kategorie zum fokussieren in nächster Runde.
Quelle Folie aus IGS01
34Fokussiertes Sampling
- Fokus nun auf Subkategorie
- Neue Regelmenge, deshalb neue Anfragemenge
- Vorteile
- Weniger Anfragen
- Fokussierte Anfragen
Quelle Folie aus IGS01
35Fokussiertes Sampling
Aufruf für jede Kategorie und Subkategorie
Anfragen entsprechend der Regeln des
Klassifikators
Sammle Dokumente ein
Bei Ein-Wort Anfragen erlernen wir die
tatsächliche df(w)
Zähle sample-frequency für jedes Wort
Maße zur Berechnung des Grades der Zugehörigkeit
zu einer Kategorie
Falls hinreichend zu einer Subkategorie zugehörig
Wiederhole für Subkategorie
Vereinige gesammelte Metadaten
Quelle IG02
36Zugehörigkeit von Hidden Web Quellen zu Kategorien
- Coverage (Abdeckung) basierte Klassifikation
- Quelle D wird allen Kategorien Ci zugeordnet, für
die D hinreichend viele Dokumente enthält. - Specificity (Spezifizität) basierte
Klassifikation - Quelle D wird allen Kategorien Ci zugeordnet, die
eine hinreichende Menge von Dokumenten in D
abdecken. - Wahl der Schwellwerte beeinflusst Klassifikation
- Hohe Specificity sammelt spezialisierte (kleine)
Quellen - Hohe Coverage sammelt allgemeinere (große) Quellen
- Beispielkategorie Fußball
- Sport.de vs. Frauenfussball.de
- Sport.de
- Hohe coverage
- Alles über Fußball
- Niedrige specificity
- Auch viel über andere Sportarten
- Frauenfußball
- Niedrige coverage
- Nur Teilausschnitt der Fußballwelt
- Hohe specificity
- Nur Fußball
Quelle Folie aus IGS01
37Sample-frequency vs. Document-frequency
- Motivation
- Sample-frequencies sind nur relativ.
- Quelle mit ähnlichem Inhalt aber
unterschiedlicher Größe haben gleiche content
summary. - Sample Frequencies
- Leber erscheint in 200 von 300 Dokumenten im
Sample. - Niere erscheint in 100 von 300 Dokumenten im
Sample. - Hepatitis erscheint in 30 von 300 Dokumenten im
Sample. - Document-frequencies
- Anfrage Leber ergibt 140,000 Matches.
- Anfrage Hepatitis ergibt 20,000 Matches.
- Niere war kein Trainingswort
- Darm und Krebs waren zwar Trainingsworte,
aber nur gemeinsam.
Zur Abschätzung der (besseren) Document-frequencie
s werden Infos der Ein-Wort Anfragen verwendet.
Quelle Folie aus IGS01
38Abschätzen der Document-frequencies
- Bekannt aus Algorithmus
- Ranking r der Worte nach Sample-frequencies
- Document-frequency f der Worte aus Ein-Wort
Anfragen - Mandelbrots Formel verfeinert Zipfs Formel
- f P (rp)-B
- P, p und B sind Parameter der Quelle
- Niedriger rank ergibt hohe frequency
- Dann Kurvenanpassung
- z.B. P 8105, p .25, B 1.15
f
r
Quelle Folie aus IGS01
http//www.math.yale.edu/mandelbrot/web_pdfs/9_E7r
ankSizePlots.pdf
39Abschätzen der Document-frequencies
- Algorithmus
- Sortiere Wörter absteigend nach Sample-frequency
- Ermittle P, p und B durch Fokus auf Wörter mit
bekannter Document-frequency. (Kurvenanpassung) - Berechne df(wi) P (rip)-B für alle anderen
Wörter.
Quelle Folie aus IGS01
40Vorteile des Fokussierten Sampling
- Wenige Anfragen (Fokus auf Thema)
- Vielversprechende Anfragen
- Klassifikation along the way
- Nützlich für Auswahl relevanter Quellen
- Schätzung Document-frequency statt nur
Sample-frequency.
Quelle Folie aus IGS01
41Überblick
- Motivation Be01,To01
- Suche über das Web
- Begriffe und Definitionen
- Auffinden von Hidden Web Informationsquellen
- Potentielle Hidden Web Quellen Finden BC04
- Themen extrahieren
IGS01 - Klassifikation nach Themen
IGS01 - Anfragen an relevante Quellen des Hidden Web
- Anfragen geeignet verteilen IGS01
- Anfragesprache lernen BC04
- (Ergebnisse integrieren)
42Suche im Hidden Web Probleme
- Wie extrahiert man content summaries?
- Wie verwendet man content summaries?
Basketball 4 Krebs 4,532 CPU 23
Web Database
Basketball 4 Krebs 4,532 CPU 23
Web Database 1
Basketball 4 Krebs 60,298 CPU 0
Web Database 2
Krebs
Metasearcher
Basketball 6,340 Krebs 2 CPU 0
Web Database 3
43Quellenauswahl und Content Summaries
- Quellenauswahl nimmt vollständige content
summaries an. - Falls unvollständig (das Suchwort fehlt), kann
nicht entschieden werden, ob die Quelle relevant
ist. - Content summaries aus Sampling sind immer
unvollständig. - Idee Klassifikation verwenden
- Quellen gleicher Kategorie sollten auch ähnlich
content summary haben. - Content summaries verschiedener Quellen gleicher
Kategorie können sich komplementieren.
44Content Summaries für Kategorien (statt für
Quellen)
Anzahl der Quellen
Category Cancer
NumDBs 2
Anzahl der Dokumente (Summe)
Number of Documents 166,272
...
breast
133,680
...
cancer
101,423
Document-frequencies (Summe)
...
diabetes
11,344
metastasis
3,569
CANCERLIT
CancerBACUP
Somit kann jede Kategorie als Hidden Web Quelle
angesehen werden.
Number of Documents 17,328
Number of Documents 148,944
...
...
breast
121,134
breast
12,546
...
...
cancer
91,688
cancer
9,735
...
...
diabetes
11,344
diabetes
ltnot foundgt
metastasis
ltnot foundgt
metastasis
3,569
Quelle Folie aus IGS01
45Hierarchische Quellenauswahl Beispiel
Quelle Folie aus IGS01
46Überblick
- Motivation Be01,To01
- Suche über das Web
- Begriffe und Definitionen
- Auffinden von Hidden Web Informationsquellen
- Potentielle Hidden Web Quellen Finden BC04
- Themen extrahieren
IGS01 - Klassifikation nach Themen
IGS01 - Anfragen an relevante Quellen des Hidden Web
- Anfragen geeignet verteilen IGS01
- Anfragesprache lernen BC04
- (Ergebnisse integrieren)
47Anfragen an Quellen des Hidden Web
- Hidden Web Quellen verwenden unterschiedliche
Anfragesprachen (Schnittstellen-Heterogenität) - Suchwörter
- Phrasen
- Boolesche Kombinationen
Es gilt, solche Anomalien automatisch zu
entdecken.
Quelle BC04
48Anfragesprache an Quellen des Hidden Web
- Mögliche Operatoren
- O CASE, STEM, PHRASE, AND, OR, NOT
- Mögliche Syntax
- S wort, , _, , AND, OR, NOT,
, - - Ziel
- Automatische Erkennung der unterstützten
Operatoren - Automatische Erkennung der Interpretation der
Syntax
49Maschinelles Lernen für Syntax
- Zielfunktion TS ? O
- Zuordnung von Ausdrücken zu Operatoren
- Problem Nicht jede Syntax wird unterstützt
- Erweiterung von O zu O
- O CASE, STEM, PHRASE, AND, OR, NOT
- O O ? ignored, literal, unknown
- Beispiel Google
- Wort ? CASE, STEM
- ? ignored
- _ ? AND
- ? PHRASE
- AND ? AND
- OR ? OR
- NOT ? ignored
- ? AND
- - ? NOT
- ? ?literal, unknown
Google kann natürlich noch viel mehr ?
SYNONYM
50Maschinelles Lernen für Syntax
- Idee
- Testanfragen verschicken und Ergebnisgrößen
untersuchen. - Machine Learning Methoden verwenden.
- Wichtige Annahme Man kann Ergebnisgröße
herausparsen. - Training
- Hidden Web Quellen mit bekannter Syntax und
bekannten Operatoren - Testanfrage verschicken und Eigenschaften der
Ergebnisse (insbesondere Ergebnisgröße)
beobachten. - Testing
- Unbekannte Hidden Web Quelle
- Gleiche Testanfragen verschicken und
Eigenschaften vergleichen. - Welche Testanfragen?
- Welche Eigenschaften?
51Testanfragen
- Beispiele
- caSaBlancA (template RandomCase(A))
- Einzelnes Wort
- Bogart AND (template B AND)
- Nicht wohlgeformt
- Casablanca Bogart (template A B)
- Kombination von Worten
- Variationen
- Bogart Casablanca (template B A)
- In BC04 22 templates
- Templates füllen mit drei Sorten von Wortpaaren
- Phrasen A information, B retrieval
- Co-occurrence A information, B knowledge
- Nicht verwandte Worte A China, B Käse
Quelle BC04
52Eigenschaften der Ergebnisse (Features)
- Für jede Anfrage qi
- Extraktion der Trefferanzahl m(qi)
- Für jedes Paar von Anfragen qi, qj (231 Stück)
- merke (zur Normalisierung)
- -1 falls m(qi) lt m(qj)
- 0 falls m(qi) m(qj)
- 1 falls m(qi) gt m(qj)
- Dies sind dreiwertige Machine Learning Features.
- Nun Beliebiger Algorithmus für Maschinelles
Lernen verwenden - Decision Trees, k-Nearest Neighbour,
Support-Vector-Machines
Quelle BC04
53Weitere Probleme
- Stop-Wörter
- a, the, on, in, ...
- Kontextsensitive Stop-Wörter
- Google www vs. www database
- Dynamische Interpretation
- CiteSeer www databases
- (i) entspricht www AND databases
- (ii) entspricht www OR databases falls (i) leer
- Ergebnisgröße oft nur geschätzt.
54Rückblick
- Motivation Be01,To01
- Suche über das Web
- Begriffe und Definitionen
- Auffinden von Hidden Web Informationsquellen
- Potentielle Hidden Web Quellen Finden
- Themen extrahieren
- Klassifikation nach Themen
- Anfragen an relevante Quellen des Hidden Web
- Anfragen geeignet verteilen
- Anfragesprache lernen
Basketball 4 Krebs 4,532 CPU 23
Web Database
O CASE, STEM, PHRASE, AND, OR, NOT
Klassifikation
S wort, , _, , AND, OR, NOT,
, -
55Integrierte Informationssysteme
Anfrage
Design time
Run time
Integriertes Informations- system
Architekturen
Datenfusion / ETL
Anfragesprache
Anfrageplanung
Schemamanagement
Optimierung
Wrapper
Anfrageausführung
Oracle, DB2
Anwen- dung
Web Service
HTML Form
Datei- system
Integriertes Info.-system
56Semesterrückblick
57Prüfungshinweise
- Bereiten Sie ein Einstiegsthema vor.
- Besser Bereiten Sie alle Themen vor.
- Alle Referenzen schicke ich gerne per pdf zu bzw.
verleihe das Buch. - Aufsätze zu ausgewählten Themen
- http//www.informatik.hu-berlin.de/mac/lehre/WS04/
VL_WS04_Informationsintegration.html - Prüfungsprotokolle
- http//fachschaft.informatik.hu-berlin.de/pruefung
sprotokolle/index.php - Selber schreiben!
- Sprechstunde Donnerstags 15 Uhr
58Organisatorisches Werbung
- Veranstaltungen im kommenden Semester
- Ringvorlesung
- Seminar Schema Matching
- Bei anderen
- Prof. Freytag
- Implementierung von Datenbanksystemen DBS II
(HK) - Informationssysteme gestern, heute, morgen (HK)
- Prof. Schweikardt Datenbanktheorie (HK)
- Studien- und Diplomarbeiten
- Praktika
- Fuzzy Workshop
- 25.7. 27.7. 2006
59Evaluation
60Literatur
- Wichtigste Literatur
- IGS01 Probe, Count, and Classify. P.G.
Ipeirotis, L. Gravano, and M. Shami. SIGMOD 2001 - BC04 A. Bergholz and B. Chidlovskii. Learning
Query Languages of Web Interfaces, SAC04 - Weiteres
- Be01 The Deep Web Surfacing Hidden Value
Michael K. Bergman, Whitepaper at
http//www.completeplanet.com/Tutorials/DeepWeb/in
dex.asp - To01 Foliensatz von Dawne Tortorella (BellCow)
nach Be01 - IG02 Distributed Search of the Hidden Web
Hierarchical Data Sampling and Selection. P.G.
Ipeirotis and L. Gravano in VLDB 2002.