Title: PowerPoint-Pr
1Content Management Systeme
2Rückblick
3Inhalt Vorlesung
- CMS Einleitung / Definition / Motivation
- Web-Content Management Systeme (WCMS)
- Information Retrieval
- Dokumentenmanagementsysteme (DMS)
- Resource Description Framework (RDF)
- Topic Maps
- Dokumentenbeschreibungssprachen (XML etc.)
4Inhalt heute
- Rückblick
- WCMS Systemarchitektur
- Datenstrukturen für WCMS
- (W)CM-Systeme
- OpenCms
- (W)CM-Organisation
- Portale
- EIP
- Information Retrieval
5Rückblick
- CMS Einleitung / Definition / Motivation
- Abgrenzung zu Datenmanagement
- Unternehmenssituation
- Integrationsproblematik
- Cross Media Publishing (Single Source)
- Unterschiedliche Dokumentformate
- Unterschiedliche Dokumenttypen
- Informationsräume
6Rückblick
- WCMS
- Definition
- Trennung von Struktur / Content / Layout /
Funktion - Einsatzkriterien
- Funktionen
- Content-Lebenszyklus
- Vergleich von Hypermedia- und Papierdokumenten
(Persistenz / sequentiell) - Mengensatz / Akzidenzsatz
7(W)CMS
Getrennte Aspekte
8Content Lebenzyklus
- Contentgenerierung
- Identifizieren
- Sammeln
- Erzeugen
- Erfassen
- Erstellen
- Contentreduzierung
- Archivierung
- Löschung
Content Management
- Contentorganisation
- Strukturieren
- Indexieren
- Filtern
- Speichern
- Verwalten
- Contentnutzung
- Interpretieren
- Anwenden
- Bewerten
- Kommentieren
- Visualisieren
- Contentaufbereitung
- Verdichten / Integration
- Verfeinerung
- Erweiterung
- Kontext Erzeugung
- Redaktion
- Contentdistribution
- Suchen
- Wissensfluss
- Logistik
9WCMS - Systemarchitektur
10WCMS Systemarchitektur
Web-Server
Medienneutralität Berechtigungsverwaltung Mehrfach
verwertung Site-Management Mehrsprachigkeit Termin
ierung Struktur Templates Content Funktionen
CMS- Engine
Datei- System
Anforderungen
Import
DB
DB- Schema
Export
Objekttypen
DMS
Legacy-Systeme
11WCMS Nutzung
Endnutzer
Web-Server
Browser
CMS- Engine
Datei- System
Handy
Import
DB
etc.
DB- Schema
Export
Print
Legacy-Systeme
12WCMS Pflege
Editor / Administrator
Web-Server
Browser
Editor
CMS- Engine
Datei- System
Client
Import
ODBC
DB
DB- Schema
Export
Legacy-Systeme
13WCMS Pflege
- Über Browser
- Mittels Webformularen
- Richtext-Editoren (eventuell mit Einschränkungen)
- Workflow
14WCMS Replikation
Produktivsystem
Entwicklungs- system
Datei- System
Import
Replikation
Export
Import
Datei- System
Legacy-Systeme
15Datenmodell für DB
n
Benutzer
Web-Site
von4
n
Editor
m
von3
von
n
m
m
1
n
m
n
von
von2
Web-Seite
Schlagwort
Version
n
n
von5
von1
1
Templates
Content
m
1
link
n
t
Text
Grafiken
Video
Audio
16(W)CM Organisation
Gesamtkoordination
Verantwortlicher
Internet / Holding
Internet / Töchter
Verantwortlicher
Verantwortlicher
Intranet / Holding
Intranet / Töchter
Verantwortlicher
Verantwortlicher
Koordination
Extranet / Holding
Extranet / Töchter
Verantwortlicher
Verantwortlicher
Teamroom Holding
Teamrom / Töchter
Verantwortlicher
Verantwortlicher
DMS
17(W)CM Organisation
Beispiel Internet Tochter
Teamleitung
Leitung
Fachbereiche
Informatik
Verantwortlicher / Editoren
Personal
Marketing
Verantwortlicher / Editoren
Entwicklung
Vertrieb 1
Verantwortlicher / Editoren
Koordination
Verantwortlicher / Editoren
Betrieb
Vertrieb 2
Unternehmens- kommunikation
Ausbildung
Verantwortlicher / Editoren
WCMS
etc.
18CMS Systeme
- Vignette Content Management Server
- Obtree (Obtree Technologies)
- Bladerunner (Broadvision)
- VIPContentManager (Gaus Interprise AG)
- Teamsite (Interwoven)
- Pirobase (Pironet NDH AG)
- Hyperwave Information Server (Hyperwave AG)
- Hyper.Net (Coextant-Systems) (Lotus Notes)
19OpenCms
- Open Source CMS
- http//www.opencms.com
- Voll browserbasiert (Netscape 6.2 (ohne WYSIWYG)
/ MS IE 5.5 mit WYSIWYG) - benötigt
- einen Servlet Container (z.B. Tomcat 4.x)
- Datenbank (MySQL, Oracle)
- komplett in Java realisiert
- Templates werden als XML Files gespeichert
20OpenCms
- Features
- Templates (strikte Trennung von Content und
Layout) - Dynamisches und statisches Publishing
- Galerie für Grafiken und Files
- Benutzermanagement / Zugriffsrechte
- Projektbasiertes Publizieren
- Workflow- und Task-Management
- Mehrsprachigkeit
21OpenCms
- Features
- WYSIWYG-Editor für MS-Internet Explorer
- Personalisierbarkeit (mit Registrierung /
Extranet, Newsletter Mails) - Integrationsunterstützung mit Umsystemen
- Versionierung (alte Versionen werden aufbewahrt,
Änderungen sind nachvollziehbar) - Synchronisationsmechanismus für ausgelagerte
Seiten im File-System. - Verfügbares Hilfesystem
22OpenCms
- Features
- SSL-Support (https)
- Import / Export von Content (ZIP-File)
- Application Server Integration (J2EE/EJB)
- PDF / WAP Support (mittels spezieller Templates
bzw. Java-Libraries) - Suchmaschine
- Load Balancing
- Wahl zwischen Frame-Layout und nicht Frame-Layout
- Metainformationen (u.a. Indexierung für
Suchmaschinen)
23Portale
24Portale
- Funktionen
- Single Point of AccessZugriff auf alle Daten,
Informationen und Applikationen über einen Client
und einen Einstiegsbildschirm. - Single Sign onNur einmalige Anmeldung am Portal
für alle beteiligten Anwendungssysteme - Personalisierungsmöglichkeit der Einstiegsseite
und der Navigationsstruktur
25Portale
- Funktionen
- Bedienung unterschiedlicher Ausgabegeräte
- Katalog (Navigation / Hyperlinks)
- Suchmaschine
- Kontextualisierung der Suchergebnisse
- Zugriff auf interne und externe Systeme
- Aktuelle Nachrichten
- Push-Funktion
26Portale
- Horizontale Portale
- sind für alle Nutzer gleich
- Suchmaschinen für spezielle Themen
- Vertikale Portale
- Sind für durch jeden Nutzer personalisierbar
- Erfordern Anmeldung / Identifikation des Nutzers
27Personalisierung
- Technisch (unterschiedliche Ausgabegeräte auch
Browser) - wirtschaftliche Zielgruppen (Technik
Benutzermodell) - unterschiedliche Inhalte
- unterschiedliches Layout
- unterschiedliche Struktur
- unterschiedliche Werbung
- Personalisierbarkeit (von jedem selbst)
28Portale
- Ziele
- Arbeitsqualität verbessern durch Verbesserung der
Qualität der Benutzerarbeitsplätze (mehr
Transparenz, mehr Interoperabilität)) - Informationsversorgung verbessern
- Informatikkosten einsparen (mittel- bis
langfristig) - Systembetrieb effizienter gestalten
- Lizenzkosten einsparen
- Niedrigere Ausbildungskosten
- Partnerfähigkeit / Flexibilität erhöhen
29Portale
- Relevante Aspekte
- Mehrere Sprachversionen
- Zugriff von überall (Ortsunabhängigkeit)
- Zugriff nur für Berechtigte
- Sicherheitsfunktionen
30EIP
- Enterprise Information Portals (EIP)
- bieten Zugriff über eine Startseite eines CLIENT
auf alle - Dokumente
- Prozesse
- Applikationen
- Daten
- eines Unternehmens und auf
- externe Informationen und Anwendungen
31EIP
- Enterprise Information Portals (EIP)
- bieten einheitlichen Zugriff auf alle Systeme
- ERP-Systeme
- Workflow-Systeme
- Transaktionssysteme
- Datenbanksysteme
- DMS
- Groupware
- DataWarehouse
- Business Intelligence
32EIP
- Enterprise Information Portals (EIP)
- Intranet
- bieten
- Single Sign on (log on)
- Personalisierung / Filterung relevanter
Informationen - Einbindung unterschiedlicher (aller)
Anwendungssysteme in eine Oberfläche - Felxibilität hinsichtlich der Ausgabegeräte
- Push-Funktion
33Information Retrieval
34Themen
- Einleitung / Definition
- IR Bewertungskriterien von IR-Systemen
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
35Einleitung
36Themen
- Einleitung / Definition
- IR Bewertungskriterien
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
37Information Retrieval
- Definition
- IR ist ein wissenschaftliches Fachgebiet
- Information Retrieval (IR) beschäftigt sich mit
Repräsentation , Speicherung und dem Zugriff von
bzw. auf Dokumente(n) bzw. deren Surrogate - to retrieve wieder bekommen, wieder herstellen
38Information Retrieval
- IR beschäftigt sich auch mit
- Konzeption, Bewertung von IR-Systemen
- Betrachtet reale IR-Systeme
- Entwickelt neue IR-Systeme
- Informationsmarkt (wirtschaftliche Verwertung /
Anwendung von IR-Systemen)
39Information Retrieval
- Inhaltserschliessung
- Vergabe von Metainformationen / Verschlagwortung
/ Indexierung) - Aufbau von Thesauri
- Klassifikation, Clusterung
- sind Voraussetzung für das Wiederfinden
- Suchtechniken (Anfragesprachen)
- Retrievalsprachen
- Reihenfolge der Ergebnisse
- Relevance-Feedback-Verfahren
- Browsing entlang Hyperlinks
40Information Retrieval
- Inhaltserschliessung
- und
- Suchtechniken
- müssen
- aufeinander abgestimmt sein!!!
41IR- Suche
- eine Suchanfrage wird mit einer Menge von
Dokumenten durch einen Abgleichmechanismus
(Matching) abgeglichen, der die relevanten
Dokumente selektiert. - Um die Suche zu beschleunigen, wird ein Index
angelegt, mittels dem auf die Dokumente
referenziert wird.
42IR-Systeme
- Bekannte Beispiele
- Internet-Portale / Suchmaschinen
- Bibliothekssysteme (z.B. Web Pac)
- http//www.ba-loerrach.de/bal_bibli.html
- http//www.ub.uni-konstanz.de/
- Online-Datenbanken (häufig Referenzretrieval
(z.B. wissenschaftliche Artikel))
43Information Retrieval
Benutzer
Informationsbedürfnis
Geordnete Ergebnisliste von Dokumenten
Formulierung in natürlicher Sprache
Formulierung in formaler Sprache
IR-System
- IR-Modell
- Anfragesprache
- Index
- Dokument repräsentation
Dokumentenbehälter
44Information Retrieval
Benutzer
Informationsbedürfnis
Browsing / Navigation entlang von Hyperlinks
Geordnete Ergebnisliste von Dokumenten
Formulierung in natürlicher Sprache
Formulierung in formaler Sprache
Katalog
IR-System
Dokumentenbehälter
45Informationsbedüfnis
- Typen
- Ich möchte eine Antwort auf folgende Frage ... (?
Faktenretrieval (SQL)) - Ich suche Informationen zum Thema ...(?
Dokumentretrieval) - Ich interessiere mich für folgendes Gebiet ...(?
Dokumentretrieval) - Ich möchte folgendes Problem besser verstehen ...
(? Dokumentretrieval / Hypermedia / Browsing /
Navigation)
46IR-Systeme
- System-Funktionen
- Suche
- Suchanfrage z.B. einzelne Suchbegriffe
- Ergebnis
- geordnete Liste von Dokumenten bzw. Verweise auf
Dokumente
47IR-Systeme
- Mögliche Ordnungskriterien für die Anzeige
- Relevanz für Suchanfrage
- Aktualität des Dokumentes
- wirtschaftliche Vereinbarungen mit
Geschäftspartnern - Ähnlichkeit mit Profil des Anfragenden
- Umfang des Dokumentes
48Themen
- Einleitung / Definition
- IR Bewertungskriterien
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
49IR Bewertungskriterien
50IR Bewertungskriterien
- Recall
- Precision
- Aufwand zur Formulierung einer Anfrage
- Antwortzeit des Retrieval-Systems
- Präsentation der Ergebnisse
- Abdeckung der Datenbank
51IR Bewertungskriterien
- hoher RECALL
- möglichst alle relevanten Informationen werden
gefunden - hohe PRECISION
- möglichst wenig nicht relevante Informationen
werden gefunden
52IR Bewertungskriterien
- Recall
- Recall GRD / RDD
- GRD Anzahl der gefundenen relevanten Dokumente
- RDD Anzahl der relevanten Dokumente der
Datenbank
53IR Bewertungskriterien
- Precision
- Precision GRD / GD
- GRD Anzahl der gefundenen relevanten Dokumente
- GD Anzahl der gefundenen Dokumente
54IR Bewertungskriterien
- Fallout Ratio
- Fallout Ratio GID / IDD
- GID Anzahl der gefundenen irrelevanten
Dokumente - IDD Anzahl der irrelevanten Dokumente in der
Datenbank
55IR Bewertungskriterien
Beispiel
sonstige Dokumente 100
gefundene Dokumente
Relevante Dokumente
GD 10
GID6
GRD 4
RDD12
IDD106
Recall 4/12 1/3 Precision 4/10
2/5 Fallout-Ratio 6/106 3/53
gefundene relevante Dokumente
56IR Bewertungskriterien
- Die drei Bewertungskriterien müssen zusammen
betrachtet (optimiert) werden! - Ein IR-System ist umso besser
- je grösser Recall und Precision sind
- je kleiner die Fall-Out-Ratio ist
- für alle Anfragen
57Themen
- Einleitung / Definition
- IR Bewertungskriterien
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
58IR Allgemeines Modell
- IR Modell (D, S, V, R)
- wobei
- D Menge aller betrachteten Dokumente (gegeben
durch spezielle Beschreibungen) - S ist die Menge aller möglichen Suchfragen
gegeben durch spezielle Beschreibungen in einer
Dokumentationssprache (Schlagworte) - V ist eine geordnete Menge (Zahlen)
- R D x S ? V ist eine Retrievalfunktion
59IR Allgemeines Modell
- Jedes d ? D wird häufig durch eine Menge von
Schlagworten beschrieben - Jedes s ? S wird häufig durch eine Menge von
Schlagworten definiert (die eventuell noch
zusätzlich speziell kombiniert werden). - V ist meist eine der folgenden 3 Mengen
- 0,1, 0,1, 0,?
- R D x S ? V ermöglicht nur dann eine an der
Relevanz orientierte Ausgabereihenfolge, der
Suchergebnisse, wenn V geordnete Menge ist.
60Themen
- Einleitung / Definition
- IR Bewertungskriterien
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
61Boolesches Retrieval
62Boolesches Retrieval
- Logische Operatoren (verknüpfen Suchbegriffe)
- es werden jeweils an Dokumenten gefunden bei
- OR
- alle Dokumente die einen der Suchbegriffe
enthalten - AND
- alle Dokumente die beide Suchbegriffe enthalten
- NOT
- alle Dokumente, die den Suchbegriff nicht
enthalten
63Boolesches Retrieval
- T sei eine Menge von Termen (Deskriptoren /
Schlagworten) - Ein Dokument d ? D wird beschrieben durch eine
Menge von Termen - d t1, ... , tn ? T
64Boolesches Retrieval
- S wird folgendermassen definiert
- a ? T dann a ? S
- a, b ? S dann (a AND b) ? S
- a, b ? S dann (a OR b) ? S
- a ? S dann (NOT a ? S)
- V 0, 1
65Boolesches Retrieval
- Retrievalfunktion R
- Für d ? D und s ? T, s1, s2 ? S gilt
- R(d,s) 1, wenn s ? d
- R(d,s) 0, wenn s ? d
- R(d,s1 ? s2) min( R(d, s1), R(d, s2))
- R(d,s1 ? s2) max( R(d, s1), R(d, s2))
- R(d, ?s) 1 R(d,s)
66Boolesches Retrieval
- Retrievalfunktion R
- dabei bedeutet
- R(d,s) 1 Dokument d wird gefunden
- R(d,s) 0 Dokument d wird nicht gefunden
67Boolesches Retrieval
- Beispiel
- T a,b,c,d,e
- d a,b,e
- s ((a ? b) ? ((? c) ? d))
- R(d,s) R(d, ((a ? b) ? ((? c) ? d)))
- max(R(d, (a ? b)), R(d, ((? c) ? d)))
- max(min(R(d,a),R(d,b)), min(R(d,(? c)),
R(d,d))) - max(min(1,1), min(1-R(d,c), 0)
- max(1, 0)
- 1
68Erweiterungsmöglichkeiten des Booleschen
Retrievals
69Suchanfragen
- Möglichkeiten
- Felder in Dokumenten berücksichtigen
- Feldselektion (CT Zement, Zement/TI)
- Vergleichsoperatoren (, lt, gt, lt, gt)
- Maskierung/ Trunkierung (Information)
- Abstandsoperatoren (ADJ, WITH, SAME, W3)(direkt
, im gleichen Satz, im gleichen Paragraph,
höchstens 3 Wörter auseinander)
70Feldselektion
- Beispiele
- FIND Information/TI
- FIND CTInformation
- F Economics (TI AB)
- FIND Economics (TI) AND Information/AB
71Boolesche Anfragen
- Beispiele
- FIND Information
- FIND Electronic Mail AND FAX
- F CTBiology
- FIND (Internet OR CompuServe) AND Commerce
72Maskierung/Trunkierung
- Beispiele
- FIND Econom
- FIND System
- F Inftion
73Abstandsoperatoren
- Beispiele
- F Inter SAME Commerce (im gleichen
Paragraphen) - F Internet WITH Information (im gleichen Satz)
- F Internet ADJ Service (direkt hintereinander)
74Abstandsoperatoren
- Abstands-Operatoren
- ADJ (ADJacency-Operator)
- Suchbegriffe müssen in der angegebenen
Reihenfolge direkt aufeinanderfolgen - WITH
- Suchbegriffe müssen in einem Satz auftreten
- SAME
- Suchbegriffe müssen in einem Absatz enthalten
sein
75Abstandsoperatoren
- Abstands-Operatoren
- NEXT
- Zwischen den Suchbegriffen dürfen maximal 5
Wörter stehen, wobei die Reihenfolge relevant ist - NEAR
- Zwischen den Suchbegriffen dürfen maximal 5
Wörter stehen, wobei die Reihenfolge nicht
relevant ist - (W3)
- Zwischen den Suchbegriffen darf ein Abstand von
höchstens 3 Wörtern bestehen
76Themen
- Einleitung / Definition
- IR Bewertungskriterien
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
77Vektor-Modell
78Vektor-Modell
- Mit dem Vektor-Modell kann man das Retrieval mit
gewichteten oder nicht gewichteten
Termzuordnungen zu Dokumenten und zu Suchanfragen
beschreiben. - Ferner lassen sich damit die Dokumente bezüglich
jeder Suchanfrage in eine Reihenfolge
hinsichtlich ihrer Relevanz für die Suchanfrage
bringen.
79Vektor-Modell
- Jedes Dokument wird durch einen Dokumentvektor
beschrieben. - m Anzahl der Terme / Schlagwörter
- T t1, ..., tm die Menge der Terme
- D D1, ... Dn die Menge der Dokumente
- 0 lt aij Gewicht von Schlagwort tj in Dokument
Di - Im Booleschen Retrieval gilt
- aij 0 oder aij 1
- Di (ai1 , ..., ajm ) ist Dokumentvektor
80Suchanfrage
- Suchanfragen s
- sind ähnlich aufgebaut wie Dokumentvektoren
- S (t1, ... , tm) ti 0 oder ti 1, i
1,...,m - sei s ? S
- M s (l1, ... , ln) (Matrix M Vektor s)
- li ? aij ti (j1...m)
- (M (aij) ist heisst Dokument-Term-Matrix)
81IR mit Ähnlichkeitsmaßen
- S wird wie die Dokumentenmenge definiert d.h. S
D. - V 0,?
- R (Retrievalfunktion) wird mit Hilfe von
Ähnlichkeitsmaßen definiert.
82IR mit Ähnlichkeitsmaßen
- R wird mit Hilfe von Ähnlichkeitsmaßen definiert
- sei d (a1, ... , am) eine Dokumentbeschreibung
- s (s1, ... , sm) eine Suchfragenbeschreibung
- Ähnlichkeitsmaße
- Innere Produktmaß ? ak sk (k 1,... m)
- Tanimotomaß
- Cosinusmaß
83Themen
- Einleitung / Definition
- IR Bewertungskriterien
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
84Dokument-Term-Matrix
85Dokument-Term-Matrix
- ermöglicht
- einheitliche Behandlung vieler Retrievalmodelle
(Matching von Anfragen und Dokumenten) - Anwendung von automatischen Cluster- und
Klassifikationsverfahren - auf die Menge der Dokumente
- auf die Menge der Terme (Schlagworte)
86Klassifikation / Clustering
- Abgrenzung / Definition
- Klassifikation
- Sinnvolle Einordnung von Objekten in vorgegebene
Klassen - Clustering
- Aufbau von Klassen aus einer Grundgesamtheit von
Objekten, zwischen denen eine Ähnlichkeitsbeziehun
g besteht
87Dokument-Term-Matrix
- Mit 0/1 Werten
- Dokumente D D1, ..., Dn
- Terme T t1, ...,tm
- Martix (aij) i 1, ..., n, j 1, ..., m
- aij 1 ? Term j ist Schlagwort für Di
- aij 0 ? Term j ist nicht Schlagwort für Di
- Dokumentvektor Di (ai1, ...,aim)
- Termvektor tj (a1j, ...,anj)
88Dokument-Term-Matrix
- Mit Ähnlichkeitsmassen
- Dokumente D D1, ..., Dn
- Terme T t1, ...,tm
- Martix (aij) i 1, ..., n, j 1, ..., m
- aij ? 0,?) ? Term tj ist Schlagwort für Di mit
Gewichtung aij - Dokumentvektor Di (ai1, ...,aim)
- Termvektor tj (a1j, ...,anj)
89Dokument-Term-Matrix
Terme
1
m
j
0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 0 1
aij
1
Dokumente
1 1 1 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0
M
i
n
Mit 0/1-Werten
90Dokument-Term-Matrix
Terme
1
m
j
0 6 0 0 0 0 8 0 0 0 0 0 0 0 0 0 7 3 2 1 0 3 0 5
aij
1
Dokumente
4 16 0 6 0 0 0 0 0 0 0 0 2 0 0 0 0 1 0 0 0 9 0
M
i
n
Mit Ähnlichkeitsmaßen
91Themen
- Einleitung / Definition
- IR Bewertungskriterien
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
92IR Methoden
- Inhaltserschliessung
- manuelle Inhaltserschliessung
- automatische Inhaltserschliessung
- reines Volltextretrieval
- (Automatisches) Indexing
- (Automatisches) Abstracting
- (Automatisches) Klassifikation
- (Automatisches) Clustering
- mit manuell erzeugtem kontrolliertem Vokabular
- mit automatisch erzeugtem kontrolliertem
Vokabular - mit Abstandsoperatoren / Trunkierung
- mit Gewichten oder nur 0,1 als Werte
93IR Methoden
- Suchtechniken
- Browsing
- Boolesche Suche
- mit Trunkierung
- mit Feldeinschränkung
- mit Vergleichsoperatoren
- mit Abstandsopertoren
- Suche mit gewichteten Suchtermen
- Relevance-Feedback-Verfahren
94Themen
- Einleitung / Definition
- IR Bewertungskriterien
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
95IR mit relationalen Datenbanken
96IR mit relationalen DBen
Volltext Retrieval
97IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste
W_ID
Wort
Doc_ID
Dokument
n
in
m
Dokumente
Wörter
Stoppwörter
98IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste und
Häufigkeit
W_ID
Wort
Doc_ID
Dokument
n
in
m
Dokumente
Wörter
Häufigkeit
Stoppwörter
99IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste, Häufigkeit
und Stelle
Stelle
Stelle
W_ID
Wort
Doc_ID
Document
n
m
in
Dokumente
Wörter
n
m
Häufigkeit
Stoppwörter
100IR mit relationalen DBen
Retrieval mit kontolliertem Vokabular
(Thesaurus), Synonymen, Häufigkeit und Stelle
Stelle
Stelle
W_ID
Wort
Doc_ID
Document
n
m
charak terisiert
Dokumente
Schlagwörter
n
m
1
gehört zu
Häufigkeit
n
Synonyme
101IR mit relationalen DBen
Doc_ID
Document
Retrieval mit Thesaurus, Häufigkeit, Stelle
Synonymen und Abstandsoperatoren
Stellen
Dokumente
Stelle
m
W_ID
Wort
Kapitel
n
charakteri siert
Absatz
Schlagwörter
n
1
1
gehört zu2
gehört zu
Häufigkeit
n
n
m
Satz
Synonyme
102IR mit relationalen DBen
Doc_ID
Document
Retrieval mit Thesaurus, Gewicht, Stelle
Synonymen und Abstandsoperatoren
Stellen
Dokumente
Stelle
m
W_ID
Wort
Kapitel
n
charakteri siert
Absatz
Schlagwörter
n
1
1
gehört zu2
gehört zu
Gewicht
n
n
m
Satz
Synonyme
103Themen
- Einleitung / Definition
- IR Bewertungskriterien
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
104Indexierung
105Manuelle Indexierung
106Manuelle Indexierung
- erfolgt durch Menschen (Bibliothekare etc.)
- Zuordnung von Schlagworten (Deskriptoren /
Termen) zu einem Dokument, um ein Dokument
thematisch zu beschreiben, damit es später
darüber gefunden werden kann. - Erfolgt häufig auf der Basis eines kontrollierten
Vokabulars (Thesaurus) - häufig erfolgt zusätzlich eine Klassifikation auf
der Basis eines vorgegebenen Klassifikationsschema
s
107Schlagworte
- Ein Schlagwort ist ein Wort, das den
Dokumentinhalt thematisch charakterisiert - Schlagwörter sollten meist Substantive im
Nominativ und im Singular sein - Sie dienen dazu Dokumente zu selektieren
- Schlagworte, die alle Dokumente charakterisieren
sind deshalb nutzlos - Die Relevanz von Schlagworten zur Beschreibung
von Dokumenten kann unterschiedlich gross sein
108Thesaurus
- einfaches semantisches Netz
- Relationen
- Oberbegriff (BT Broader Term)
- Unterbegriff (NT Narrower term)
- Synonyme / Homonyme (durch Kontextangabe)
- RT Related Terms
- häufig ohne Hyperlinks für manuelle Nutzung,
nicht für automatische Nutzung realisiert - Beispiele
- http//de.dir.yahoo.com/Nachschlagewerke/thesauri/
109Signifikanzfaktoren
- zur Selektion relevanter Deskriptoren
- Manuelle Bestimmung einer Stoppwortliste (der,
die, das, ein, etc.) - Nur Substantive (Nominativ, Singular)
- Automatisches Verfahren bezüglich Häufigkeit von
Deskriptoren in Dokumentkollektionen.
110Signifikanzfaktoren
- FREQi,k
- Häufigkeit von Term tk in Dokument Di
- TOTFREQk
- Häufigkeit von Term tk in allen Dokumenten Di
(i 1... n) (Summe der FREQi,k über alle i) - Verwende alle Terme tk mit Untergrenze lt
TOTFREQk lt Obergrenzeals Deskriptoren
111Automatische Indexierung
112Automatische Indexierung
- Ziel
- Automatische Ermittlung der besten Schlagworte
für jedes Dokument einer betrachteten
Dokumentkollektion - Automatische Ermittlung von Gewichten (WEIGHTs) ,
mit denen die vorkommenden Schlagworte den
einzelnen Dokumenten zugeordnet werden
113Automatische Indexierung
- Ermittlung aller vorkommender Wörter einer
Dokumentkollektion(Titel und Abstract zusammen
liefern schon gute Ergebnisse (Volltextanalyse
ist nicht unbedingt notwendig)) - Eliminierung der Stoppwörter (ca. 250)
- Identifikation guter Deskriptoren
- Stammformenreduktion
- Bestimmung von Synonymen (manuell / Thesaurus)
114Automatische Indexierung
- Berechnung der Dokument-Term-Matrixz.B. gemäss
(Weighti,k ) - Zuweisung von Deskriptoren zu den Dokumenten
erfolgt ab einem definierten Termgewicht (binär
oder statistisch) - Bei binärem Modell wird der Term zugewiesen, wenn
er mindestens einmal im Dokument vorkommt
115Automatische Indexierung
- Zunächst
- Bestimmung der (besten) Deskriptoren (Terme) für
eine Dokumentkollektion als ganzer - Annahme
- Die besten Terme in einer Dokument-kollektion
sind jene Terme, die in der Dokumentkollektion
insgesamt nicht zu oft und nicht zu selten
vorkommen.
116Automatische Indexierung
- DOCFREQk (Dokumentenhäufigkeit)
- Anzahl der Dokumente, in denen tk vorkommt.
- Ein sinnvolles Mass für die inverse
Dokumentenhäufigkeit ist - INV-DOCFREQk Log2 (n / DOCFREQk) 1
- Dabei ist n die Anzahl der betrachteten
Dokumente
117Automatische Indexierung
- sinnvolle Gewichtsfunktionen für die Indexierung
eines Dokumentes Di mit dem Term tk ist - Weighti,k FREQi,k INV-DOCFREQk
118Themen
- Einleitung / Definition
- IR Bewertungskriterien
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
119Automatisches Clustering
120Ähnlichkeiten zwischen Vektoren
- Ähnlichkeit zwischen Dokumenten und Deskriptoren
können mittels der Term-Dokument-Matrix ermittelt
werden. - SIMILAR(Di, Dj) Di Dj (innere Vektorprodukt)
- i,j 1, ..., n
- SIMILAR(ti, tj) ti tj (innere Vektorprodukt)
- i,j 1, ..., m
121Ähnlichkeiten zwischen Vektoren
- Dies führt zu
- Term-Term-Ähnlichkeitsmatrizen
- SIMILAR(ti,tj) i,j 1, ..., m
- und
- Dokument-Dokument-Ähnlichkeitsmatrizen
- SIMILAR(Di,Dj) i,j 1, ..., n
122Clustering
- Klassen von ähnlichen Termen
- Klassen von ähnlichen Dokumenten
- basieren auf den zugehörigen Ähnlichkeitsmatrizen
- Kriterium
- Dokumente bzw. Terme werden in Abhängigkeit von
den bestehenden Ähnlichkeiten zu Klassen zusammen
gefasst.
123Clustering
- Es gibt mehrere Verfahren
- Viele Verfahren starten mit Ausgangsklassen, die
unterschiedlich bestimmt werden können - z.B.
- Termmengen in einem Dokument oder einer
Dokumentmenge - Termmengen in Dokumenten, die auf eine Suchfrage
hin gefunden wurden
124Clustering
- Für jede so bestimmte Klasse wird ein
Term-Centroid (bzw. Dokument-Centroid) als
Durchschnittsvektor der Klassen bestimmt - Für eine Klassen K mit m Termvektoren t1, ...,
tm Centroid(K) 1/m Summe tk - Dann werden alle Ähnlichkeiten zwischen allen
Centroiden und allen Termen berechnet, die keine
Centroide sind
125Clustering
- 4. Jeder Term wird der Klasse zugeordnet, zu
dessen Centroid er die höchste Ähnlichkeit hat. - 5. Falls ein Term die Klasse wechselt, wird der
Prozess erneut durchlaufen
126Clustering
- Auf den Klassen lässt sich eine Hierarchie
definieren, indem man Centroide zu Klassen
zusammenfasst. - Hierarchische Klassen auf Termen können so zum
automatischen Aufbau von hierarchischen Katalogen
verwendet werden. - Die Cluster können auch als Basis einer
grafischen Retrievalsprache verwendet werden,
indem die Cluster mit den enthalten Termen und
den Ähnlichkeitsmaßen zwischen den Termen
grafisch dargestellt und durch Klickoperationen
Navigations- bzw. Anfragen ausgelöst werden
können.
127Relevance Feedback
- Beim Relevance Feedback Verfahren werden vom
Benutzer als sehr relevant gekennzeichnete
Ergebnisdokumente einer Recherche, zur
Verbesserung der Suche als neuerliche Suchfragen
(als Termvektor), verwendet.
128Themen
- Einleitung / Definition
- IR Bewertungskriterien
- IR-Modelle / Konzepte / Methoden
- Allgemeines Modell
- Boolesches Retrieval
- Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
- Dokument-Term-Matrix
- Methoden
- IR mit relationalen Datenbanken
- Indexierung
- Clustering
- Informationsmarkt
129Informationsmarkt
130Informationsmarkt
- Online-Datenbanken
- Datenbasisproduzenten(produzieren Datenbasen)
- Datenbankanbieter/Hosts(betreiben
Online-Datenbanken mit verschiedenen Datenbasen) - Jeder Datenbankanbieter hat möglicherweise eigene
Retrievalsprache
131CCL
- Common Command Language (CCL) for Online
Interactive Information Retrieval - Ist eine Standardisierung im Bereich
Retrievalsprache für Online-Datenbanken (NISO). - http//www.niso.org/standards/standard_detail.cfm?
std_id563
132Informationsmarkt
- Online-Datenbanken - Datenbanktypen
- Textdatenbanken
- Referenzdatenbanken
- bibliographische Datenbanken
- (Autor, Titel, Zeitschrift, Heft, Seiten)
- sonstige Referenzdatenbanken
- (Patente, Projekte, Firmen, Experten)
- Volltextdatenbanken
133Informationsmarkt
- Online-Datenbanken - Datenbanktypen
- Faktendatenbanken
- numerische Datenbanken (Außenhandels-Statistiken,
Börsendaten) - Formeldatenbanken(Physik, Chemie, Technik)
- integrierte Datenbanken
- Multimedia-Datenbanken
134Information Retrieval
- Wichtige Datenbankanbieter
- DIALOG (450 DBen, allround)
- DATASTAR (350 DBen, allround)
- STN International (200 DBen, Technik, Naturw.)
- LEXIS-NEXIS (Volltexte Presse, Wirtschaft,
Recht) - GENIOS (500 DBen,Wirtschaft,Firmen,Branchen)
- GBI (160 DBen, Betriebswirtschaftliche Infos
- FIZ Technik (110 DBen, Technikm Naturw.,
Patente) - DIMDI (100 DBen, Medizin, Agrar,Psychologie)
- Questel Orbit (120 DBen, Patente, Technik,
Naturw.)
135Information Retrieval
- WWW-Adressen Datenbankanbieter
- DIALOG http//www.dialog.com
- DATASTAR http//www.datastarweb.com
- STN International http//www.fiz-karlsruhe.de
- LEXIS-NEXIS http//www.lexis-nexis.com
- GENIOS http//www.genios.de
- GBI http//www.gbi.de
- FIZ Technik http//www.fiz-technik.de
- DIMDI http//www.dimdi.de
- Questel Orbit http//www.questel-orbit.de
136Science Citation Index
- http//www.isinet.com/isi/products/citation/sci/in
dex.htmlcr - ermöglicht die Suche nach allen
wissenschaftlichen Dokumenten, in denen ein
spezielles wissenschaftliches Dokument zitiert
wird (d.h. im Literaturverzeichnis auftaucht).
137Datenbankverzeichnisse
- Gale Directory of Databases
- http//library.dialog.com/bluesheets/html/bl0230.h
tml - provides detailed information on publicly
available databases and database products
accessible through an online vendor, Internet, or
batch processor, or available for direct lease,
license, or purchase as a CD-ROM, diskette,
magnetic tape, or handheld product.
138IR Vorgehen
- Formulierung des Informationsproblems
- Auswahl der Datenbank
- Studieren der Datenbankstruktur
- Studieren der Retrievalsprache
- Formulierung spezifischer Suchanfrage
- Suchanfrage stellen
- Suchergebnis bewerten
- Dokumente entsprechend abrufen bzw. Suchanfrage
umformulieren