PowerPoint-Pr - PowerPoint PPT Presentation

1 / 138
About This Presentation
Title:

PowerPoint-Pr

Description:

Title: PowerPoint-Pr sentation Author: Rechenzentrum Last modified by: Prof. Dr. Fabian Glasen Created Date: 4/3/2002 8:40:33 PM Document presentation format – PowerPoint PPT presentation

Number of Views:58
Avg rating:3.0/5.0
Slides: 139
Provided by: Rechenzentrum
Category:
Tags: powerpoint

less

Transcript and Presenter's Notes

Title: PowerPoint-Pr


1
Content Management Systeme
2
Rückblick
3
Inhalt Vorlesung
  • CMS Einleitung / Definition / Motivation
  • Web-Content Management Systeme (WCMS)
  • Information Retrieval
  • Dokumentenmanagementsysteme (DMS)
  • Resource Description Framework (RDF)
  • Topic Maps
  • Dokumentenbeschreibungssprachen (XML etc.)

4
Inhalt heute
  • Rückblick
  • WCMS Systemarchitektur
  • Datenstrukturen für WCMS
  • (W)CM-Systeme
  • OpenCms
  • (W)CM-Organisation
  • Portale
  • EIP
  • Information Retrieval

5
Rückblick
  • CMS Einleitung / Definition / Motivation
  • Abgrenzung zu Datenmanagement
  • Unternehmenssituation
  • Integrationsproblematik
  • Cross Media Publishing (Single Source)
  • Unterschiedliche Dokumentformate
  • Unterschiedliche Dokumenttypen
  • Informationsräume

6
Rückblick
  • WCMS
  • Definition
  • Trennung von Struktur / Content / Layout /
    Funktion
  • Einsatzkriterien
  • Funktionen
  • Content-Lebenszyklus
  • Vergleich von Hypermedia- und Papierdokumenten
    (Persistenz / sequentiell)
  • Mengensatz / Akzidenzsatz

7
(W)CMS
Getrennte Aspekte
8
Content Lebenzyklus
  • Contentgenerierung
  • Identifizieren
  • Sammeln
  • Erzeugen
  • Erfassen
  • Erstellen
  • Contentreduzierung
  • Archivierung
  • Löschung

Content Management
  • Contentorganisation
  • Strukturieren
  • Indexieren
  • Filtern
  • Speichern
  • Verwalten
  • Contentnutzung
  • Interpretieren
  • Anwenden
  • Bewerten
  • Kommentieren
  • Visualisieren
  • Contentaufbereitung
  • Verdichten / Integration
  • Verfeinerung
  • Erweiterung
  • Kontext Erzeugung
  • Redaktion
  • Contentdistribution
  • Suchen
  • Wissensfluss
  • Logistik

9
WCMS - Systemarchitektur
10
WCMS Systemarchitektur
Web-Server
Medienneutralität Berechtigungsverwaltung Mehrfach
verwertung Site-Management Mehrsprachigkeit Termin
ierung Struktur Templates Content Funktionen
CMS- Engine
Datei- System
Anforderungen
Import
DB
DB- Schema
Export
Objekttypen
DMS
Legacy-Systeme
11
WCMS Nutzung
Endnutzer
Web-Server
Browser
CMS- Engine
Datei- System
Handy
Import
DB
etc.
DB- Schema
Export
Print
Legacy-Systeme
12
WCMS Pflege
Editor / Administrator
Web-Server
Browser
Editor
CMS- Engine
Datei- System
Client
Import
ODBC
DB
DB- Schema
Export
Legacy-Systeme
13
WCMS Pflege
  • Über Browser
  • Mittels Webformularen
  • Richtext-Editoren (eventuell mit Einschränkungen)
  • Workflow

14
WCMS Replikation
Produktivsystem
Entwicklungs- system
Datei- System
Import
Replikation
Export
Import
Datei- System
Legacy-Systeme
15
Datenmodell für DB
n
Benutzer
Web-Site
von4
n
Editor
m
von3
von
n
m
m
1
n
m
n
von
von2
Web-Seite
Schlagwort
Version
n
n
von5
von1
1
Templates
Content
m
1
link
n
t
Text
Grafiken
Video
Audio
16
(W)CM Organisation
Gesamtkoordination
Verantwortlicher
Internet / Holding
Internet / Töchter
Verantwortlicher
Verantwortlicher
Intranet / Holding
Intranet / Töchter
Verantwortlicher
Verantwortlicher
Koordination
Extranet / Holding
Extranet / Töchter
Verantwortlicher
Verantwortlicher
Teamroom Holding
Teamrom / Töchter
Verantwortlicher
Verantwortlicher
DMS
17
(W)CM Organisation
Beispiel Internet Tochter
Teamleitung
Leitung
Fachbereiche
Informatik
Verantwortlicher / Editoren
Personal
Marketing
Verantwortlicher / Editoren
Entwicklung
Vertrieb 1
Verantwortlicher / Editoren
Koordination
Verantwortlicher / Editoren
Betrieb
Vertrieb 2
Unternehmens- kommunikation
Ausbildung
Verantwortlicher / Editoren
WCMS
etc.
18
CMS Systeme
  • Vignette Content Management Server
  • Obtree (Obtree Technologies)
  • Bladerunner (Broadvision)
  • VIPContentManager (Gaus Interprise AG)
  • Teamsite (Interwoven)
  • Pirobase (Pironet NDH AG)
  • Hyperwave Information Server (Hyperwave AG)
  • Hyper.Net (Coextant-Systems) (Lotus Notes)

19
OpenCms
  • Open Source CMS
  • http//www.opencms.com
  • Voll browserbasiert (Netscape 6.2 (ohne WYSIWYG)
    / MS IE 5.5 mit WYSIWYG)
  • benötigt
  • einen Servlet Container (z.B. Tomcat 4.x)
  • Datenbank (MySQL, Oracle)
  • komplett in Java realisiert
  • Templates werden als XML Files gespeichert

20
OpenCms
  • Features
  • Templates (strikte Trennung von Content und
    Layout)
  • Dynamisches und statisches Publishing
  • Galerie für Grafiken und Files
  • Benutzermanagement / Zugriffsrechte
  • Projektbasiertes Publizieren
  • Workflow- und Task-Management
  • Mehrsprachigkeit

21
OpenCms
  • Features
  • WYSIWYG-Editor für MS-Internet Explorer
  • Personalisierbarkeit (mit Registrierung /
    Extranet, Newsletter Mails)
  • Integrationsunterstützung mit Umsystemen
  • Versionierung (alte Versionen werden aufbewahrt,
    Änderungen sind nachvollziehbar)
  • Synchronisationsmechanismus für ausgelagerte
    Seiten im File-System.
  • Verfügbares Hilfesystem

22
OpenCms
  • Features
  • SSL-Support (https)
  • Import / Export von Content (ZIP-File)
  • Application Server Integration (J2EE/EJB)
  • PDF / WAP Support (mittels spezieller Templates
    bzw. Java-Libraries)
  • Suchmaschine
  • Load Balancing
  • Wahl zwischen Frame-Layout und nicht Frame-Layout
  • Metainformationen (u.a. Indexierung für
    Suchmaschinen)

23
Portale
24
Portale
  • Funktionen
  • Single Point of AccessZugriff auf alle Daten,
    Informationen und Applikationen über einen Client
    und einen Einstiegsbildschirm.
  • Single Sign onNur einmalige Anmeldung am Portal
    für alle beteiligten Anwendungssysteme
  • Personalisierungsmöglichkeit der Einstiegsseite
    und der Navigationsstruktur

25
Portale
  • Funktionen
  • Bedienung unterschiedlicher Ausgabegeräte
  • Katalog (Navigation / Hyperlinks)
  • Suchmaschine
  • Kontextualisierung der Suchergebnisse
  • Zugriff auf interne und externe Systeme
  • Aktuelle Nachrichten
  • Push-Funktion

26
Portale
  • Horizontale Portale
  • sind für alle Nutzer gleich
  • Suchmaschinen für spezielle Themen
  • Vertikale Portale
  • Sind für durch jeden Nutzer personalisierbar
  • Erfordern Anmeldung / Identifikation des Nutzers

27
Personalisierung
  • Technisch (unterschiedliche Ausgabegeräte auch
    Browser)
  • wirtschaftliche Zielgruppen (Technik
    Benutzermodell)
  • unterschiedliche Inhalte
  • unterschiedliches Layout
  • unterschiedliche Struktur
  • unterschiedliche Werbung
  • Personalisierbarkeit (von jedem selbst)

28
Portale
  • Ziele
  • Arbeitsqualität verbessern durch Verbesserung der
    Qualität der Benutzerarbeitsplätze (mehr
    Transparenz, mehr Interoperabilität))
  • Informationsversorgung verbessern
  • Informatikkosten einsparen (mittel- bis
    langfristig)
  • Systembetrieb effizienter gestalten
  • Lizenzkosten einsparen
  • Niedrigere Ausbildungskosten
  • Partnerfähigkeit / Flexibilität erhöhen

29
Portale
  • Relevante Aspekte
  • Mehrere Sprachversionen
  • Zugriff von überall (Ortsunabhängigkeit)
  • Zugriff nur für Berechtigte
  • Sicherheitsfunktionen

30
EIP
  • Enterprise Information Portals (EIP)
  • bieten Zugriff über eine Startseite eines CLIENT
    auf alle
  • Dokumente
  • Prozesse
  • Applikationen
  • Daten
  • eines Unternehmens und auf
  • externe Informationen und Anwendungen

31
EIP
  • Enterprise Information Portals (EIP)
  • bieten einheitlichen Zugriff auf alle Systeme
  • ERP-Systeme
  • Workflow-Systeme
  • Transaktionssysteme
  • Datenbanksysteme
  • DMS
  • Groupware
  • DataWarehouse
  • Business Intelligence

32
EIP
  • Enterprise Information Portals (EIP)
  • Intranet
  • bieten
  • Single Sign on (log on)
  • Personalisierung / Filterung relevanter
    Informationen
  • Einbindung unterschiedlicher (aller)
    Anwendungssysteme in eine Oberfläche
  • Felxibilität hinsichtlich der Ausgabegeräte
  • Push-Funktion

33
Information Retrieval
34
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien von IR-Systemen
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

35
Einleitung
36
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

37
Information Retrieval
  • Definition
  • IR ist ein wissenschaftliches Fachgebiet
  • Information Retrieval (IR) beschäftigt sich mit
    Repräsentation , Speicherung und dem Zugriff von
    bzw. auf Dokumente(n) bzw. deren Surrogate
  • to retrieve wieder bekommen, wieder herstellen

38
Information Retrieval
  • IR beschäftigt sich auch mit
  • Konzeption, Bewertung von IR-Systemen
  • Betrachtet reale IR-Systeme
  • Entwickelt neue IR-Systeme
  • Informationsmarkt (wirtschaftliche Verwertung /
    Anwendung von IR-Systemen)

39
Information Retrieval
  • Inhaltserschliessung
  • Vergabe von Metainformationen / Verschlagwortung
    / Indexierung)
  • Aufbau von Thesauri
  • Klassifikation, Clusterung
  • sind Voraussetzung für das Wiederfinden
  • Suchtechniken (Anfragesprachen)
  • Retrievalsprachen
  • Reihenfolge der Ergebnisse
  • Relevance-Feedback-Verfahren
  • Browsing entlang Hyperlinks

40
Information Retrieval
  • Inhaltserschliessung
  • und
  • Suchtechniken
  • müssen
  • aufeinander abgestimmt sein!!!

41
IR- Suche
  • eine Suchanfrage wird mit einer Menge von
    Dokumenten durch einen Abgleichmechanismus
    (Matching) abgeglichen, der die relevanten
    Dokumente selektiert.
  • Um die Suche zu beschleunigen, wird ein Index
    angelegt, mittels dem auf die Dokumente
    referenziert wird.

42
IR-Systeme
  • Bekannte Beispiele
  • Internet-Portale / Suchmaschinen
  • Bibliothekssysteme (z.B. Web Pac)
  • http//www.ba-loerrach.de/bal_bibli.html
  • http//www.ub.uni-konstanz.de/
  • Online-Datenbanken (häufig Referenzretrieval
    (z.B. wissenschaftliche Artikel))

43
Information Retrieval
Benutzer
Informationsbedürfnis
Geordnete Ergebnisliste von Dokumenten
Formulierung in natürlicher Sprache
Formulierung in formaler Sprache
IR-System
  • IR-Modell
  • Anfragesprache
  • Index
  • Dokument repräsentation

Dokumentenbehälter
44
Information Retrieval
Benutzer
Informationsbedürfnis
Browsing / Navigation entlang von Hyperlinks
Geordnete Ergebnisliste von Dokumenten
Formulierung in natürlicher Sprache
Formulierung in formaler Sprache
Katalog
IR-System
Dokumentenbehälter
45
Informationsbedüfnis
  • Typen
  • Ich möchte eine Antwort auf folgende Frage ... (?
    Faktenretrieval (SQL))
  • Ich suche Informationen zum Thema ...(?
    Dokumentretrieval)
  • Ich interessiere mich für folgendes Gebiet ...(?
    Dokumentretrieval)
  • Ich möchte folgendes Problem besser verstehen ...
    (? Dokumentretrieval / Hypermedia / Browsing /
    Navigation)

46
IR-Systeme
  • System-Funktionen
  • Suche
  • Suchanfrage z.B. einzelne Suchbegriffe
  • Ergebnis
  • geordnete Liste von Dokumenten bzw. Verweise auf
    Dokumente

47
IR-Systeme
  • Mögliche Ordnungskriterien für die Anzeige
  • Relevanz für Suchanfrage
  • Aktualität des Dokumentes
  • wirtschaftliche Vereinbarungen mit
    Geschäftspartnern
  • Ähnlichkeit mit Profil des Anfragenden
  • Umfang des Dokumentes

48
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

49
IR Bewertungskriterien
50
IR Bewertungskriterien
  • Recall
  • Precision
  • Aufwand zur Formulierung einer Anfrage
  • Antwortzeit des Retrieval-Systems
  • Präsentation der Ergebnisse
  • Abdeckung der Datenbank

51
IR Bewertungskriterien
  • hoher RECALL
  • möglichst alle relevanten Informationen werden
    gefunden
  • hohe PRECISION
  • möglichst wenig nicht relevante Informationen
    werden gefunden

52
IR Bewertungskriterien
  • Recall
  • Recall GRD / RDD
  • GRD Anzahl der gefundenen relevanten Dokumente
  • RDD Anzahl der relevanten Dokumente der
    Datenbank

53
IR Bewertungskriterien
  • Precision
  • Precision GRD / GD
  • GRD Anzahl der gefundenen relevanten Dokumente
  • GD Anzahl der gefundenen Dokumente

54
IR Bewertungskriterien
  • Fallout Ratio
  • Fallout Ratio GID / IDD
  • GID Anzahl der gefundenen irrelevanten
    Dokumente
  • IDD Anzahl der irrelevanten Dokumente in der
    Datenbank

55
IR Bewertungskriterien
Beispiel
sonstige Dokumente 100
gefundene Dokumente
Relevante Dokumente
GD 10
GID6
GRD 4
RDD12
IDD106
Recall 4/12 1/3 Precision 4/10
2/5 Fallout-Ratio 6/106 3/53
gefundene relevante Dokumente
56
IR Bewertungskriterien
  • Die drei Bewertungskriterien müssen zusammen
    betrachtet (optimiert) werden!
  • Ein IR-System ist umso besser
  • je grösser Recall und Precision sind
  • je kleiner die Fall-Out-Ratio ist
  • für alle Anfragen

57
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

58
IR Allgemeines Modell
  • IR Modell (D, S, V, R)
  • wobei
  • D Menge aller betrachteten Dokumente (gegeben
    durch spezielle Beschreibungen)
  • S ist die Menge aller möglichen Suchfragen
    gegeben durch spezielle Beschreibungen in einer
    Dokumentationssprache (Schlagworte)
  • V ist eine geordnete Menge (Zahlen)
  • R D x S ? V ist eine Retrievalfunktion

59
IR Allgemeines Modell
  • Jedes d ? D wird häufig durch eine Menge von
    Schlagworten beschrieben
  • Jedes s ? S wird häufig durch eine Menge von
    Schlagworten definiert (die eventuell noch
    zusätzlich speziell kombiniert werden).
  • V ist meist eine der folgenden 3 Mengen
  • 0,1, 0,1, 0,?
  • R D x S ? V ermöglicht nur dann eine an der
    Relevanz orientierte Ausgabereihenfolge, der
    Suchergebnisse, wenn V geordnete Menge ist.

60
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

61
Boolesches Retrieval
62
Boolesches Retrieval
  • Logische Operatoren (verknüpfen Suchbegriffe)
  • es werden jeweils an Dokumenten gefunden bei
  • OR
  • alle Dokumente die einen der Suchbegriffe
    enthalten
  • AND
  • alle Dokumente die beide Suchbegriffe enthalten
  • NOT
  • alle Dokumente, die den Suchbegriff nicht
    enthalten

63
Boolesches Retrieval
  • T sei eine Menge von Termen (Deskriptoren /
    Schlagworten)
  • Ein Dokument d ? D wird beschrieben durch eine
    Menge von Termen
  • d t1, ... , tn ? T

64
Boolesches Retrieval
  • S wird folgendermassen definiert
  • a ? T dann a ? S
  • a, b ? S dann (a AND b) ? S
  • a, b ? S dann (a OR b) ? S
  • a ? S dann (NOT a ? S)
  • V 0, 1

65
Boolesches Retrieval
  • Retrievalfunktion R
  • Für d ? D und s ? T, s1, s2 ? S gilt
  • R(d,s) 1, wenn s ? d
  • R(d,s) 0, wenn s ? d
  • R(d,s1 ? s2) min( R(d, s1), R(d, s2))
  • R(d,s1 ? s2) max( R(d, s1), R(d, s2))
  • R(d, ?s) 1 R(d,s)

66
Boolesches Retrieval
  • Retrievalfunktion R
  • dabei bedeutet
  • R(d,s) 1 Dokument d wird gefunden
  • R(d,s) 0 Dokument d wird nicht gefunden

67
Boolesches Retrieval
  • Beispiel
  • T a,b,c,d,e
  • d a,b,e
  • s ((a ? b) ? ((? c) ? d))
  • R(d,s) R(d, ((a ? b) ? ((? c) ? d)))
  • max(R(d, (a ? b)), R(d, ((? c) ? d)))
  • max(min(R(d,a),R(d,b)), min(R(d,(? c)),
    R(d,d)))
  • max(min(1,1), min(1-R(d,c), 0)
  • max(1, 0)
  • 1

68
Erweiterungsmöglichkeiten des Booleschen
Retrievals
69
Suchanfragen
  • Möglichkeiten
  • Felder in Dokumenten berücksichtigen
  • Feldselektion (CT Zement, Zement/TI)
  • Vergleichsoperatoren (, lt, gt, lt, gt)
  • Maskierung/ Trunkierung (Information)
  • Abstandsoperatoren (ADJ, WITH, SAME, W3)(direkt
    , im gleichen Satz, im gleichen Paragraph,
    höchstens 3 Wörter auseinander)

70
Feldselektion
  • Beispiele
  • FIND Information/TI
  • FIND CTInformation
  • F Economics (TI AB)
  • FIND Economics (TI) AND Information/AB

71
Boolesche Anfragen
  • Beispiele
  • FIND Information
  • FIND Electronic Mail AND FAX
  • F CTBiology
  • FIND (Internet OR CompuServe) AND Commerce

72
Maskierung/Trunkierung
  • Beispiele
  • FIND Econom
  • FIND System
  • F Inftion

73
Abstandsoperatoren
  • Beispiele
  • F Inter SAME Commerce (im gleichen
    Paragraphen)
  • F Internet WITH Information (im gleichen Satz)
  • F Internet ADJ Service (direkt hintereinander)

74
Abstandsoperatoren
  • Abstands-Operatoren
  • ADJ (ADJacency-Operator)
  • Suchbegriffe müssen in der angegebenen
    Reihenfolge direkt aufeinanderfolgen
  • WITH
  • Suchbegriffe müssen in einem Satz auftreten
  • SAME
  • Suchbegriffe müssen in einem Absatz enthalten
    sein

75
Abstandsoperatoren
  • Abstands-Operatoren
  • NEXT
  • Zwischen den Suchbegriffen dürfen maximal 5
    Wörter stehen, wobei die Reihenfolge relevant ist
  • NEAR
  • Zwischen den Suchbegriffen dürfen maximal 5
    Wörter stehen, wobei die Reihenfolge nicht
    relevant ist
  • (W3)
  • Zwischen den Suchbegriffen darf ein Abstand von
    höchstens 3 Wörtern bestehen

76
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

77
Vektor-Modell
78
Vektor-Modell
  • Mit dem Vektor-Modell kann man das Retrieval mit
    gewichteten oder nicht gewichteten
    Termzuordnungen zu Dokumenten und zu Suchanfragen
    beschreiben.
  • Ferner lassen sich damit die Dokumente bezüglich
    jeder Suchanfrage in eine Reihenfolge
    hinsichtlich ihrer Relevanz für die Suchanfrage
    bringen.

79
Vektor-Modell
  • Jedes Dokument wird durch einen Dokumentvektor
    beschrieben.
  • m Anzahl der Terme / Schlagwörter
  • T t1, ..., tm die Menge der Terme
  • D D1, ... Dn die Menge der Dokumente
  • 0 lt aij Gewicht von Schlagwort tj in Dokument
    Di
  • Im Booleschen Retrieval gilt
  • aij 0 oder aij 1
  • Di (ai1 , ..., ajm ) ist Dokumentvektor

80
Suchanfrage
  • Suchanfragen s
  • sind ähnlich aufgebaut wie Dokumentvektoren
  • S (t1, ... , tm) ti 0 oder ti 1, i
    1,...,m
  • sei s ? S
  • M s (l1, ... , ln) (Matrix M Vektor s)
  • li ? aij ti (j1...m)
  • (M (aij) ist heisst Dokument-Term-Matrix)

81
IR mit Ähnlichkeitsmaßen
  • S wird wie die Dokumentenmenge definiert d.h. S
    D.
  • V 0,?
  • R (Retrievalfunktion) wird mit Hilfe von
    Ähnlichkeitsmaßen definiert.

82
IR mit Ähnlichkeitsmaßen
  • R wird mit Hilfe von Ähnlichkeitsmaßen definiert
  • sei d (a1, ... , am) eine Dokumentbeschreibung
  • s (s1, ... , sm) eine Suchfragenbeschreibung
  • Ähnlichkeitsmaße
  • Innere Produktmaß ? ak sk (k 1,... m)
  • Tanimotomaß
  • Cosinusmaß

83
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

84
Dokument-Term-Matrix
85
Dokument-Term-Matrix
  • ermöglicht
  • einheitliche Behandlung vieler Retrievalmodelle
    (Matching von Anfragen und Dokumenten)
  • Anwendung von automatischen Cluster- und
    Klassifikationsverfahren
  • auf die Menge der Dokumente
  • auf die Menge der Terme (Schlagworte)

86
Klassifikation / Clustering
  • Abgrenzung / Definition
  • Klassifikation
  • Sinnvolle Einordnung von Objekten in vorgegebene
    Klassen
  • Clustering
  • Aufbau von Klassen aus einer Grundgesamtheit von
    Objekten, zwischen denen eine Ähnlichkeitsbeziehun
    g besteht

87
Dokument-Term-Matrix
  • Mit 0/1 Werten
  • Dokumente D D1, ..., Dn
  • Terme T t1, ...,tm
  • Martix (aij) i 1, ..., n, j 1, ..., m
  • aij 1 ? Term j ist Schlagwort für Di
  • aij 0 ? Term j ist nicht Schlagwort für Di
  • Dokumentvektor Di (ai1, ...,aim)
  • Termvektor tj (a1j, ...,anj)

88
Dokument-Term-Matrix
  • Mit Ähnlichkeitsmassen
  • Dokumente D D1, ..., Dn
  • Terme T t1, ...,tm
  • Martix (aij) i 1, ..., n, j 1, ..., m
  • aij ? 0,?) ? Term tj ist Schlagwort für Di mit
    Gewichtung aij
  • Dokumentvektor Di (ai1, ...,aim)
  • Termvektor tj (a1j, ...,anj)

89
Dokument-Term-Matrix
Terme
1
m
j
0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 0 1
aij
1
Dokumente
1 1 1 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0
M
i
n
Mit 0/1-Werten
90
Dokument-Term-Matrix
Terme
1
m
j
0 6 0 0 0 0 8 0 0 0 0 0 0 0 0 0 7 3 2 1 0 3 0 5
aij
1
Dokumente
4 16 0 6 0 0 0 0 0 0 0 0 2 0 0 0 0 1 0 0 0 9 0
M
i
n
Mit Ähnlichkeitsmaßen
91
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

92
IR Methoden
  • Inhaltserschliessung
  • manuelle Inhaltserschliessung
  • automatische Inhaltserschliessung
  • reines Volltextretrieval
  • (Automatisches) Indexing
  • (Automatisches) Abstracting
  • (Automatisches) Klassifikation
  • (Automatisches) Clustering
  • mit manuell erzeugtem kontrolliertem Vokabular
  • mit automatisch erzeugtem kontrolliertem
    Vokabular
  • mit Abstandsoperatoren / Trunkierung
  • mit Gewichten oder nur 0,1 als Werte

93
IR Methoden
  • Suchtechniken
  • Browsing
  • Boolesche Suche
  • mit Trunkierung
  • mit Feldeinschränkung
  • mit Vergleichsoperatoren
  • mit Abstandsopertoren
  • Suche mit gewichteten Suchtermen
  • Relevance-Feedback-Verfahren

94
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

95
IR mit relationalen Datenbanken
96
IR mit relationalen DBen
Volltext Retrieval
97
IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste
W_ID
Wort
Doc_ID
Dokument
n
in
m
Dokumente
Wörter
Stoppwörter
98
IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste und
Häufigkeit
W_ID
Wort
Doc_ID
Dokument
n
in
m
Dokumente
Wörter
Häufigkeit
Stoppwörter
99
IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste, Häufigkeit
und Stelle
Stelle
Stelle
W_ID
Wort
Doc_ID
Document
n
m
in
Dokumente
Wörter
n
m
Häufigkeit
Stoppwörter
100
IR mit relationalen DBen
Retrieval mit kontolliertem Vokabular
(Thesaurus), Synonymen, Häufigkeit und Stelle
Stelle
Stelle
W_ID
Wort
Doc_ID
Document
n
m
charak terisiert
Dokumente
Schlagwörter
n
m
1
gehört zu
Häufigkeit
n
Synonyme
101
IR mit relationalen DBen
Doc_ID
Document
Retrieval mit Thesaurus, Häufigkeit, Stelle
Synonymen und Abstandsoperatoren
Stellen
Dokumente
Stelle
m
W_ID
Wort
Kapitel
n
charakteri siert
Absatz
Schlagwörter
n
1
1
gehört zu2
gehört zu
Häufigkeit
n
n
m
Satz
Synonyme
102
IR mit relationalen DBen
Doc_ID
Document
Retrieval mit Thesaurus, Gewicht, Stelle
Synonymen und Abstandsoperatoren
Stellen
Dokumente
Stelle
m
W_ID
Wort
Kapitel
n
charakteri siert
Absatz
Schlagwörter
n
1
1
gehört zu2
gehört zu
Gewicht
n
n
m
Satz
Synonyme
103
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

104
Indexierung
105
Manuelle Indexierung
106
Manuelle Indexierung
  • erfolgt durch Menschen (Bibliothekare etc.)
  • Zuordnung von Schlagworten (Deskriptoren /
    Termen) zu einem Dokument, um ein Dokument
    thematisch zu beschreiben, damit es später
    darüber gefunden werden kann.
  • Erfolgt häufig auf der Basis eines kontrollierten
    Vokabulars (Thesaurus)
  • häufig erfolgt zusätzlich eine Klassifikation auf
    der Basis eines vorgegebenen Klassifikationsschema
    s

107
Schlagworte
  • Ein Schlagwort ist ein Wort, das den
    Dokumentinhalt thematisch charakterisiert
  • Schlagwörter sollten meist Substantive im
    Nominativ und im Singular sein
  • Sie dienen dazu Dokumente zu selektieren
  • Schlagworte, die alle Dokumente charakterisieren
    sind deshalb nutzlos
  • Die Relevanz von Schlagworten zur Beschreibung
    von Dokumenten kann unterschiedlich gross sein

108
Thesaurus
  • einfaches semantisches Netz
  • Relationen
  • Oberbegriff (BT Broader Term)
  • Unterbegriff (NT Narrower term)
  • Synonyme / Homonyme (durch Kontextangabe)
  • RT Related Terms
  • häufig ohne Hyperlinks für manuelle Nutzung,
    nicht für automatische Nutzung realisiert
  • Beispiele
  • http//de.dir.yahoo.com/Nachschlagewerke/thesauri/

109
Signifikanzfaktoren
  • zur Selektion relevanter Deskriptoren
  • Manuelle Bestimmung einer Stoppwortliste (der,
    die, das, ein, etc.)
  • Nur Substantive (Nominativ, Singular)
  • Automatisches Verfahren bezüglich Häufigkeit von
    Deskriptoren in Dokumentkollektionen.

110
Signifikanzfaktoren
  • FREQi,k
  • Häufigkeit von Term tk in Dokument Di
  • TOTFREQk
  • Häufigkeit von Term tk in allen Dokumenten Di
    (i 1... n) (Summe der FREQi,k über alle i)
  • Verwende alle Terme tk mit Untergrenze lt
    TOTFREQk lt Obergrenzeals Deskriptoren

111
Automatische Indexierung
112
Automatische Indexierung
  • Ziel
  • Automatische Ermittlung der besten Schlagworte
    für jedes Dokument einer betrachteten
    Dokumentkollektion
  • Automatische Ermittlung von Gewichten (WEIGHTs) ,
    mit denen die vorkommenden Schlagworte den
    einzelnen Dokumenten zugeordnet werden

113
Automatische Indexierung
  • Ermittlung aller vorkommender Wörter einer
    Dokumentkollektion(Titel und Abstract zusammen
    liefern schon gute Ergebnisse (Volltextanalyse
    ist nicht unbedingt notwendig))
  • Eliminierung der Stoppwörter (ca. 250)
  • Identifikation guter Deskriptoren
  • Stammformenreduktion
  • Bestimmung von Synonymen (manuell / Thesaurus)

114
Automatische Indexierung
  • Berechnung der Dokument-Term-Matrixz.B. gemäss
    (Weighti,k )
  • Zuweisung von Deskriptoren zu den Dokumenten
    erfolgt ab einem definierten Termgewicht (binär
    oder statistisch)
  • Bei binärem Modell wird der Term zugewiesen, wenn
    er mindestens einmal im Dokument vorkommt

115
Automatische Indexierung
  • Zunächst
  • Bestimmung der (besten) Deskriptoren (Terme) für
    eine Dokumentkollektion als ganzer
  • Annahme
  • Die besten Terme in einer Dokument-kollektion
    sind jene Terme, die in der Dokumentkollektion
    insgesamt nicht zu oft und nicht zu selten
    vorkommen.

116
Automatische Indexierung
  • DOCFREQk (Dokumentenhäufigkeit)
  • Anzahl der Dokumente, in denen tk vorkommt.
  • Ein sinnvolles Mass für die inverse
    Dokumentenhäufigkeit ist
  • INV-DOCFREQk Log2 (n / DOCFREQk) 1
  • Dabei ist n die Anzahl der betrachteten
    Dokumente

117
Automatische Indexierung
  • sinnvolle Gewichtsfunktionen für die Indexierung
    eines Dokumentes Di mit dem Term tk ist
  • Weighti,k FREQi,k INV-DOCFREQk

118
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

119
Automatisches Clustering
120
Ähnlichkeiten zwischen Vektoren
  • Ähnlichkeit zwischen Dokumenten und Deskriptoren
    können mittels der Term-Dokument-Matrix ermittelt
    werden.
  • SIMILAR(Di, Dj) Di Dj (innere Vektorprodukt)
  • i,j 1, ..., n
  • SIMILAR(ti, tj) ti tj (innere Vektorprodukt)
  • i,j 1, ..., m

121
Ähnlichkeiten zwischen Vektoren
  • Dies führt zu
  • Term-Term-Ähnlichkeitsmatrizen
  • SIMILAR(ti,tj) i,j 1, ..., m
  • und
  • Dokument-Dokument-Ähnlichkeitsmatrizen
  • SIMILAR(Di,Dj) i,j 1, ..., n

122
Clustering
  • Klassen von ähnlichen Termen
  • Klassen von ähnlichen Dokumenten
  • basieren auf den zugehörigen Ähnlichkeitsmatrizen
  • Kriterium
  • Dokumente bzw. Terme werden in Abhängigkeit von
    den bestehenden Ähnlichkeiten zu Klassen zusammen
    gefasst.

123
Clustering
  • Es gibt mehrere Verfahren
  • Viele Verfahren starten mit Ausgangsklassen, die
    unterschiedlich bestimmt werden können
  • z.B.
  • Termmengen in einem Dokument oder einer
    Dokumentmenge
  • Termmengen in Dokumenten, die auf eine Suchfrage
    hin gefunden wurden

124
Clustering
  1. Für jede so bestimmte Klasse wird ein
    Term-Centroid (bzw. Dokument-Centroid) als
    Durchschnittsvektor der Klassen bestimmt
  2. Für eine Klassen K mit m Termvektoren t1, ...,
    tm Centroid(K) 1/m Summe tk
  3. Dann werden alle Ähnlichkeiten zwischen allen
    Centroiden und allen Termen berechnet, die keine
    Centroide sind

125
Clustering
  • 4. Jeder Term wird der Klasse zugeordnet, zu
    dessen Centroid er die höchste Ähnlichkeit hat.
  • 5. Falls ein Term die Klasse wechselt, wird der
    Prozess erneut durchlaufen

126
Clustering
  • Auf den Klassen lässt sich eine Hierarchie
    definieren, indem man Centroide zu Klassen
    zusammenfasst.
  • Hierarchische Klassen auf Termen können so zum
    automatischen Aufbau von hierarchischen Katalogen
    verwendet werden.
  • Die Cluster können auch als Basis einer
    grafischen Retrievalsprache verwendet werden,
    indem die Cluster mit den enthalten Termen und
    den Ähnlichkeitsmaßen zwischen den Termen
    grafisch dargestellt und durch Klickoperationen
    Navigations- bzw. Anfragen ausgelöst werden
    können.

127
Relevance Feedback
  • Beim Relevance Feedback Verfahren werden vom
    Benutzer als sehr relevant gekennzeichnete
    Ergebnisdokumente einer Recherche, zur
    Verbesserung der Suche als neuerliche Suchfragen
    (als Termvektor), verwendet.

128
Themen
  • Einleitung / Definition
  • IR Bewertungskriterien
  • IR-Modelle / Konzepte / Methoden
  • Allgemeines Modell
  • Boolesches Retrieval
  • Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
  • Dokument-Term-Matrix
  • Methoden
  • IR mit relationalen Datenbanken
  • Indexierung
  • Clustering
  • Informationsmarkt

129
Informationsmarkt
130
Informationsmarkt
  • Online-Datenbanken
  • Datenbasisproduzenten(produzieren Datenbasen)
  • Datenbankanbieter/Hosts(betreiben
    Online-Datenbanken mit verschiedenen Datenbasen)
  • Jeder Datenbankanbieter hat möglicherweise eigene
    Retrievalsprache

131
CCL
  • Common Command Language (CCL) for Online
    Interactive Information Retrieval
  • Ist eine Standardisierung im Bereich
    Retrievalsprache für Online-Datenbanken (NISO).
  • http//www.niso.org/standards/standard_detail.cfm?
    std_id563

132
Informationsmarkt
  • Online-Datenbanken - Datenbanktypen
  • Textdatenbanken
  • Referenzdatenbanken
  • bibliographische Datenbanken
  • (Autor, Titel, Zeitschrift, Heft, Seiten)
  • sonstige Referenzdatenbanken
  • (Patente, Projekte, Firmen, Experten)
  • Volltextdatenbanken

133
Informationsmarkt
  • Online-Datenbanken - Datenbanktypen
  • Faktendatenbanken
  • numerische Datenbanken (Außenhandels-Statistiken,
    Börsendaten)
  • Formeldatenbanken(Physik, Chemie, Technik)
  • integrierte Datenbanken
  • Multimedia-Datenbanken

134
Information Retrieval
  • Wichtige Datenbankanbieter
  • DIALOG (450 DBen, allround)
  • DATASTAR (350 DBen, allround)
  • STN International (200 DBen, Technik, Naturw.)
  • LEXIS-NEXIS (Volltexte Presse, Wirtschaft,
    Recht)
  • GENIOS (500 DBen,Wirtschaft,Firmen,Branchen)
  • GBI (160 DBen, Betriebswirtschaftliche Infos
  • FIZ Technik (110 DBen, Technikm Naturw.,
    Patente)
  • DIMDI (100 DBen, Medizin, Agrar,Psychologie)
  • Questel Orbit (120 DBen, Patente, Technik,
    Naturw.)

135
Information Retrieval
  • WWW-Adressen Datenbankanbieter
  • DIALOG http//www.dialog.com
  • DATASTAR http//www.datastarweb.com
  • STN International http//www.fiz-karlsruhe.de
  • LEXIS-NEXIS http//www.lexis-nexis.com
  • GENIOS http//www.genios.de
  • GBI http//www.gbi.de
  • FIZ Technik http//www.fiz-technik.de
  • DIMDI http//www.dimdi.de
  • Questel Orbit http//www.questel-orbit.de

136
Science Citation Index
  • http//www.isinet.com/isi/products/citation/sci/in
    dex.htmlcr
  • ermöglicht die Suche nach allen
    wissenschaftlichen Dokumenten, in denen ein
    spezielles wissenschaftliches Dokument zitiert
    wird (d.h. im Literaturverzeichnis auftaucht).

137
Datenbankverzeichnisse
  • Gale Directory of Databases
  • http//library.dialog.com/bluesheets/html/bl0230.h
    tml
  • provides detailed information on publicly
    available databases and database products
    accessible through an online vendor, Internet, or
    batch processor, or available for direct lease,
    license, or purchase as a CD-ROM, diskette,
    magnetic tape, or handheld product.

138
IR Vorgehen
  • Formulierung des Informationsproblems
  • Auswahl der Datenbank
  • Studieren der Datenbankstruktur
  • Studieren der Retrievalsprache
  • Formulierung spezifischer Suchanfrage
  • Suchanfrage stellen
  • Suchergebnis bewerten
  • Dokumente entsprechend abrufen bzw. Suchanfrage
    umformulieren
Write a Comment
User Comments (0)
About PowerShow.com