Title: Catalog Integration Made Easy
1Catalog Integration Made Easy
P.J. Marrón, G. Lausen und M. Weber Universität
Freiburg
2Integration elektronischer Kataloge
- eCatalogs sind die Grundlage des eBusiness.
- Gewünscht sind integrierte Kataloge.
- diese funktionieren aber derzeit noch nicht
zufriedenstellend - Physische Integration hat Nachteile,
- Logische Integration ebenso.
- Schön wäre eine Integration (fast) ohne Aufwand.
- das genau kann eine adaptive Auswertung leisten.
3 lokaler Katalog
globaler Katalog
Anfrage /department/mobile//jammer/price ?
products
department
computing
jammer
mobile
company
name
price
product
personel
price
4Übersicht
- Adaptive Auswertung von XPath
- XPath
- XPath Subanfrage-Transformationen
- Bewertung von Transformationen
- Integration elektronischer Katalog
- Architektur
- Experimente
- Zusammenfassung
5(i) XPath
- Eine XPath-Query Q ist ein Location-Path der
Form - L1/L2/.../Ln,
- wobei jedes Li eine Funktion geschrieben als
Location-Step.
Ein Location-Step hat die Form axisnodetestpre
dicate-expression Jeder Location-Step Li
definiert eine XPath-Subquery qi der Form qi
(Ci, Li, Ci1 ), wobei Ci der Input-Kontext und
Ci1 der Ausgabe-Kontext.
Für das Resultat res(Q) der Query Q gilt res(Q)
Ln(Cn) Cn1. Der Ausgabe-Kontext einer
Subquery ist induktiv definiert zu C1 root,
Ci1 Li(Ci), 1 lt i lt n.
6- (ii) XPath Subanfrage-Transformation
A
Anfrage /A/B/C
B
angenommene Dokumentenstruktur
C
tatsächliche Struktur
A
A
D
"eliminate"
"eliminate"
"generalize"
/A/C
C
B
/A/C
/A//B/C
C
"generalize and eliminate"
B
C
/A//B
Transformation
Transformation
Transformation
7(ii) Subanfrage Transformation
- No transformation (n) verarbeite Subanfrage
unverändert, - Subquery generalization (g) ändern der Achse
- child ? descendent
- parent ? ancestor
- Subquery elimination (e) übergehe die Subanfrage.
8(iii) Bewertung von Transformationen
- Sei qi (Ci, Li, Ci1 ).
- Anwendung der 3 Transformationsregeln "keine
Transformation", "Generalisierung", und
"Eliminierung" ergibt 3 Versionen von qi mit den
entsprechenden Ausgabe-Kontexten NCi1, GCi1,
ECi1. - Somit
- Ci1 NCi1 U GCi1 U ECi1.
- Bewertung der Antworten in Ci1 mittels einer
Fitness-Funktion in Abhängigkeit der angewandten
Transformationsregel und der bereits berechneten
Bewertung des Eingabe-Kontextes Ci.
9Verwendete Fitness-Funktion
- Jeder Knoten n erhält einen Fitnesswert vn.
- Sei Ci der aktuelle Eingabe-Kontext. Sei n ? Ci
und Ci1 NCi1 U GCi1 U ECi1.Sei m ?
Ci1. - vm ist das Maximum von
- wenn m ? NCi1 , dann vm b2 vn.
- wenn m ? GCi1 , dann vm b vn.
- wenn m ? ECi1, dann vm 1 vn.
- Und b 10.
10Rechtfertigung der Fitness-Funktion
- Wir müssen Worte aus n, g, e bewerten.
- Intuitiv sollte n gtgt g, n gtgt e sein.
Jedoch warum g gtgt e? - Formal können wir auf den Worten eine gewünschte
Ordnung definieren und die Fitness Funktion
entsprechend definieren (sofern unsere Ordnung
konsistent mit n gtgt g, n gtgt e ist).
11Beispiel einer Ordnung
- eee lt permg,e,e lt perme,g,g lt ggg lt
perme,e,n lt perme,n,g lt permg,g,n lt
perme,n,n lt permn,n,g lt nnn - Seien e, g, n die entsprechenden
Fitnessbewertungen. - Dann können sie berechnet werden wie folgt
- 3e lt 2eg n gt g
- 2eg lt e2g g gt e
- n-3g2e gt 0
- 2nglt3n
- Allgemein
- n gt g, g gt e, n qlg (ql - 1) e gt 0,
wobei ql Länge der Anfrage.
n5, g2, e1
12II. Integration elektronischer Kataloge
local catalog L2
Q(G)
R(L2)
Q(G)
Q(G)
global catalog Schema G
local catalog L3
local catalog L1
R(L3)
R(L1)
Q(G)
R(L1,L2,L3)
13Nodes Depth Outdeg
Global 129 4 16
Alternate 299 5 18
Reichelt 89 5 9
K M 136 4 22
Artificial 27 3 6
Kataloge
Fehlerraten (in ) bei
Alt. Rei. KM Art.
Global 2.8 0.3 4.8 1.8
Level 2.7 0.3 2.6 1.8
Query 2.4 0.1 3.1 1.8
Node 2.3 0.1 3.4 1.0
Alt. Rei. KM Art.
Alt. - 1.1 2.3 0.9
Rei. 4.8 - 2.4 0.8
KM 1.6 0.0 - 0.0
Art. 0.0 0.0 6.0 -
Anfragen an den globalen Katalog
Anfragen an einen lokalen Katalog
14III. Zusammenfassung
- XPath ist die derzeit am intensivsten studierte
Anfragesprache für XML. - Eine adaptive Auswertung von XPath ist praktisch
gut motivierbar. - Qualität der adaptiver Auswertung empirisch
belegt. - Verschiedene Möglichkeiten zur Verbesserungen des
Verfahrens definiert und implementiert. - Adaptive Auswertungstechnik verspricht eine
effiziente und skalierbare Integration
elektronischer Kataloge.