Title: Annotations s
1Annotations sémantiques pour la localisation de
ressources par des graphes étiquetés
- Michel Chein
- LIRMM (Université Montpellier 2 et CNRS )
2Une annotation quest-ce que cest ? (1)
- Annotation de quelque chose annotation et
ressource ( document enrichment ) - Annotation et metadonnées objectives et
subjectives - Annotation sémantique pas seulement contenu,
mais aussi commentaire, remarque, usage, (ex.
dans Annotea rdftype Annotation a 7 sous-classes
prédéfinies Advice, Change, Comment, Example,
Explanation, Question, et SeeAlso)
3Une annotation quest-ce que cest ? (2)
- Annotation connaissance sur une ressource
annotation sur des annotations ( lauteur de
lannotation 33 est un imbécile, lauteur de la
ressource R11 a été financé par lauteur de
lannotation 12, ) - Base dannotations sur un ensemble de ressources
annotations formelles, ressources informelles
(textes, images, videos,) ou formelles (BdD,
base dannotations, base de composants, ), entre
base de connaissances et index sophistiqué
4Comment représenter des annotations ? (1)
- Il ny a pas de sens dans une annotation
sémantique seulement des connaissances au sens
IA, i.e. des structures de données auxquelles un
être humain peut donner un sens, les mettre en
relation avec le monde réel - Knowledge-based (souvent restreint à
ontology-based) semantic mark-up
5Comment représenter des annotations ? (2)
- Annotations représentées dans un langage formel
de représentation de connaissances (sinon les
annotations ne sont que des documents en langue
naturelle ex. résumés), - ontologies ( domain ontologies et pas
visual descriptor ontology ou multimedia
structure ontology ) - connaissances non explicites dans les ressources
(pour compléter des annotations) - contextes (ce qui est supposé connu du lecteur)
- contraintes (pour assurer une certaine cohérence
des annotations) - Pour pouvoir faire des raisonnements (déduction
et autres) réponses à une requête, complétion
dune annotation, vérification de contraintes,
6Quelques autres questions importantes
- liens ressources/annotations deux bases une de
ressources et une dannotations, ou annotation
dans les ressources - construction manuelle, automatique, assistée,
outil pour parcourir et fractionner les
ressources - construction/usage collectif/individuel de la
base dannotations - qui construit les connaissances du système
(ontologies)? - qui construit les annotations (spécialistes dun
domaine, spécialiste de documentation, tout le
monde, ) ?
7Pourquoi des annotations à quoi ça sert ?
- Catégorisation, Certification
- Recherche dinformation Semantic annotation is
a specific metadata generation and usage schema,
aiming to enable new information access methods
and to extend the existing ones. (Kiryakov) - Publication assistée sélectionner des parties de
documents, les réutiliser pour construire un
nouveau document mulimédia (recontextualisation) - Valeur ajoutée aux ressources
8Et le web sémantique ?
- Ajouter des connaissances (RDF) aux documents du
web - Etendre HTML pour décorer un document HTML par
des connaissances (semantic XHTML, langage XTiger
au dessus dAmaya) - Notre approche est meilleure que RDF mais
9- tout aussi insatisfaisante que RDF pour le web
sémantique !
10Ce dont je vais parler
- un langage permettant de définir des annotations
sémantiques, des contraintes, des règles (e.g.
connaissances implicites), et des requêtes - une méthodologie pour aider à construire des
annotations - un mot sur les algorithmes de recherche
- tout doit être simple à construire et à
comprendre (y compris les raisonnements, i.e. le
pourquoi des réponses fournies) car Nimporteki
doit pouvoir construire des annotations et
utiliser le système
11Equipe RCR
- Le modèle est basé sur un modèle de
représentation de connaissances développé au
LIRMM depuis 1992 M.-L. Mugnier, M. Leclère, O.
Haemmerlé, B.Carbonneill, O. Guinaldo, E. Salvat,
D. Genest, J.-F. Baget, - et des outils COGITO, COGITANT, COGUI, A.
Gutierrez, N. Moreau - Utilisés dans des applications en annotation et
RI dans le cadre de divers projets - MOGADOR (recherche documentaire, ABES et BNF)
- OPALES (annotations de vidéos, INA et MSH)
- SAPHIR (annotations de vidéos pour publication
assistée, INA et MSH) - LOGOS (annotations de tout type de documents pour
e-learning) - EIFFEL (RI tourisme)
12(No Transcript)
13(No Transcript)
14(No Transcript)
15Lanalyse du discours assistée par ordinateur
concepts, méthodes, outils
16(No Transcript)
17Une requête simple
1
2
Chat Garfield
Canapé
sur
Chat
1
1
1
1
proche
3
2
2
2
Bouteille
Coussin
2
Couleur Rouge
Objet
1
2
1
Lait
attr.
G
2
Q
Couleur Rouge
donc Q se déduit de G (et du vocabulaire)
18Sémantique logique
ainsi que les formules du vocabulaire traduisant
les ordres partiels
19Exemple dontologie simple
estAuteurDe(Personne,Document)
Universel
estRéalisateurDe(Personne,Vidéo)
EtreVivant
Document
X
Vidéo
Image
Personne
X
Journaliste
Homme
PPDA ? Journaliste
Femme
http//www.icones.bg/ic37.jpg ? Image
X
20(No Transcript)
21Ontologie
- Une ontologie (simple) GC
- Tc un ensemble de types de concepts ordonnés
- B ensemble densembles de types de concepts
interdits - Tr un ensemble de types de relations ordonnés
- Sr Tr?Tc définissant la signature des
relations - I un ensemble dindividus ontologiques
22Exemple (Règles)
R1
Chercheur
Equipe
membre
Tout chercheur est membre d'une équipe
? x (Chercheur (x) ? ? y Equipe(y) ? membre(x,y))
R2
Person
Person
coll
coll
La relation 'collabore' est symétrique
? x ? y ( coll(x,y) ? coll(y,x))
23Exemple (Contraintes)
Equipe
Equipe
membre
membre
Person
Person
Person
Person
aff
aff
aff
aff
Bureau
Bureau
Contrainte négative "Synergie inter-équipes"
Contrainte positive"Cloisonnement"
24Langage de données et de requêtes
- Fondamentalement des graphes bipartis étiquetés
- Une classe de sommets représentant des entités
(analogie mots-clés) - lautre classe des relations entre ces entités
(analogie relations sémantiques entre les
mots-clés, agent , instrument, ) - les étiquettes sont ordonnées (spéc./géné.)
- Pourquoi des graphes étiquetés ?
- un langage utilisable par des non informaticiens,
facilement visualisable - suffisamment riche et extensible
- bons algorithmes
25ProjectP
Query Q
Fact G
member
member
Person
Person
worksWith
Researcher
ResearcherK
ResearcherJ
member
member
worksWith
Office
Project
Project
Office124
near
Q Are there people working together, who are
each member of a project?
26ProjectP
member
member
Person
Person
worksWith
Researcher
ResearcherK
ResearcherJ
member
member
worksWith
Office
Project
Project
Office124
Query Q
Fact G
27Homomorphisme de graphes
- Un homomorphisme h de G(VG, EG) dans H(VH,EH)
est une application de VG dans VH qui
préserve les arcs - si (x,y) est dans EG, alors (h(x),h(y)) est dans
EH
d
1
2
c
G
3
b
H
a
- Homomorphisme de graphes bipartis étiquetés
ajoutent - des conditions sur la structure et sur les
étiquettes labels
28Spécialisation/Généralisation
relation de préordre sur les SGs G ? H (H ?
G) ssi il existe un homomorphisme de G dans H
G est plus général que H H est plus spécifique
que G
T
T
T
T
T
T
T
29Base logique
F
- Vocabulaire S
- t lt tr lt r
- SGs
predicats, constantes?x t(x) ? t(x)?x1... xk
r(x1,..., xk) ? r(x1,..., xk)
F
(? , ?) fbfs
- Homomorphisme équivalent à la déduction
Consistance si G ? H alors F(G) est déductible
de F(H), F(S) Complétude si F(G) est déductible
de F(H), F(S) alors G ? H
- le SG modèle est équivalent au fragment FOL(? ,
?) - (on peut se débarasser des quantificateurs
universels)
30Problèmes équivalents
- Hom de graphes étiquetésEtant donnés deux SGs G
et H, H ? G? - Hom dhypergraphes étiquetés
- Hom de structure relationnelle
- CSPUn réseau de contraintes est-il satisfiable?
- Inclusion de requêtes conjonctives Etant données
deux requêtes conjonctives Q et Q, Q
contient-elle Q ? - Déduction dans le fragment positif, conjonctif et
existentiel de FOL
31Une extension la négation atomique
- Deux problèmes de décision fondamentaux
- Déduction (Q se déduit-il de la base B?)
- Existence d'une réponse (B contient-elle une
réponse définie à Q?)
Sur les SGs ces problèmes sont les mêmes Avec
négation ce nest plus le cas
32Négation atomique dans les SGs
hypothèse du monde ouvert
G
Q
Cube A
Cube
Cube B
Objet
Déduction oui
Existence d'une réponse non
?
A
(correspond à la déduction en logique
intuitionniste)
Cube C
B
C
33Une autre extension les graphes typés emboîtés
- les graphes sont typés par un type dannotation
(e.g. contenu, thème, rhétorique, commentaire, ) - le vocabulaire est décomposé en modules, un
module définit le vocabulaire utilisable pour un
type dannotation - structure hiérarchique on peut mettre une boîte
(un graphe) dans une boîte (un sommet concept)
34Différents contenus sémantiques
- Le contenu sémantique dune annotation peut être
décrit selon plusieurs domaines - Rhétorique
- Pragmatique
- Thématique
- Médias
- MatièresAV
- Tournage
- Physique
- A tout domaine est associé une ontologie (de
domaine) - Contrainte Les graphes dans un type demboîtement
sont construits en utilisant uniquement le
vocabulaire de lontologie de domaine associée à
ce type de graphes
35Une seule ontologie (modulaire)
- Deux domaines peuvent partager une partie de leur
vocabulaire - Ex. des JT le thème dune séquence est une
personne (thématique), et cette personne est à
lécran (Médias) - Tous les graphes dune base dannotation sont
construits relativement à une unique ontologie
mais chaque emboîtement est relatif à une
sous-ontologie de cette ontologie
36Ontologie modulaire
Universel
EtreVivant
Document
X
Vidéo
Image
Personne
X
Journaliste
Medias
Homme
Femme
X
Personnes
37Annotation idD01
Physique
Icon http...ic37.jpg
belongsTo
createdBy
Anonym
Oil
medium
School Y
Entity Chania
location
support
Wood
timeLoc
Century XVIe
Description
holding
Baby TheChild
Entity Virgin
38Graphe final (base dannotations)
auteur
Person PatrickC
Annotation idD01
Physique
Icon http...ic37.jpg
Anonym
createdBy
belongsTo
auteur
Oil
medium
School Y
Entity Chania
location
Wood
support
Century XVIe
timeLoc
Description
détail
Entity Virgin
Baby TheChild
holding
Annotation idD02
Description
Entity Virgin
Eye
isPartOf
39Méthodologie pour construire des annotations
- Une ontologie (vocabulaire, contraintes, règles)
partagée - Des (graphes) patrons dannotation pour un type
- Des (graphes) prototypiques pour un type de
concept ou de relation - Des graphes individuels
40Graphe patron
41Graphe prototypique
42Prototype dune relation
43Réponses approchées, plausibles, partielles
- se limiter aux réponses exactes ? silence
- réponses inexactes basées sur le principe
dincertitude de van Rijsbergen - Given any two sentences d and q the measure of
the uncertainty of d ? q relative to a knowledge
set, is determined by the minimal transformation
of d in d, to establish the truth of d ? q - rend vivante la base dannotations
44Les transformations
- Substitutions dune étiquette compatible à une
autre ? réponses approchées - Identifications de deux sommets (joints) (
substitutions) ? réponses plausibles (? nbre de
joints) - Ajouts de concepts ? réponses partielles (? nbre
de concepts ajoutés, ? nbre de relations
ajoutées)
45Mise en oeuvre (1)
- MOGADOR
- thesaurus RAMEAU
- 400.000 termes
- UF (Used For), SA (See Also), BT (Broader Topic),
NT (Narrower Topic), RT (Related Topic) - 12 relations (obj, time, loc, geo, agt, comp, )
46Mise en oeuvre (2)
- compatible-term(x,y) il existe un chemin de y à
x tel que sa lg ? 4, le nbre de RT est ? 1, le
nbre de NT et le nbre de BT sont ? 2, le nbre de
SA et le nbre de UF sont ? 3 - compatible-relation(x,y) 2 relations qcq sont
compatibles. - acceptable-sequence(s)
- quasi-ordre total s s (fonction de ranking)
47Mise en oeuvre (3)
- C0 séquence vide.
- C1 séquences de substitutions de termes utilisant
SA. - C2 séquences de subst. de termes utilisant SA and
UF. - C3 séquences de subst. de termes utilisant SA, UF
et BT. - C4 séquences de subst. de termes utilisant SA,
UF, BT et NT. - C5 séquences de subst. de termes utilisant les 5
relations. - C6 séquences de subst. de termes ou de relations
. - C0 ? C1 ? C2 ? C3 ? C4 ? C5 ? C6
- ?s ? Ci -Ci-1, i 1, ..., 6, et ? s ? Cj et j
lti s lt s - ? s, s ? Ci -Ci-1, s s ssi lg(s) lg(s)
48Mise en oeuvre (4)
- C7 séquences de substitutions détiquettes et de
joints. - C6 ? C7.
- C8 séquences de substitutions détiquettes et de
joints et dajouts de relations. - C7 ? C8.
- C9 séquences de substitutions détiquettes et de
joints et dajouts de termes ou de relations. - C8 ? C9
- ? s ? Ci -Ci-1, i 1, ..., 9, et d ? s ? Cj et j
lt i , s lt s - ? s, s ? Ci -Ci-1, s s ssi lg(s) lg(s)
49Expression didées politiques dans la presse
écrite
1
political ideas
newspapers
2
circ
50- pol. ideas BT pol. sciences NT pol.
communication NT pol. language UF pol. discourses
ling. analysis
politic. ideas
1
1
obj
1
1
1
agt
agt
instr
politicians
journalists
circ
1
computer sc.
1
1
circ
circ
medias
51 newspapers SA news BT media
ling. analysis
politic. ideas
1
1
obj
1
1
1
agt
agt
instr
politicians
journalists
circ
1
computer sc.
1
1
circ
circ
newspapers
52 1
circ
polit. ideas
newspaper
ling. analysis
politic. ideas
1
1
obj
1
1
1
agt
agt
instr
politicians
journalists
circ
1
computer sc.
1
1
circ
circ
newspapers
53Conclusion
- les limites construction à la main (guidée)
contrôlée et enrichie automatiquement par des
contraintes et des règles. Normal pour des
commentaires, très coûteux pour des indexations.
La valeur ajoutée doit être importante. - utilisation importance des commentaires non
constructibles automatiquement (ex. rhétorique,
car non présente explicitement dans le document)
ou indexation automatique non réalisable
(aujourdhui ex. images) - demain utilisation plus large dès que lon
saura automatiquement associer des formules
logiques à des documents.
54Améliorations
- Modèles hybrides SGBD et GCs, DLs et GCs
- Apprentissage automatique de connaissanes
prototypiques - Méthodes de recherches approchées utilisant des
connaissances prototypiques - Dynamicité du vocabulaire
- Intégration de lutilisateur dans la boucle
- etc.
55Références récentes et adresses
- http//www.lirmm.fr/mugnier
- http//www.lirmm.fr/cogui/doc/getting_started_with
_cogui_onto5.htm - http//cogitant.sourceforge.net
- Genest, D., Chein, M. (2005), A Content-search
Information Retrieval Process Based on Knowledge
Graphs and the Uncertainty Principle. Knowledge
and Information Systems, (KAIS), vol. 8, n 3,
2005 - Moreau, N., Leclère M., Chein M., Gutierrez A.
(2007), Formal and Graphical Annotations For
Digital Objects, SADPI07, Intern. Work.
Semantically Aware Document Processing and
Indexing, Montpellier, May 2007 (le même en
français à IC07)
56(No Transcript)
57(No Transcript)
58(No Transcript)
59(No Transcript)
60Graphe prototypique
61Une règle
62Résultats théoriques Famille SG
SREC
SEC
SRC
règles d'inférence
règles d'évolution
SGC
SR
contraintes
règles
SG
faits
Décidabilité/complexité des problèmes de
baseAlgorithmes efficaces à base de
graphesSémantique logique, expressivité
63Famille SG décidabilité/complexité (1)
SREC
problème de déduction
semi-décidable
SEC
indécidable
SRC
règles d'évolution
règles d'inférence
P2P-Complet
SGC
semi-décidable
SR
contraintes
règles
SG
faits
NP-Complet
Des cas particuliers décidables?
64Famille SG décidabilité/complexité (2)
SREC
S3P-Complet
S3P-Complet
SEC
SRC
P2P-Complet
SGC
SR
P2P-Complet
contraintes
NP-Complet
SG
faits
NP-Complet
Si ensemble de règles à expansion finie tous
problèmes décidables En particulier, règles
range-restricted ( règles Datalog usuelles)
65Graphe orienté étiqueté aux arcs
animal
entité
chat
Chat Garfield
G
1
1
1
entre
tenir
1
rel2
3
3
2
rel3
2
2
2
Bouteille
Coussin
entité
coussin
bouteille
entité
66Un théorème fondamental de Hell
- Système relationnel binaire multigraphe orienté
avec arcs étiquetés t.q. le multigraphe partiel
des arcs avec même étiquette est un graphe. - Une étiquette correspond à un symbole de relation
binaire - Les arcs dune même étiquette correspondent aux
couples de la relation associée à la couleur
67Lopération de remplacement dune étiquette
- GJ
- On remplace tous les arcs du graphe G ayant la
même étiquette par le graphe J qui est sans
étiquette et a deux sommets distingués - G
- Jxy
- GJ
b
c
a
x
y
c
a
b
68Plusieurs étiquettes
- Chaque étiquette est remplacée par un Jk qui
constituent une famille de graphes de
remplacement rigides, forts et incomparables - Rigide pas dautre endomorphisme que lidentité
- Fort pour tout G et tout homomorphisme f de J
dans GJ, f(J) est inclus dans une copie Jxy de J
69Exemple
J1
G
x
y
x
y
J2
GJ1,J2
70Le théorème de Hell
- Il existe un mapping linéaire qui transforme
le pb de lhomomorphisme de graphes étiquetés
dans celui de lhomomorphisme de graphes non
étiquetés qui réalise une bijection entre les
ensembles dhomomorphismes. - G et H deux multi-graphe étiquetés
- h multi-graphes étiquetés?graphes
- Taille (h(g)) ?O(étiq?taille(g))
- Bijection entre Hom(G,H) et Hom(h(G),h(H))
- h G?GJ1,,Jk
71Catégories
- Le théorème de Pultr et Trnkova (1980)
- Toute catégorie concrête peut être représentée
dans la catégorie Graphe (des graphes non
orientés dont lensemble des sommets est une
partie finie des naturels) - (Catégorie concrête sous-catégorie de la
catégorie Ensemble celle des ensembles finis
munis des applications comme morphismes)