Title: Vers une ontologie du domaine de l
1Vers une ontologie du domaine de lastronomie
- IRIT
- J. Mothe, N. Hernandez, E. LeMoing
2Objectifs
- Concevoir une ontologie du domaine
- Évaluer la réutilisabilité de la connaissance du
thesaurus IAU - Détection de concepts
- Analyse des relations
- Enrichir cette connaissance à partir de textes
- Détection de nouveaux termes
- Détection de nouvelles relations
- Intégration avec les UCD
3IAU
- Thesaurus (représentation terminologique du
domaine de lastronomie) crée en 1995 - 2863 termes dont 2222 expressions (magnetic
field, X ray,) - 5000 relations entre termes de plusieurs natures
- t1 BT t2 terme t2 plus spécifique t1
- t1 NT t2 terme t2 plus générique t1
- t1 U t2 utiliser le terme t1 plutôt le terme t2
- t1 UF t2 utiliser le terme t2 à la place de t1
- t1 RT t2 t1 et t2 sont liés
4Recherche termes IAU / CORPUS
- APJ
- 1999 865 termes retrouvés
- 2002 877 termes retrouvés
- AA
- 1995 832 termes retrouvés
- 2002 884 termes
- 588 termes communs aux 4 corpus
- ? IAU adapté à lindexation de nos corpus
5Détection de concepts
- Relations U (utilisé) et UF (utilisé pour) du
thesaurus - Exemple hubble sandage variable stars UF H S
variable stars - Regroupement automatique des termes sous même
concepts (label principal terme recommandé à
utiliser) - Exemple concept hubble sandage variable stars
- label 2 H S variable stars
6Détection de concepts
- 2959 termes dans le thesaurus
- 2547 concepts ayant entre 1 et 6 labels
- Problèmes posés après première validation
- Casse non-respectée
- ?reprise de la casse de IAU (assez satisfaisant)
- Ex Ae STARS
- E CORONA
- e component
7Détection de concepts
- Labels ambiguës (définissant plusieurs concepts)
- harmonic overtones est label overtones est
label des des concepts concepts - HARMONIC FREQUENCIES OVERTONE FREQUENCIES
- OVERTONE FREQUENCIES OVERTONE MODES
- ?isolés et à valider individuellement
- Concepts ou labels trop éloignés de lastronomie
- CONCEPT AZIMUTH
- bearing
8Détection de concepts
- Besoin
- Définir une procédure dévaluation
- Evaluer labels correspondant à plusieurs concepts
- Evaluer concepts ayant plusieurs labels
- Evaluer concepts ayant un seul label
- Pertinence ou non par rapport au domaine
- Tout le domaine ??
9Hiérarchie de concepts
- Relation BT/NT définie comme relation de
généricité/spécificité - ?Création dune hiérarchisation
- Problème redondance dans relations
? suppression de 193 cycles
10Hiérarchie de concepts
- Au premier niveau 1132 concepts
- ?Difficulté pour la navigation dans lontologie
- ?Type des concepts
11Hiérarchie de concepts
- Nouveau niveau hiérarchique à partir du patron
m1s1 / m1s2 m2s2 où m1s1m2s2 - Exemples
- CURVES CURVES OF GROWTH- VELOCITY CURVES- HD
CURVE- - COLOR (dans onto) INTRINSIC COLORS-
ULTRAVIOLET COLORS- - 1132 ? 682 concepts
Concept plus spécifique proposé à ajouter
Concept plus spécifique présent dans lontologie
Concepts actuellement de niveau 1
12Hiérarchie de concepts
- Niveau plus abstrait à partir de wordnet
ressources - Sur les 682 concepts de premier niveau 189 ne
sont pas dans wordnet - 9 types abstraits
- actn2 140 abstractionn6 225
- staten4 41 psychological_featuren1 113
- entityn1 368 possessionn2 6
- phenomenonn1 105 groupn1 39
- eventn1 55
13Hiérarchie de concepts
- actn2 something that people do or cause to
happen - EX APPROXIMATION -FRAGMENTATION -EXPLOSION
-RETARDATION - staten4 the way something is with respect to
its main attributes "the current state of
knowledge" "his state of health" "in a weak
financial state" - EX PRESSURE -PLANE -IONIZATION -DESTRUCTION
14Hiérarchie de concepts
- psychological_featuren1 a feature of the
mental life of a living organism - EX SEEING WAVELENGTH- PHOTOCHEMISTRY
- entityn1 that which is perceived or known or
inferred to have its own distinct existence
(living or nonliving) - EX BEAM -THERMOSPHERE -CORE -BELT
- possessionn2 anything owned or possessed
- EX ADJUSTMENT -RATES -EFFECTS
15Hiérarchie de concepts
- abstractionn6 a general concept formed by
extracting common features from specific examples
- EX PROMINENCE -SOLSTICE -EPOCH -GAP
- phenomenonn1 any state or process known
through the senses rather than by intuition or
reasoning - EX JETS -GRAVITATION -radioactivity -TRANSPARENCY
16Hiérarchie de concepts
- groupn1 any number of entities (members)
considered as a unit - EX SYSTEM -INTERIOR -CLOUD -BETA
- eventn1 something that happens at a given
place and time - EX VARIATION -ENCOUNTER - TIDE DISSIPATION
- ? trop vague
17Hiérarchie de concepts
- Utilisation de ressources du domaine
(dictionnaire) ? - http//www.enchantedlearning.com/subjects/astron
omy/ - http//imagine.gsfc.nasa.gov/docs/dictionary.htm
l - ?faible couverture du domaine (environ 300
définition) - Définir manuellement
- gt utiliser pour concepts hors WordNet
18Analyses des relations RT
- Analyse syntaxique
- Analyse des mots communs de deux syntagmes
- reliés par RT
- Analyse par le logiciel Syntex
- Analyse du contexte dans lequel apparaissent
deux syntagmes reliés par RT, dans un corpus
19Analyses des relations RT
- 5975 relations RT
- ?287 liant syntagmes différant dun seul mot
- Exemple infrared radiation RT infrared
- ?1286 liant syntagmes comportant mot commun
- Exemple absorption spectra RT energy spectra
- Autres ? À partir des corpus (Syntex)
- Exemple agb RT hr diagram
- AA95 agb star, hr diagram of star
20Analyse des relations RT
- Définition de quatre patrons syntaxiques
- Rôle grammatical des termes communs dans le
syntagme pour découvrir relations sémantiques - Exemple Patron B - m1s1 RT m1s2 m2s2
- - s1 est un s2 (généricité/spécificité)
- Exemple dwarf cepheid est un cepheid
21Syntex
- Intérêt analyse syntagmes reliés par RT sans
mot commun à partir de contextes d apparition
dans le corpus - Syntagmes reliés par RT avec contexte commun,
détermination de la relation sémantique à partir
des patrons A,B,C,D - Syntagmes reliés par RT dont un des mots apparaît
dans le contexte de lautre syntagme,
détermination de la relation sémantique à partir
des patrons A,B,C,D
22Types de relation
- Bilan de la première proposition
- s1 est un phénomène lié a s2
- s1 est une caractéristique de s2
- s1 est une partie de s2
- s1 est un s2 (généricité/spécificité)
- s1 et s2 sont des phénomènes liés entre eux
- s1 et s2 sont des caractéristiques liées entre
elles - s1 et s2 sont deux sous-concepts dun même
concept - ?relations intéressantes?
23Types de relation
- Autres approches
- Utiliser les verbes apparaissant dans le corpus
- Verbes apparaissant fréquemment
- ? trop généraux car liés à la rédaction de
publication find show Present have observe use - Verbes avec fort tf.idf
- ? Mauvaise reconnaissance de syntex
- Mirror eclipse s vector
24Types de relation
- Utiliser le type des concepts
- Physical phenomena causer par
- Physical process fait interagir ..
- Astronomical instrumentation mesure
- Astronomical/physical technics étudie
- Astronomical object est une partie de
- Property/caracteristic caractèrise
- Theory
25- Détection de nouveaux termes du domaine
- Termes apparaissant souvent dans le corpus
- Termes avec fort tf.idf ou fort tf.idf moyen
- Syntagmes contenant un terme de lontologie
- ? évaluer pour fixer seuil et meilleure approche
26- Limites
- Mauvaise reconnaissance de Syntex (x ray, a star,
) - Besoin dun fichier en entrée de Syntex des
termes ayant une structure propre au domaine,
proposition dune liste (évaluée) - Pour approche à partir des termes de lontologie,
être certain de la pertinence des termes
27Futur
- Proposition de typage des concepts
- Nouvelles analyses de Syntex
- Nouvelles analyses des relations RT
- Approfondir ajout de nouveaux termes et leurs
liens avec lexistant - Lien avec UCD
28Termes différant dun seul mot (2)
- Relations sémantiques déduites
- Patron A m1s1 RT m1s2 m2s2
- - s1 est un phénomène lié a s2
- Exemple infrared radiation est un phénomène
lié a infrared - - s1 est une caractéristique de s2
- Exemple pulse width est une caractéristique
de pulse - - s1 est une partie de s2
- Exemple supernova envelope est une partie
de supernova
29Termes différant dun seul mot (3)
- Patron B m1s1 RT m1s2 m2s2
- - s1 est un s2 (généricité/spécificité)
- Exemple dwarf cepheid est un cepheid
30Termes ayant un mot commun
- Deux patrons syntaxiques
- m1s1 m2s1 mns1 RT m1s2 m2s2 m2sn
- où m1s1 m1s2 (patron C)
- Exemple planck black body formula RT planck
constant - 590 relations
- m1s1 ... mns1 RT m1s2.. mns2 (patron D)
- où mns1mns2
- Exemple absorption spectra RT energy spectra
- ?510 relations
31Termes ayant un mot commun (2)
- Relations sémantiques déduites
- Patron C m1s1 m2s1 mns1 RT m1s1 m2s2 m2sn
- - s1 et s2 sont des phénomènes liés entre eux
- Exemple signal analysi RT signal detection
- - s1 et s2 sont des caractéristiques liées entre
elle - Exemple circumstellar envelope RT circumstellar
shell
32Termes ayant un mot commun (3)
- Patron D m1s1 ... mns1 RT m1s2.. mns2
- s1 et s2 sont deux sous-concepts du concept mns1
- Exemple absorption spectra et energy spectra
sont des sous-concepts de spectra