Title: Construction d
1Construction dune ontologie de descripteurs en
astronomie à partir de tables de données
- Alexandre RICHARD
- DEA Informatique
- Équipe ORPAILLEUR LORIA
- Encadrant Amedeo Napoli
- Co-encadrant Emmanuel Nauer
27 juin 2005
2Sommaire
- Quelques repères en astronomie
- Le projet Masse de données en astronomie
- Les UCD (Unified Content Descritptors)
- Domaine de lontologie
- Construction de lontologie
- Éléments de lontologie
- Construction de lontologie
- Attribution dun UCD à une description textuelle
- Traitement des colonnes Units et Explanations
- Traitement de la colonne Label
- Bilan
- Apports et perspectives
3Projet Masse de données en astronomie
- Acteurs incluent entre autres
- Centre de Données en astronomie de Strasbourg
(CDS) - Équipe ORPAILLEUR du Laboratoire Lorrain de
Recherche en Informatique et ses Applications
(LORIA) - Travaux sur des descripteurs en astronomie les
UCD (Unified Content Descriptors) - Descripteurs standardisés et universels
- Absence de sémantique formelle
- Utilisation de méthodes de fouille de texte pour
faire émerger - Lutilisation correcte des UCD
- De nouveaux UCD
- Création dune structure permettant de
représenter les UCD et les manipuler dans un
raisonnement une ontologie des UCD
4Contenu de publications en astronomie
Table de données
ReadMe
5Les UCD
Units Label Explanations UCD
--- Macs Designation meta.code
h RAh Right Ascension J2000, Epoch 1989.0 (hours) pos.eq.ra
min RAm Right Ascension J2000 (minutes) pos.eq.ra
s RAs Right Ascension J2000 (seconds) pos.eq.ra
deg DEd Declination J2000, Epoch 1989.0 (degrees) pos.eq.dec
arcmin DEm Declination J2000 (minutes) pos.eq.dec
arcsec DEs Declination J2000 (seconds) pos.eq.dec
--- Npos Number of positions used meta.numberpos
mag Mag ?99.00 Instrumental Magnitude phot.maginstr
6Domaine de lontologie(1/2)
- Domaine UCD incluant au moins un mot pos
- Une catégorie pos des mots dUCD
- Décrivent
- Des mesures de position
- Des informations sur des positions
- 58 mots sur les 427 mots dUCD valides
- Exemples
- pos position
- pos.eq coordonnées équatoriales
- pos.eq.ra ascension droite
7Domaine de lontologie (2/2)
- Problèmes pour la représentation des UCD incluant
au moins un mot pos - Pas de liste exhaustive
- Plus de 106 écritures potentielles
- Représentation des mots pos
- Exemple dexploitation associer un UCD à une
ligne de ReadMe - Exemple pos.eq.ra
8Éléments de lontologie (1/2)
- Ontologie Une ontologie est la spécification
explicite dune conceptualisation Gruber 1993 - Ontologie des mots pos
- Formalisme logiques de descriptions
- Trois types dentités
- Concept classe dindividus ayant les mêmes
propriétés. - Exemple
Concept représente
AngleUnit Les unités dangle
pos.eq.ra Les descriptions dascensions droites
9Éléments de lontologie (2/2)
- Rôle représente une relation binaire entre 2
concepts - Exemple la relation hasAngleUnit
- Individu instance dun concept
- Exemple description textuelle dune ascension
droite (instance du concept pos.eq.ra)
domaine
co-domaine
hasAngleUnit
pos.eq.ra
AngleUnit
10Construction de lontologie (1/3)
- Hypothèse un co-domaine unique et différent
pour chaque rôle - Processus de construction
- Identification des concepts
- Concepts correspondant aux mots pos
- Exemple
-
Mot pos Correspond au concept de
pos Position
pos.eq Coordonnées équatoriales
pos.eq.ra ascension droite
11Construction de lontologie (2/3)
- Écriture des définitions de concepts
- Ensemble de rôles
- Condition nécessaire et suffisante
dappartenance à lextension du concept -
- Exemple
12Construction de lontologie (3/3)
- Hiérarchisation des concepts et des rôles par la
relation de subsomption - Concepts
- Rôles
co-domaine
domaine
hasUnit
Measure
Unit
hasAngleUnit
pos.eq.ra
AngleUnit
13Hiérarchie de concepts
14Attribution dun UCD à une ligne de ReadMe
- Cas considéré UCD composé dun seul mot pos
- En entrée ligne de ReadMe
- En sortie tableau trié de concepts de
lontologie - Classement selon le degré de correspondance entre
le concept et la ligne de ReadMe. - Traitement en deux phases
- Traitement des colonnes Units et Explanations
- Traitement de la colonne Label
15Traitement des colonnes Units et Explanations
Ligne de ReadMe
Extraction du contenudes colonnes Units et
Explanations
Extract(Units) contenu de la colonne
Units Extract(Explanations) contenu de la
colonne Explanations
Extraction des co-domainessur Units et
Explanations
Codom(Extract(Units), Extract(Explanations))
ensemble de co-domaines
Classification par rapport aux concepts de
lontologie
Classement des concepts de lontologie
16Extraction du contenu des colonnes Units et
Explanations
- Extraction du contenu des colonnes Units et
Explanations - Obtention en sortie des ensembles
- Extract(Units) sExtract(Explanations)
rightascensionJ2000seconds)
17Traitement des colonnes Units et Explanations
Ligne de ReadMe
Extraction du contenudes colonnes Units et
Explanations
Extract(Units) contenu de la colonne
Units Extract(Explanations) contenu de la
colonne Explanations
Extraction des co-domainessur Units et
Explanations
Codom(Extract(Units), Extract(Explanations))
ensemble de co-domaines
Classification par rapport aux concepts de
lontologie
Classement des concepts de lontologie
18Extraction des co-domainessur Units et
Explanations (1/2)
- Objectif obtention dun ensemble de
co-domaines - Moyens utilisés
- Deux hypothèses
- Un co-domaine unique et différent pour chaque
rôle - Le co-domaine identifie le rôle de manière
non-ambiguë
19Extraction des co-domainessur Units et
Explanations (2/2)
- Des fichiers intermédiaires (fichiers de
méta-données) - Construction
- Lexpert fait lassociation contenu de colonne
rôlesexemple s hasAngleUnit, hasOneValue - Le programme construit le fichier Méta(étiquette)
(contenu de colonne, co-domaines)exemple
Méta(Units) (s, AngleUnit Value), ... - En entrée Extract(Units) sExtract(Explanat
ions) right ascension J2000 seconds) - Lecture des fichiers de méta-données
Méta(Units) (s, AngleUnit Value), ...
Méta(Explanations) (right, CcOriginEqRa
Value), (ascension, Value), ... - En sortie Codom(Extract(Units),
Extract(Explanations)) AngleUnit
CcOriginEqRa Value
20Traitement des colonnes Units et Explanations
Ligne de ReadMe
Extraction du contenudes colonnes Units et
Explanations
Extract(Units) contenu de la colonne
Units Extract(Explanations) contenu de la
colonne Explanations
Extraction des co-domainessur Units et
Explanations
Codom(Extract(Units), Extract(Explanations))
ensemble de co-domaines
Classification par rapport aux concepts de
lontologie
Classement des concepts de lontologie
21Classification par rapport aux concepts de
lontologie
- Recherche des concepts de lontologie possédant
les rôles de Codom(Extract(Units),
Extract(Explanations)) , tri selon nombre de
rôles partagés - Codom(Extract(Units), Extract(Explanations))
AngleUnit CcOriginEqRa Value - co-domaines des rôles
hasAngleUnit, hasCcOriginEqRa, hasOneValue
CONCEPT ROLES N
pos.eq.ra hasAngleUnit, hasOneValue, hasCcOriginEqRa, hasFrameTypeEq 3
pos.angDistance hasAngleUnit, hasOneValue 2
pos.az.alt hasAngleUnit, hasOneValue, hasCcOriginAzAlt, hasFrameTypeAz 2
pos.eq.dec hasAngleUnit, hasOneValue, hasCcOriginEqDec, hasFrameTypeEq 2
pos.eq.spd hasAngleUnit, hasOneValue, hasCcOriginEqSpd, hasFrameTypeEq 2
pos.parallax hasAngleUnit, hasOneValue, hasPlxMethod 2
. . . . . . . . .
22Traitement de la colonne Label (1/3)
Ligne de ReadMe
Extraction du contenude la colonnes Label
Extract(Label) contenu de la colonne Label
Extraction des co-domainessur Label
Codom(Extract(Label)) ensemble de co-domaines
Classification par rapport aux concepts de
lontologie
Classement des concepts de lontologie
23Traitement de la colonne Label (2/3)
- Étape 1 Extract(Label) RAs
- Étape 2 Méta(Label) (RAs, AngleUnit
CcOriginEqRa Value FrameTypeEq),...
Codom(Extract(Label)) AngleUnit
CcOriginEqRa Value FrameTypeEq - Étape 3 rôles hasAngleUnit, hasCcOriginEqRa,
hasOneValue, hasFrameTypeEq
CONCEPT ROLES N
pos.eq.ra hasAngleUnit, hasCcOriginEqRa, hasOneValue, hasFrameTypeEq 4
pos.eq.dec hasAngleUnit, hasCcOriginEqDec, hasOneValue, hasFrameTypeEq 3
pos.eq.spd hasAngleUnit, hasCcOriginEqSpd, hasOneValue, hasFrameTypeEq 3
pos.angDistance hasAngleUnit, hasOneValue 2
pos.az.alt hasAngleUnit, hasOneValue, hasCcOriginAzAlt, hasFrameTypeAz 2
. . . . . . . . .
24Traitement de la colonne Label (3/3)
- Sil y a toujours égalité au premier rang, cest
à lexpert de choisir parmi les concepts de
meilleur rang - Travail sur la colonne Label séparé
- Labels porteurs de beaucoup dinformation
- Labels souvent ambigus
- alpha angle de phase dune orbite dun corps
céleste - alpha ascension droite dun corps céleste
- Absence de liste des labels ou de règles de
construction - Difficulté de construction du fichier Méta(Label)
25Bilan
- Test sur 75 lignes de ReadMe
- 4 lignes attribuées avant le traitement de la
colonne Label - 42 lignes attribuées après le traitement de la
colonne Label - 26 lignes attribués par lexpert
- 3 échecs
- Compatibilité avec loutil lexico-syntaxique
existant au CDS - Indépendance du processus didentification
- Aux langues utilisées dans les ReadMe
- Aux évolutions des UCD
26Apports et Perspectives
- Application fondée sur une méthode de
classification partielle - Emploi de fichiers intermédiaires pour faire le
lien instance concept - Travaux futurs
- Prise en compte des UCD composés de plus dun mot
- Application aux 11 autres catégories de mots dUCD
27Construction dune ontologie de descripteurs en
astronomie à partir de tables de données
- Alexandre RICHARD
- DEA Informatique
- Équipe ORPAILLEUR LORIA
- Encadrant Amedeo Napoli
- Co-encadrant Emmanuel Nauer
27 juin 2005