Title: TAL et IC : outils de Traitement Automatique des Langues pour la construction dontologies partir de
1TAL et IC outils de Traitement Automatique des
Langues pour la construction dontologies à
partir de textes
- Didier BOURIGAULT
- Equipe de Recherche en Syntaxe et Sémantique
- CNRS Université Toulouse Le Mirail
- didier.bourigault_at_univ-tlse2.fr
- www.univ-tlse2.fr/erss/membres/bourigault
2Plan
- I- Ressources termino-ontologiques (RTO)
exemples, définition - II- Méthodologie de construction de RTO
- III- Outils de Traitement Automatique des
Languespour la construction de RTO - Extraction de termes
- Extraction de relations entre termes
3Partie I Ressources termino-ontologiques
exemple, définition
4RTO exemples
- Application classiques ( papier )
- dictionnaire spécialisé pour ingénieur débutant
ou étudiant - lexique pour les traducteurs spécialisés
- thesaurus pour les bases documentaires
- index thématique pour ouvrage papier
- Applications informatiques
- Thesaurus électronique pour système dindexation
automatique - Lexique bilingue pour système daide à la
traduction - Lexique sémantique pour système dextraction
dinformation - Réseau lexical pour système de recherche
dinformation - Index hypertextuel pour documentation
électronique - Base de connaissances pour système expert
- Ontologie formelle pour le Web sémantique
5Thesaurus vs. Ontologie formelle un exemple
- Domaine réanimation chirurgicale
- Un thesaurus
- Société de Réanimation de Langue Française (SRLF)
et de la Société Française d'Anesthésie et de
Réanimation (SFAR) - Fichier Excel (www.sfar.org)
- Une ontologie formelle
- construite par S. Le Moigno SPIM
UFR-Broussais-Hotel-Dieu - À partir dun corpus de compte rendus
dhospitalisation (projet REA) - Le terme hémopéritoine
6Thesaurus
Thésaurus de la SRLF et de la SFAR
hémopéritoine
7Ontologie formelle
Charlet Aussenac-Gilles
hémopéritoine
épanchement hématique localisé au niveau du
péritoine
ETAT_PATHOLOGIQUE ETAT_PATHOLOGIQUE_LOCAL
LESION adénopathie
épanchement épanchement gazeux
épanchement liquidien
épanchement de pus
épanchement hématique
ANATOMIE ANA_TISSU_ENVEL
capsule duremère mésentère
peau péritoine
LOCALISATION à_côté_de
à_l'extérieur_de au_dessus_de
au_niveau_de
LESION
(LOCALISATION) ANATOMIE
épanchement hématique
(au_niveau_de)
péritoine
8Thesaurus vs. Ontologie formelle
- Thesaurus
- Contenu
- Descripteurs, mots-clés
- Relations is_a, synonyme (terme
préférentiel), voir_aussi - Utilisé
- par un agent humain (documentaliste, spécialiste)
- pour indexer des documents
- Beaucoup dimplicite
- Ontologie formelle
- Contenu
- Une taxinomie des concepts, une taxinomie de
relation - Des rôles
- Décrit dans un langage de représentation des
connaissances - Exploité
- par un système informatique
- pour un traitement intelligent de linformation
- Inférences
- Explication nécessaire
9RTO caractérisation
- RTO ressource termino-ontologique
- une description du vocabulaire et des concepts
utilisés par une communauté dindividus dans le
cadre dune pratique (un métier) - exploitée dans une application de traitement de
linformation - Le contenu et le mode de description dune RTO
dépendent de lapplication cible. - Degré de formalisation/explicitation ??
utilisation par une machine ou par un humain - Double pertinence (tension)
- Une RTO constitue une représentation des
connaissances du domaine. - Une RTO est une ressource pour un système de
traitement de linformation
10RTO éléments de base
- Des termes, des (étiquettes de) concepts
- Simples (mots) hémopéritoine
- Complexes (groupes de mots) épanchement gazeux
- Des relations
- est_un, is_a, générique-spécifique
- voir aussi
- Autres relations sémantiques , conceptuelles
- définitions
- Problème comment trouver ces termes et ces
relations - Depuis le début des années 90, courants de
recherches actifs, qui impliquent les communautés
diverses (Ingénierie des Connaissances, TAL,
linguistique, apprentissage, ) pour mettre au
point des méthodes et des outils
11Partir des textes
- Les textes, sources dinformation
- Le vocabulaire partagé par les membres dune
communauté de praticiens se trouve dans les
textes quelle produit et utilise. - Dans certains domaines (médecine, droit, ), les
connaissances ne sont accessibles que par leur
expression linguistique. - Partir des textes pour mieux y retourner
- Quand lapplication qui exploite la RTO est un
système de traitement de linformation textuelle. - Autres sources
- Les experts, les spécialistes
- Les ressources terminologiques existantes
12Traitement de linformation textuelle
hémopéritoine
texte
L'échographie abdominale retrouve une contusion
splénique et un hémopéritoine. Traumatisme
abdominal avec une fracture de rate et un
hémopéritoine abondant, ayant nécessité une
splénectomie en urgence. Un nouvel état de choc
apparaît associé à syndrome compartimentaire
abdominal (hémopéritoine hématome
rétropéritonéal)) justifiant la laparotomie
exploratrice. L'évacuation de l'hémopéritoine ne
permet pas de mettre en évidence une cause nette
au saignement Instabilité hémodynamique
initiale, avec TA 80 / 60 et fréquence cardiaque
à 120 / min en relation avec des pertes sanguines
sur les foyers de fractures (échographie
abdominale normale, absence d hémopéritoine ou
de lésion viscérale intrapéritonéale
évidente)).deux échographies abdominales
successives un hémopéritoine évolutif, sans
pneumopéritoine, ainsi qu'un décollement
péricardique postérieur.un traumatisme
thoraco-abdominal avec fracture des arcs
postérieurs des 7e, 8e et 9e côtes droites,
contusion hépatique au niveau des segments
VI-VII, hémopéritoine de moyenne abondance,
contusion splénique,Instabilité hémodynamique
nécessitant remplissage, transfusion de culots
globulaires, PFC et plaquettes dans le cadre d'un
hémopéritoine sur fracture du bassin.
13Traitement de linformation textuelle
RTO
sevrage
(OBJET)
Noradrénaline
sevrage_Noradrénaline
sevrage en noradrénaline
sevrage de la noradrénaline
sevrage Adj? deen la? noradrénaline
sevré de noradrénaline
noradrénaline être Adv? sevré
texte
sevrage en noradrénaline le 23 / 10. Stabilité
cardiorespiratoire, le sevrage de la
Noradrénaline est fait à J5 de la réintervention
et l'extubation est réalisée à J6. Evolution
favorable avec sevrage rapide en Noradrénaline le
20 / 06 / 99. Stabilité hémodynamique initiale
correcte avec sevrage progressif en Noradrénaline
obtenu à J3. Les suites du choc hypovolémique
hémorragique sont simples, avec sevrage de
noradrénaline à J3 et extubation à J2.
L'évolution est alors favorable avec Instauration
d'une corticothérapie ayant permis un sevrage
rapide de la Noradrénaline, La patiente est
sevrée de noradrénaline le 16 / 06 / 00. Le
patient est sevré de Noradrénaline le 13 / 05 /
00. La Noradrénaline est sevrée dans la nuit du
20 au 21 / 01. Après remplissage vasculaire par
1000 cc de Plasmion et 1000 cc d'Elohes, la
Noradrénaline est rapidement sevrée
14Traitement de linformation textuelle
- Quand le système qui exploite la RTO analyse des
entrées en langue naturelle, - les liens termes ?? concepts sont
fondamentaux. - Le concept a une double fonction
- Elément de connaissance
- Classe déquivalence de motifs textuels (termes)
15Partie II Ressources termino-ontologiques
méthodologie de construction
16Lontologue au centre
Ressources existantes
Domaine
ressource terminologique
Outils TAL (text mining)
Textes
Application
17Eléments méthodologiques
Aussenac-Gilles
- Lontologue
- Cest lui qui dirige
- Vers lapplication et les utilisateurs
- Les experts
- On ne peut pas se passer deux
- Le corpus
- Source dinformation obligée pour les
applications textuelles - Il faut le construire (sélectionner, rassembler,
baliser) - Les outils de TAL
- Nécessaires
- Des outils daide
- Utilisation de ressources existantes
- Sil y en a
18Construire un corpus
- Corpus
- ensemble de textes que lanalyste rassemble pour
élaborer la RT - Type de textes
- documentation technique
- transcription dentretiens
- articles scientifiques, ...
- Construire le corpus est une tâche délicate
- Le corpus est construit en fonction de
lapplication cible - Le recours aux experts est nécessaire
- Il est important que le corpus soit balisé .
19Utiliser des outils informatiques
- La masse des documents à analyser rend impossible
une approche entièrement manuelle. - Si (puisque) les documents sont sous format
électronique, on peut (il faut) utiliser des
outils informatiques - Outils de base comptage de mots,
concordances, segments répétés - Outils linguistiques Traitement Automatique
des Langues
20Partie III Outils de Traitement Automatique
des Langues pour la construction de RTO
21Traitements de type linguistique
- Les outils effectuent des traitements de type
linguistique (vs. statistique)
Nazarenko - catégorie grammaticale
- nom, verbe, adjectif,
- variation morphologique
- genre et nombre pour les noms, les adjectifs
- personne, temps, voie pour les verbes
- groupe syntaxique
- syntagme nominal
- syntagme verbal
- relation syntaxique
- sujet de verbe, complément de verbe
morphologie syntaxe (sémantique)
22Outils de TAL pour la construction de RTO à
partir de textes
- Deux tâches essentielles
- 1) Extraction de candidats termes
- 2) Extraction de relations candidates
- Ces tâches sont réalisées le plus souvent
conjointement - Les outils proposent
- Des listes de termes, des couples determes en
relation, des classes de termes, - ? bootstrap
- lontologue dispose
- et modélise
- Il ne sagit pas de construction automatique
- mais
23III-1 Extraction de termes
24Candidat terme
- Candidat terme
- Mot ou séquence de mots extrait(e) dun corpus,
susceptible dêtre retenue par un analyste qui
construit une RTO - La définition classique du terme est non
opératoire - Symbole linguistique représentant un concept
dans un domaine de connaissance - Postulat
- Les candidats termes sont dabord des groupes
nominaux - mais les autres catégories grammaticales (verbes,
adjectifs) sont importantes - Méthodes linguistiques
- À partir dun corpus étiqueté
Nazarenko
25Extraction de candidats termes exemple
Syntagmes nominaux
Noms
connaissance 1757 modèle 924 système
839 concept 771 domaine 713 problème
561 méthodes 530 type 514 cas
513 relation 490 exemple 482 objets
467 niveau 459 tâche 451 terme 436
acquisition des connaissances 133 base de
connaissances 128 résolution de
problème 123 modèle conceptuel 122 ingénierie
des connaissances 105 point de vue
98 système d'information 87 modèle
d'expertise 55 représentation des
connaissances 53 génie logiciel 46 candidat
terme 46 structure prédicative 42 gestion
des connaissances 41 méthode de résolution de
problèmes 40 modélisation des connaissances 40
Articles du livre Ingénierie des connaissances
(Charlet et al. 2000)
26Extraction de candidats termes complexes
- Deux techniques simples et robustes
- qui sappuient sur la structure interne des unités
- patrons élémentaires
- NOM de NOM
- NOM ADJ
- ADJ NOM
- expression maximale
- ADJ? NOM NOM ADJ de
() cet outil est un logiciel dextraction de
termes complexes qui ()
logiciel dextraction extraction de termes termes
complexes
logiciel dextraction de termes complexes
27Extraction de candidats termes complexes
- Limites dune analyse étroite
- sur-génération pour les patrons élémentaires
- sous-génération pour les patrons maximaux
- faible structuration
- restrictif quant aux structures
- Prépositions autres que de , déterminants
- Syntagmes verbaux (ex construire une ontologie)
- Intérêt dune analyse syntaxique large
- Pour une extraction plus large et plus précise de
candidats termes - Pour une meilleure strucuration de la liste de
candidats termes - Pour lextraction de relations
- Nomino, Syntex,
28Syntex, un analyseur syntaxique en dépendance
Le chat de Marie mange une petite souris.
Etiquetage morphosyntaxique
Treetager
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
Syntex
Analyse syntaxique
OBJ
SUJ
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
29Syntex, résolution des ambiguïtés de rattachement
prépositionnel
- ltdisséquer en chevrongt dans le corpus ?
- (disséquer, en) dans le corpus ?
- (disséquer, en) dans le lexique ?
l'anticlinal a été disséqué en chevrons ?
ltdisséquer en chevrongt dans le corpus
?
L'érosion a disséqué le plateau rocheux en
chevrons
charge en argile, charge en poussière ? (charge,
en) dans le corpus
?
On observe une charge importante en trouble dans
les rivières
? (pauvre, en) dans le lexique
?
Il faut distinguer les roches pauvres en magnésium
30Syntex, construction dun réseau de candidats
termes
Analyse syntaxique
Extraction de syntagmes
charge
observer
observer une charge
charge importante en trouble
charge importante
31Le mur des mots
Corpus Réanimation chirurgicale (380 000 mots)
Code Civil (150 000 mots)
12 000 syntagmes nominaux freq gt 1
3 400 syntagmes nominaux freq gt 1
(extraction Syntex)
32Filtrage statistique cohésion lexicale
- Mesures issues du domaine de la lexicologie
- utilisables pour les termes complexes (constitués
de 2 éléments) - favorisent les termes qui ont une force
dassociation élevée, i.e. dont les constituants
semploient peu lun sans lautre. - Information Mutuelle
- (et aussi Dice, Jaccard, valeur de
vraissemblance, ) - nb(x) nombre total doccurrences de x
- nb(y) nombre total doccurrences de y
- nb(x,y) nombre doccurrences de x avec y
33Filtrage statistique cohésion lexicale
Requête4
Information mutuelle de syntagmes nominaux
extraits du corpus Ingénierie des Connaissances
10 log -3,43 22
14
10 log
-11,85 1167 1205
34Filtrage statistique cohésion lexicale
- Mesures peu pertinentes
- car les fréquences des constituants dun terme
complexe peuvent être élevées vis-à-vis de celle
du terme - ? sappuyer sur la productivité en Tête ou en
Expansion des mots - Nombre de syntagmes différents dont un mot est
Tête (ou Expansion)
35Filtrage statistique répartition
- Mesures issues du domaine de la Recherche
dInformations - utilisable si le corpus est partitionné
- favorisent les termes fréquents dans un nombre
limité de documents - tf idf
tf i,,j nombre doccurrences du terme i dans le
document j dfi nombre de documents contenant le
terme i N nombre total de documents
N pertinence(i / j) tf i,,j log
dfi
36Filtrage statistique répartition
- Adopter plutôt une approche contrastive
- Analyse contrastive
- Corpus de compte rendus daccidents davions.
- Chaque compte rendu est rédigé en 4 partie
- CIRconstances
- CAUses
- EVEnement
- CONséquences
37Stratégie danalyse du réseau de candidats termes
- Commencer par les syntagmes nominaux
- La fréquence est le meilleure critère numérique
de sélection pour ordonner lanalyse - Travailler par série paradigmatique
- Pour un constituant donné, analyser les syntagmes
- dont il est Tête
- dont il est Expansion (? syntagmes verbaux)
- Utiliser lanalyse contrastive
- si le corpus est partitionné
38Valider
- Qui ?
- ontologue ?? expert(s)
- Compétence, familiarité de lontologueavec le
domaine - Disponibilité, nombre des experts
- Type de lapplication
- Comment ?
- Stratégie danalyse du réseau decandidats termes
- Des interfaces
- Valider et modéliser
- Démarche ascendante guidée par le corpus
- dépouillement
- Démarche descendante guidée par le modèle
- fouille
39III-2 Extraction de relations
40Typologie des méthodes de structuration
- Méthodes structurelles
- Exploitent sur la structure syntaxique interne
des candidats termes (endotermes) - Composition syntaxique
- Variation morpho-syntaxique, lexicale
- Méthodes contextuelles
- Exploitent les contextes de co-occurrence des
candidats termes (exotermes) - Locales une relation extraite pour une
occurrence - Patrons
- Globales des relations extraites à partir dun
ensemble doccurrences - Cooccurrence statistique
- Analyse distributionnelle
41Méthode structurelle dépendance syntaxique
- dépendance syntaxique
- Chaque terme complexe se décompose en une Tête et
une Expansion - Séries paradigmatiques
42 Tous les Nom Adj ne sont pas des Nom
CT syndrome
Taxinomie de concepts
SYNDROME SYNDROME_CLINIQUE
anasarque apnée du sommeil
syndrome bronchique
syndrome cave syndrome confusionnel
SYNDROME_MIXTE état de
mort encéphalique rhabdomyolyse
syndrome de défaillance
multiviscérale syndrome de détresse
respiratoire aiguë
SYNDROME_PARACLINIQUE syndrome
alvéolaire syndrome alvéolo-interstitie
l
43Méthode structurelle variation
Principe variation
variation général morphosyntaxique
lexicale
Si S1 T E1 transférer en réanimation hausse
de la température S2 T E2 transfert en
réanimation élévation de la température Et E1
E2 transférer transfert hausse
élévation Alors S1
S2 transférer en réanimation hausse de la
température transfert en réanimation élévation
de la température
Extractionde syntagmes
Ressourceextérieure
Identificationde relation
44Méthode structurelle variation
- Type de relations
- Variation morphosyntaxique (verbe, nom) (nom,
adjectif) - Variation lexicale synonymie
- Ressources
- Variation morphosyntaxique
- Verbaction (ERSS),
- Variation lexicale
- Ressources générales
- pour langlais WordNet
- pour le français (heu) Dicosyn (Caen), les
Voisins de Le Monde (Toulouse), - Thesaurus spécialisés
- En médecine UMLS
- Méthodes dacquisition à partir de gros corpus
45Méthodes contextuelles locales patrons de
relation
rappel précision - - généricité
un X est un Y qui
rappel - - précision généricité
tous les X, sauf le Y
rappel précision généricité
X, Y et Y
rappel ? précision généricité - -
(médecine)
le X montre une Y
- Méthode itérative dacquisition de patrons
(Hearst, 1992)
46Méthodes contextuelles globales cooccurrence
- Méthodes classiques en informatique documentaire
- Création automatique de thesaurus
- Cooccurrence statistique
- 1er ordre
- Les unités qui cooccurrent avec le mot pivot dans
une fenêtre donnée (phrase, paragraphe, - n
mots) - 2ème ordre
- Les unités qui ont les mêmes cooccurrents du 1er
ordre que le mot pivot - Ex analyse distributionnelle
47Principe de lanalyse distributionnelle
- Z. H. Harris ? Traitement Automatique des Langues
- (Hindle, 1990) (Greffenstete,1994) (Lin, 1998),
- Principe
- à partir dun corpus analysé syntaxiquement,
rapprocher des couples dunités que lon retrouve
dans des contextes syntaxiques identiques - Exemples (corpus médical)
plaie , cicatrice modifiés par les adjectifs
scanner , radiographie sujet des verbes
médiane propre sternal utérine abdominale droite
confirmer montrer objectiver révéler retrouver
48Extraction de couples (prédicat, argument)
- De lanalyse syntaxique en dépendance à la
construction de couples (prédicat, argument) - Un triplet syntaxique (recteur , relation , régi)
- fournit un couple (prédicat , argument)
(recteur_relation , régi)
rel
suj
mod
obj
AS
Le scanner montre une lésion nodulaire.
recteur régi
( montrer_suj , scanner) ( montrer_obj , lésion
) ( lésion_mod , nodulaire)
AD
(recteur_rel , régi)
49Cacul des proximités Jaccard
- Productivité
- dun prédicat nombre darguments différents
avec lesquels on le trouve - dun argument nombre de prédicats différents
avec lesquels on le trouve - Jaccard
- Soit p1 et p2 deux prédicats
- Soit n1 la productivité de p1 et n2 la
productivité de p2 - Soit a le nombre darguments partagés par p1 et
p2
a proxjacc
(p1,p2) n1 n2 - a
50Cacul des proximités Jaccard
scanner_mod
écographie_mod
abdominal cérébral cervical hélicoïdal hépatique n
égatif spiralé thoracique
abdominal hépatique normal thoracique
productivité 8
productivité 4
nb darguments en commun 3
51Double-clique
- Double clique un ensemble de prédicats et un
ensemble darguments tels que (presque) tous les
prédicats se trouvent avec (presque) tous les
arguments. - Exemple
Prédicats
Arguments
abdominal cérébral cervical hélicoïdal hépatiq
ue négatif
échographie_mod radiographie_mod scanner_mod
16 couples présents sur 18 couples possibles (3x6)
couples ABSENTS
52Les Voisins de Le Monde
- Analyse distributionnelle sur le corpus LM10
- 10 années du journal Le Monde
- 200 millions de mots
- Un corpus non spécialisé, multi-thématique
- B. Habert, LIMSI
53Bilan
- Méthodes linguistiques / méthodes statistiques
- Intégration des (résultats des) outils
- Prise en compte de la dimension discursive
- Mise à jour de RTO
- Méthodes dévaluation
- Des applications
54Bilan méthodes linguistiques / méthodes
statistiques
- linguistique
- Les occurrences faibles sont toujours
susceptibles dêtre intéressantes. - Non représentativité du corpus
- Variantes rares ( phénomènes ténus )
- Importance de linterprétabilité pour lontologue
- statistique
- Le mur des mots
- nécessité de proposer des critères variés de tri
(voire de filtrage) pour les unités identifiées
par les méthodes linguistiques - Apprentissage
55Bilan intégration
- Intégration
- fournir à lontologue les résultats de différents
types doutils - Extraction de termes, de relations, .
- au sein dune même interface
- Consultation des résultats des outils
- Accès au texte
- Modélisation conceptuelle
56Bilan intégration
- Problème méthodologiques
- Du ressort de lingénierie linguistique et de
lergonomie - Proposer des stratégies
- Pour utiliser les résultats des différents outils
de façon coordonnée et efficace - Optimiser lanalyse du corpus de textes
- Problèmes techniques
- Du ressort du TAL
- Entrée/sortie enchaînement séquentiel
- Extraction de terme et analyse distributionnelle
- Extraction de terme et cooccurrence
- Extraction de terme et patron de relation
- Evaluation quelle méthode pour quel type de
corpus/application ?
57Bilan prise en compte de la dimension discursive
- Jusquici corpus sac de phrases
- ( pour les outils)
- Dimension discursive
- Prise en compte de la localisation des termes
- Analyse contrastive de la répartition des termes
dans les différentes parties dun corpus - Analyse de la présence des termes dans des
zones importantes -
- Traitement de lanaphore pronominale
- Sans connaissances sur le domaine
- Séries énumératives
58Bilan mise à jour de RTO
- Maintenance dune RTO
- Retour dexpérience
- Mise à jour du corpus de référence
- La trace
- Il peut y avoir une distance importante entre les
résultats des outils et la RTO - ?corpus ?? ?Termes ??? ?RTO
- Le corpus est un des éléments de documentation de
la RTO - Termes de la RTO pont entre le réseau de
concepts et le corpus - Garder la trace des choix de validation et de
modélisation (positifs et négatifs) - Incrémentalité
- Utiliser la RTO construite pour faciliter
lanalyse du nouveau corpus par les outils de
TAL et par lontologue
59Bilan méthodes dévaluation
- Evaluation de RTO
- Validation et évaluation
- Validation par lexpert au cours du processus de
construction - Evaluation
- Génie logiciel test et validation dun
composant - en usage au sein de lapplication
- Evaluation des outils de TAL
- Pas dévaluation boite noire sorties vs.
référence - Outils daide
- Travail dinterprétation et de modélisation de
lontologue - Evaluation globale en usage
60Des applications
- Les applications en vraie grandeur sont
nécessaires pour faire avancer les recherches - La notion dontologie est intrinsèquement liée à
celle dapplication, dusage - Tester la faisabilité
- Identifier les verrous
- Retour sur investissement mettre en place des
expériences pour mesurer le ratio coût /gain