Construction d - PowerPoint PPT Presentation

About This Presentation
Title:

Construction d

Description:

Construction d ontologies partir de textes Nathalie Aussenac-Gilles IRIT CSC ing nierie des connaissances aussenac_at_irit.fr – PowerPoint PPT presentation

Number of Views:115
Avg rating:3.0/5.0
Slides: 66
Provided by: Nathal175
Category:

less

Transcript and Presenter's Notes

Title: Construction d


1
Construction dontologies à partir de textes
  • Nathalie Aussenac-Gilles
  • IRIT CSC
  • ingénierie des connaissances
  • aussenac_at_irit.fr

2
Thème et objectifs
  • Thème
  • Méthode et outils pour la construction de modèles
    conceptuels à partir de textes
  • Objectifs
  • Montrer les enjeux pour les recherches sur la
    modélisation conceptuelle de la problématique des
    ontologies
  • Clarifier les caractéristiques des différents
    paradigmes
  • Placer le débat au niveau des modèles et de leurs
    contenus
  • Importance de lusage et des applications
  • Présenter un panorama doutils et une méthode

3
Plan
  1. Ontologies et textes à BDA motivations
  2. Différentes facettes de la modélisation
    conceptuelle
  3. Ressources terminologiques et ontologiques
    définitions
  4. Construire des modèles conceptuels à partir de
    textes

4
Motivations Convergence des objets de recherche
  • Domaines concernés Bases de données,
    modélisation objet, ingénierie des connaissances
  • Langages, méthodes, plates-formes, vérification
    par la logique de modèles conceptuels
  • Ateliers de génie logiciel étendus pour
    représenter des ontologies
  • ER ou UML pour représenter des ontologies
  • ex ICOM http//www.cs.man.ac.uk/franconi/icom/
  • atelier basé sur ER, intègre un moteur de logique
    de description, sauvegarde des ontologies en XML.

5
MotivationsCroisements du côté des applications
  • Frontières moins nettes entre types
    dapplications
  • Ex PICSEL ontologie pour accéder à des
    serveurs de BD
  • BD semi-structurées pour la mémoire dentreprise
  • Mise en forme de business rules au sein dun SI
  • Utilisation des ontologies pour organiser,
    structurer des données
  • Ex faut-il une ontologie ou une BD pour
    organiser une bibliographie ?
  •  Ontologie  désigne une hiérarchie de termes,
    une base de données lexicales ou

6
MotivationsPoser les bases pour un débat
  • Confusion ou perplexité au niveau des
    applications
  • Face à un besoin dentreprise ontologie ou
    schéma E/R ou UML ?
  • Confusion entre la question des langages et la
    question de la nature de chacun de ces modèles
  • Situer le débat au niveau de la modélisation
    conceptuelle
  • Statut des modèles
  • Ancrage et fondements des connaissances

7
MotivationsLinvasion des ontologies
  • Tout est-il ontologie ?
  • Retour sur la définition
  • Retour sur les prétentions affichées
  • Panorama sur les ressources terminologiques et
    ontologiques
  • Des ontologies  à tout faire 
  • Des prétentions aux usages
  • Ce que permet la formalisation (cf. BD déductive
    ?)
  • Formaliser pour affiner le sens
  • Formaliser pour vérifier
  • Formaliser pour raisonner
  • Ce que permet une dimension lexicale
  • Des termes pour communiquer
  • Des termes pour localiser des concepts ou des
    connaissances

8
Plan
  • Ontologies et textes à BDA motivations
  • La modélisation conceptuelle en question
  • Réponses possibles en matière de modélisation
  • Différentes facettes de la modélisation
    conceptuelle
  • Ressources terminologiques et ontologiques
    définitions
  • Construire des modèles conceptuels à partir de
    textes

9
2. Modélisation conceptuelle en question
  • Modéliser, cest répondre à des besoins
  • Modèles comme support au dialogue
  • Modèles comme spécification de code
  • Eventail de contraintes sur les modèles
  • Modéliser, cest représenter
  • Primitives conceptuelles (méta-modèle)
  •  Langage  de représentation
  • Modéliser, cest sélectionner les
     bonnes connaissances 
  • Méthodes pour analyser, identifier, décrire
  • Outils daide

10
2. a. Réponses possibles Schémas
Entité-Association
  • Entités, association, règles de normalisation

n .. n
11
2. a. Réponses possiblesSchéma entité-association
  • (Id-chercheur, Nom, Grade, Téléphone, organisme)
  • Un chercheur a un identifiant unique
    Id-chercheur, sappelle dun certain Nom, a un
    certain Grade, a une certain numéro de Téléphone
    et est rattaché à un Organisme, où chaque
    attribut est pris dans un certain domaine.
  • Tuple vérifiant la relation
  • (12660,  Nathalie Aussenac , CR1,  05 61 55 82
    93 , CNRS)
  • Est-rattaché-à (Id-chercheur, Id-laboratoire)
  • Association fonctionnelle entre (ID-chercheur,
    Id-laboratoire) (id-chercheur, Grade) etc.
  • Le nom de la relation reste implicite, na pas
    dimpact sur les traitements
  • Logique du premier ordre

12
2. a. Réponses possiblesDiagramme de classes UML
  • Classes, slots, relations entre classes
  • Héritage, comportement à travers les méthodes

Publications Titre TitreVolume Date Pages Edition
Personnel recherche Nom Téléphone Affiliation
Laboratoire Nom Adresse Affiliation


Est-auteur-de
Est-rattaché-à
Chercheur Grade
Thésard Sujet thèse

Encadre
13
2. a. Réponses possiblesDiagramme de classes UML
  • Gestion de lhéritage suppose des logiques plus
    complexes exprimer des propriétés sur les
    attributs, modalités,
  • Sémantique des relations peu exploitée

14
2. a. Réponses possiblesOntologies formelles
  • Concepts, instances
  • Relations sémantiques, axiomes

15
2. a. Réponses possiblesOntologies formelles
  • Ontologies formelles
  • Sémantique des relations signature (typage des
    concepts reliés)
  • Frame logic simplification des capacités
    dexpression pour assurer la calculabilité de
    raisonnements. Ex CARIN-ALN
  • Instances
  • chercheur (NAussenac), thésard(Mbaziz),
    encadre(Naussenac, Mbaziz)

16
Facettes de la modélisationObjectifs et enjeux
  • Ontologies
  • Représenter un domaine, associer des
    connaissances à des objets métier
  • Formaliser pour raisonner
  • Enjeux
  • identifier les concepts, les décrire
  • Gérer un grand nombre de concepts, relativement
    peu dinstances
  • Traitements mal définis a priori
  • Schémas E-A
  • Spécifier les objets manipulés par un système
    dinformation
  • Normaliser pour optimiser les traitements
  • Enjeux
  • Caractériser des classes connues a priori
  • Peu de classes, très grande quantité dinstances,
  • Traitements bien connus a priori (requêtes
    identifiées)

17
Facettes de la modélisationUtilisations
  • Ontologies
  • Utilisées pour des traitements variés et
    complexes
  • Analyse du langage
  • Indexation, annotation documentaire
  • Recherche dinformation
  • Interrogation directe
  • Lisibilité, accessibilité par les utilisateurs
    (validité cognitive), des organisations
    (pertinence sociale)
  • Besoins en formalisation très différents
  • Schémas E-A
  • Traitements massifs, à grande échelle, liés au
    stockage dinstances
  • Choix de structuration visant loptimisation des
    traitements
  • Lisibilité par les analystes, sert de base à la
    conception informatique
  • Besoins en formalisation toujours identiques

18
Facettes de la modélisationContraintes
  • Ontologies
  • Exhaustivité, couverture du domaine en fonction
    de lapplication
  • Consensus, réutilisabilité
  • Interopérabilité langage standard
  • Proche de représentations humaines
  • Coût élevé, contenu très riche
  • Schémas E-A
  • Précision, compacité, entités nécessaires et
    suffisantes pour lapplication
  • anticiper des traitements massifs, à grande
    échelle, liés au stockage dinstances
  • Plus darbitraire
  • Plus rapide, plus simple à élaborer

19
Facettes de la modélisationFondements des modèles
  • Fonder des modèles sur lintrospection, lanalyse
    dorganigrammes et des normes (formes
    normalisées)
  • Lapproche BD
  • Fonder des modèles sur des principes ontologiques
    caractérisant classes et propriétés des objets,
    des états
  • Approche ontologique formelle et philosophique
  • Fonder des modèles sur lanalyse de lactivité et
    des savoir-faire individuels ou collectifs mis en
    œuvre
  • Lapproche IC (ergonomie et sociologie)
  • Fonder des modèles sur lusage des connaissances
    tel quil est révélé par le langage, avec le
    consensus minimal que cela suppose
  • Approche développée dans ce tutoriel

20
Plan
  • Ontologies et textes à BDA motivations
  • Différentes facettes de la modélisation
    conceptuelle
  • Ressources terminologiques et ontologiques
  • Définitions
  • Enjeux de la formalisation
  • Construire des modèles conceptuels à partir de
    textes

21
3.a. Ressources terminologiques et ontologiques
définitions
  • Une gamme de produits construits pour accéder aux
    connaissances via la langage
  • Thésaurus (recherche documentaire et RI)
  • Terminologies (aide à la rédaction, traduction)
  • Base de connaissances terminologiques (formation,
    modélisation dun corpus)
  • Ontologies (systèmes à base de connaissances,
    agents sur le web, )

22
Thesaurus
Thésaurus SRLF et de la SFAR
hémopéritoine
23
Ontologie définition
Ontologie INGÉNIERIE DES CONNAISSANCES. Ensemble
des objets reconnus comme existant dans le
domaine. Construire une ontologie, cest aussi
décider dune manière dêtre et dexister des
objets.
  • Modèles des connaissances dun domaine
    ontologie du domaine
  • pertinentes pour une application, une tâche
    donnée ontologie régionale
  • Application de principes de normalisation, de
     bonne construction 
  • Conceptualisation sous forme de réseau sémantique
    (concepts, relations) axiomes

24
Ontologie
hémopéritoine
épanchement hématique localisé au niveau du
péritoine
ETAT_PATHOLOGIQUE ETAT_PATHOLOGIQUE_LOCAL
LESION adénopathie
épanchement épanchement gazeux
épanchement liquidien
épanchement de pus
épanchement hématique
ANATOMIE ANA_TISSU_ENVEL
capsule duremère mésentère
peau péritoine
LOCALISATION à_côté_de
à_l'extérieur_de au_dessus_de
au_niveau_de
LESION
(LOCALISATION) ANATOMIE
épanchement hématique
(au_niveau_de)
péritoine
25
Ontologie
fracture à la base du crâne
Hiérarchie de relations
Hiérarchie de concepts
LESION épanchement fracture
LOCALISATION à_côté_de
à_l'extérieur_de au_dessus_de
au_niv_de
SITUATION angle base bord
OBJET DE
ANATOMIE_OBJET OS crâne
Liens
LESION (LOCALISATION) SITUATION
SITUATION (OBJET) ANATOMIE_OBJET
Concept défini
fracture (au_niveau_de) base
(DE) crâne
26
Thesaurus vs. Ontologie
  • Thesaurus
  • Contenu
  • Descripteurs, mots-clés
  • Relations is_a, synonyme (terme
    préférentiel), voir_aussi
  • Utilisé par un agent humain (documentaliste,
    spécialiste)
  • pour indexer des documents
  • Ontologie
  • Contenu
  • Une taxinomie des concepts, une taxinomie de
    relation
  • Des rôles
  • Décrite dans un langage de représentation des
    connaissances et exploitée par un système
    informatique
  • Possibilité de comparer et de classer des
    concepts
  • Capacité générative
  • Inférences

27
Le modèle des données dune BCT
Fragments de Textes
DOCUMENT2 Service YYY ------------
Top
Concepts
Unité1.2 Service XXX ------------
Document définition --- --- attributs ----
Unité 1.1 DOCUMENT1 Service XXX
relation conceptuelle
dossier de spécification
Termes
document de projet.
contextes de validité
document de spécification détaillée informations
linguistiques
28
Solutions apportées par ce modèle
  • Aspects linguistiques
  • termes équivalents
  • synonymie
  • polysémie
  • points de vue
  • prise en compte du locuteur
  • patrons syntactico-sémantiques
  • Aspects conceptuels
  • relations conceptuelles spécifiques
  • sémantique des relations
  • points de vue
  • héritage des attributs et relations conceptuelles
  • Lisibilité des descriptions

29
3.b. Ontologies enjeux de la formalisationCapac
ité dexpression
  • Exemple projet PICSEL, LRI
  • Partie terminologique
  • Concepts organisés en hiérarchie, définis par
    leurs relations (cns ou père prop.spécifiques)
  • (DEF-CONCEPT chercheur
  • (and personnel-recherche
  • (ATLEAST 1 Grade)(ATMOST 1 Grade) (ALL Grade
    Grade)
  • (ALL encadre Thésard)))
  • Contraintes
  • Relations dexclusion entre concepts de base
  • EquipementCulturel ? equipementSportif ? ?
  • Typage des rôles (ALL encadre Thésard) dans
    définition Chercheur

30
3.b. Ontologies enjeux de la formalisationCapac
ité dexpression
  • Partie déductive
  • Relations autres que unaires et binaires
  • R1 VolAR(villeDépart, dateDépart1,
    villeArrivée, dateDépart2) lt Vol(v1),
    lieuDepart(v1, villeDépart), lieuArrivée (v1,
    villeArrivée), Vol(v2), lieuDepart(v2,
    villeArrivée), lieuArrivée (v2, villeDépart),
    dateDépart(v1,dateDépart1), dateDépart(v2,dateDépa
    rt2), antérieure (dateDépart, dateDépart2)
  • Relations disjonctives autant de règles que
    dalternatives
  • ProduitJeune(x) lt produit(x), (ATMOST 1
    produitServiceAssocié)
  • ProduitJeune(x) lt produit(x), produitServiceAssoc
    ié(x,y), bonMarché(y)
  • Relations inverses
  • Raccourci denchaînement de rôles

31
3.b. Ontologies enjeux de la formalisationCapac
ité dexpression
  • Expression de requêtes
  • SéjourAuSoleil(s,p) lt CombinéSéjour(s),
    LogementAssocié(s,l), lieuDeRésidence(r),
    SituéDans(r,p), LieuAuSoleil(p)
  • Calcul de plans de requête
  • Vérifier la satisfiabilité
  • Substituer chaque terme de la requête par sa
    définition logique, cest-à-dire par toutes ses
    spécialisations possibles -gt plusieurs requêtes
    disjonctives
  • Réécriture de chaque requête conjonctive (même
    principe) à partir de la réécriture de chacun des
    atomes -gt identification des faits correspondants
  • Affinement de requêtes
  • Repérage de conflits
  • Exploitation de la hiérarchie pour généraliser
  • Calcul de requête satisfiable à partir de
    requêtes insatisfiables par généralisation de
    concepts

32
Plan
  • Ontologies et textes à BDA motivations
  • Différentes facettes de la modélisation
    conceptuelle
  • Ressources terminologiques et ontologiques
  • Construire des modèles conceptuels à partir de
    textes
  • Justification
  • Panorama doutils pour lanalyse de textes
  • Une méthode à travers une étude de cas le
    projet verre

33
4 - Construire des modèles à partir de
textesJustification
  • Pourquoi recourir aux textes ?
  • Sources de connaissances (partagées et
    stabilisées à lécrit)
  • Améliorent la lisibilité et la maintenance des
    modèles
  • Complémentaires de lexpertise humaine
  • Gain de temps, réduction des coûts
  • Quels textes ? Nature et contenu des corpus
  • Ensemble de textes choisis en fonction de
    lapplication et de leurs caractéristiques
    (contenu, genre textuel, date, auteurs, format,
    etc.)
  • Documents techniques, documents didactiques,
    retranscriptions dentretiens, informations
    échangées par réseaux

34
Quels outils danalyse de textes pour la
construction de modèles conceptuels ?
Textes
tal1
Modèle
Système dinformation Traitant des textes
tal2
Logiciels de traitement automatique des langues
TAL Partir des textes pour mieux y revenir
35
Problématique du traitement de linformation
textuelle
CONCEPT
hémopéritoine
terme
texte
L'échographie abdominale retrouve une contusion
splénique et un hémopéritoine. Traumatisme
abdominal avec une fracture de rate et un
hémopéritoine abondant, ayant nécessité une
splénectomie en urgence. Un nouvel état de choc
apparaît associé à syndrome compartimentaire
abdominal (hémopéritoine hématome
rétropéritonéal)) justifiant la laparotomie
exploratrice. L'évacuation de l'hémopéritoine ne
permet pas de mettre en évidence une cause nette
au saignement Instabilité hémodynamique
initiale, avec TA 80 / 60 et fréquence cardiaque
à 120 / min en relation avec des pertes sanguines
sur les foyers de fractures (échographie
abdominale normale, absence d hémopéritoine ou
de lésion viscérale intrapéritonéale
évidente)).deux échographies abdominales
successives un hémopéritoine évolutif, sans
pneumopéritoine, ainsi qu'un décollement
péricardique postérieur.un traumatisme
thoraco-abdominal avec fracture des arcs
postérieurs des 7e, 8e et 9e côtes droites,
contusion hépatique au niveau des segments
VI-VII, hémopéritoine de moyenne abondance,
contusion splénique,Instabilité hémodynamique
nécessitant remplissage, transfusion de culots
globulaires, PFC et plaquettes dans le cadre d'un
hémopéritoine sur fracture du bassin.
36
Traitement de linformation textuelle
RTO
CONCEPT
sevrage
(OBJET)
Noradrénaline
sevrage_Noradrénaline
sevrage en noradrénaline
sevrage de la noradrénaline
termes
sevrage Adj? deen la? noradrénaline
sevré de noradrénaline
patrons
noradrénaline être Adv? sevré
texte
sevrage en noradrénaline le 23 / 10. Stabilité
cardiorespiratoire, le sevrage de la
Noradrénaline est fait à J5 de la réintervention
et l'extubation est réalisée à J6. Evolution
favorable avec sevrage rapide en Noradrénaline le
20 / 06 / 99. Stabilité hémodynamique initiale
correcte avec sevrage progressif en Noradrénaline
obtenu à J3. Les suites du choc hypovolémique
hémorragique sont simples, avec sevrage de
noradrénaline à J3 et extubation à J2.
L'évolution est alors favorable avec Instauration
d'une corticothérapie ayant permis un sevrage
rapide de la Noradrénaline, La patiente est
sevrée de noradrénaline le 16 / 06 / 00. Le
patient est sevré de Noradrénaline le 13 / 05 /
00. La Noradrénaline est sevrée dans la nuit du
20 au 21 / 01. Après remplissage vasculaire par
1000 cc de Plasmion et 1000 cc d'Elohes, la
Noradrénaline est rapidement sevrée
37
Panorama de logiciels pour extraire et structurer
  • Une typologie fonctionnelle
  • Extraction de concordances YAKWA, SATO
  • Extraire des candidats termes. ex Syntex,
    NOMINO, ANA
  • Extraire des relations candidates. Ex Prométhée,
    Caméléon
  • Extraire des constructions prédicats / arguments
    ASIUM, SVETLAN
  • Autres typologies
  • Méthodes linguistique / méthodes statistiques
  • Construction de RTO / mise à jour de RTO
  • Phase damorçage / phase denrichissement
  • Rappel il ne sagit pas de construction
    automatique

38
1 . Extraction de concordances
  • Fonction pour un patron donné, présenter toutes
    les occurrences rassemblées
  • Niveau dannotation du corpus
  • corpus  nu  uniquement forme (suite de mots)
  • corpus étiqueté patrons morpho-syntaxique.
    Exemples
  • nomverbe être indicatifarticle
    indéfini
  • pronom personnel 1ère pers.verbe
    indicatif dans déterminant
    démonstratifNom

activité de construction d' un modèle de
connaissances , ou modélisation des solution
verticale comporte un modèle à la KADS , une
bibliothèque de composants A un stade
ultime , le modèle formel est , la plupart du
temps , connaissances en distinguant le modèle
conceptuel du modèle opérationnel du
monde ( on parle de modèle de produit ) et
objet de modélisation de le projet européen
KADS , le modèle conceptuel joue le rôle de
modèle originale , de créer un modèle
cognitif du futur système
39
Exemple de logiciel dexploration de corpus
Yakwa
  • Principes
  • Requêtes basées sur la syntaxe et la sémantique
  • Nécessite une corpus étiqueté (Tree Tagger
    analyseur syntaxique)
  • Utilisation pour la recherche de relations entre
    concepts
  • Aller chercher des indices lexicaux (marqueurs)
    de relations sémantiques pour organiser les
    concepts
  • Lien avec Caméléon utilisation de marqueurs
    génériques pour relations EST-UN et PARTIE-DE

40
Création de requêtes
41
Interprétation des résultats
42
2 . Extraction de termes
  • Fonction extraction et tri automatiques de
    candidats termes
  • CT séquence susceptible dêtre retenue comme
    étiquette de concept
  • Méthodes dextraction
  • statistiques
  • segments répétés
  • information mutuelle
  • morpho-syntaxiques
  • repérage de patrons
  • analyse syntaxique partielle
  • Critères de tris numériques
  • fréquence doccurrences dans le corpus
  • productivité nombre de CT plus complexes dont
    le CT est constituant

43
Syntex analyse syntaxique et construction dun
réseau de syntagmes
  • En entrée un corpus étiqueté
  • Dans chaque phrase, à chaque mot est associée une
    étiquette morphosyntaxique (Cordial, TreeTager)
  • En sortie 1) un corpus analysé syntaxiquement
  • Dans chaque phrase, identification des relations
    de dépendance syntaxique (sujet, complément
    dobjet, épithète, ) entre les mots
  • En sortie 2) un réseau de syntagmes
  • 1) De chaque phrase, extraction de syntagmes
    verbaux, nominaux, adjectivaux
  • 2) Pour lensemble du corpus, construction dun
    réseau de syntagmes structuré par les relations
    Tête et Expansion

44
Analyse syntaxique
Le chat de Marie mange une petite souris.
Etiquetage morphosyntaxique
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
Analyse syntaxique
OBJ
SUJ
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
45
2) Construction dun réseau de syntagmes
SUJ
OBJ
L érosion attaque un plan de faille
Extraction de syntagmes
faille
plan
T
E
plan de faille
attaquer
T tête E expansion
E
attaquer un plan de faille
plan nom ? plan de faille syntagme
nominal attaquer verbe ? attaquer un plan de
faille syntagme verbal
46
2) Construction dun réseau de syntagmes
attaquer pénéplaine pente raide
plan de faille roche sédimentaire
section anticlinale table karstique
plan de cisaillement de diaclase
de faille de glissement de
schistosité de stratification
T
T
faille escarpement
de ligne de plan de
E
47
Données de lanalyse distributionnelle
Termes
Contextes
agent de létat agent de létat agent de létat agent agent agent formation professionnelle formation professionnelle formation professionnelle formation formation formation état professionnel ( bénéficier de formation professionnelle , SUJ ) ( bénéficier de formation, SUJ ) ( bénéficier , SUJ ) ( bénéficier de formation professionnelle , SUJ ) ( bénéficier de formation, SUJ ) ( bénéficier , SUJ ) ( agent de létat bénéficier , DE ) ( agent bénéficier , DE ) ( bénéficier , DE ) ( agent de létat bénéficier , DE ) ( agent bénéficier , DE ) ( bénéficier , DE ) ( agent , DE ) ( formation , ADJ )
48
Mesures de similarité
  • Productivité dun terme, dun contexte

Contextes pour le terme murmure vésiculaire Termes pour le contexte ( patient présenter , OBJ )
( abolir , OBJ ) ( abolir à gauche , OBJ ) ( abolition , DE ) ( diminuer , OBJ ) ( diminuer à gauche , OBJ ) ( diminution , DE ) ( percevoir , OBJ ) amyotrophie détresse douleur douleur thoracique dyspnée fièvre fracture hématome Syndrome
productivité 7 productivité 9
49
3 . Extraction de relations Caméleon
  • La notion de marqueur
  • Eléments lexico-syntaxiques permettant de repérer
    une relation conceptuelle
  • Hypothèses
  • Une même relation peut sexprimer par différents
    marqueurs
  • Les relations peuvent dépendre du corpus
  • Les marqueurs peuvent dépendre du corpus
  • Corpus étiqueté en entrée, hypothèses de
    relations en sortie
  • Modèle conceptuel enrichi de relations
    conceptuelles

50
Ajuster les marqueurs
  • Sélectionner des relations et des marqueurs
    génériques
  • ex hypéronymie (est-un)
  • Det N1 est Det N2 (qui, adj, p.passé, p.présent)
  • Tous les N2 sauf det N1
  • Det N1 comme det N2
  • Les évaluer en corpus
  • Les adapter au corpus pour réduire le bruit et le
    silence
  • Identifier patrons et relations spécifiques au
    corpus
  • Par projection de couples de termes
  • Par observation de contextes
  • Par observation des résultats de Syntex
  • ? On construit une base de marqueurs adaptés au
    corpus

51
Répérer des relations lexicales
Formule qui définit le marqueur
Phrases qui contiennent la forme et qui peuvent
contenir une relation (hypothèses)
Termes en relation que peuvent indiquer des
concepts reliés
52
Repérage de relations avec Caméléon
Des hypothèses de relations aux Relations
conceptuelles
53
Plan
  • Ontologies et textes à BDA motivations
  • Différentes facettes de la modélisation
    conceptuelle
  • Ressources terminologiques et ontologiques
  • Construire des modèles conceptuels à partir de
    textes
  • Justification
  • Panorama doutils pour lanalyse de textes
  • Une méthode appliquée à une étude de cas le
    projet verre

54
Construire des modèles à partir de texte
Principes
  • Exploiter les textes
  • Partir des textes comme sources et supports de
    connaissances
  • Utiliser des techniques et outils danalyse de
    corpus basés sur des principes linguistes et
    statistiques
  • Plonger le modèle conceptuel dans son contexte
    linguistique conserver un lien du modèle vers
    les textes
  • Poids de lapplication
  • Lontologie est construite pour une application.
  • Lapplication sinscrit dans une pratique
    (domaine)
  • Lingénieur de la connaissance est un médiateur.

55
Lontologue au centre
Ressources existantes
Domaine
Ressource Termino- Ontologique
Textes
tal
Application
56
Une autre vue sur la méthode
Documents Techniques
  • 1. Constituer un corpus

Outils dAnalyse de Textes
2. Appliquer des outils danalyse de textes
Modèle
57
1. Constitution du corpus
  • Choisir des documents
  • Compromis entre représentativité (sujet, genre
    textuel) ET taille
  • Trouver les documents les plus pertinents pour
    lapplication
  • Mettre les documents au bon format
  • Evaluer leur pertinence
  • Décider de la manière de les traiter
  • Identifier les groupes homogènes type de
    document, sujet
  • Rendre compte de connaissances communes ou
    différenciées
  • Opportunisme découpage en sous-corpus

58
Constitution du corpus
Livre Vocabulaire technique procédés du verre
textile 10 chapitres 104132 mots
Brevets Vocabulaire technique des dépôts de
brevets 13 brevets 61272 mots
Veille Vocabulaire de la finance et économie 7
mois articles AFP 91658 mots
Vocabulaire générique du verre
563 noms et 59 SN
Entre 93 et 98 des SV et SN et plus de la moitié
des mots simples sont propres à chaque
sous-corpus.
  • caractérisation rapide de la nature de ces
    vocabulaires

59
2 . Etude terminologique
Documents techniques
  • Extraction de termes mis en relation par Syntex
  • Recherche de relations à laide de patrons avec
    Yakwa
  • Fiches terminologiques dans Terminae et fiches
    Concept-terminologique dans Excel
  • Liée à la normalisation

Outils danalyse de textes
Yakwa
Eléments dontologie
Terminae
60
Représentation dans Terminae
61
3 . Normalisation
  • Interprétation sémantique du contenu des textes
    guidée par lexpertise et les besoins de
    lapplication
  • Il est utopique (et coûteux) de vouloir TOUT
    tirer des textes et seulement des textes.
  • Structurer gt Fixer un point de vue lié à
    lapplication
  • 3 types dactivités
  • Regroupements, généralisations, spécialisations
  • Mêmes données, exploitées selon trois points de
    vue.

62
Recommandations pour la normalisation
  • Des principes danalyse des textes
  • Une démarche générale pour définir et organiser
    des concepts (en 5 points)
  • Des principes de normalisation

63
A - Principes danalyse des textes
  • Deux axes pour caractériser les tâches effectuées
  • Axe texte/modèle
  • Data-driven du texte au modèle (dépouillement)
  • Model-driven (fouille, recherche ciblée)
  • Axe  parcours au sein du modèle 
  • Ascendant regroupement, abstraction
  • Descendant spécialisation, raffinement de
    concepts
  • Centrifuge rayonnement autour de concepts
    centraux
  • Des principes empiriques

64
B - Démarche générale pour définir et organiser
des concepts
  • Repérage de concepts centraux. Etude des termes
    synonymes associés (démarche centrifuge)
  • Organisation hiérarchique concepts spécifiques
    (fils) et génériques (pères) des concepts
    centraux, relation EST_UN (démarche descendante
    et ascendante).
  • Étude des autres types de relations associés à ce
    concept
  • à partir de séquences de Syntex (démarche des
    textes vers le modèle)
  • Mise en forme des marqueurs correspondants et
    recherche avec Yakwa de couples de concepts
    reliés par cette relation (du modèle vers les
    textes)
  • Organisation des résultats dans TERMINAE
  • Validation partielle par lexpertise

65
C - Principes de normalisation
  • Justifier la place dun concept dans lontologie
    par les relations quil entretient avec les
    autres concepts
  • Concept ou instance
  • Différenciation des concepts
  • Unicité de définition
  • Homogénéité de point de vue
  • Cohérence des descriptions
  • Critères de normalisation
  • Point commun entre 1 concept et son père
  • Différence entre 1 concept et son père
  • Points communs entre 1 concept et ses frères
  • Différences entre un concept et ses frères
  • Représentation à laide des relations et de
    lhéritage

66
2 - Spécialisation et généralisation dun concept
  • Exploitation des relations tête/expansion (on
    cherche les mots dont  process  est en tête) 
  • fiberizing process, manufacturing process,
    industrial process, etc
  • Exploitation des verbes et formes nominales
  • Gérondifs coating, drawings, moulding,
    Manufacturing, fiberizing, washing, bushings
  • Étude des voisins dans Syntex et observation des
    contextes quils partagent.
  • Process et processing
  • Repérage de marqueurs spécifiques au corpus de la
    relation générique/spécifique, comme EST-UN,
    TYPE-DE
  • Process of manufacturing Nom complément
  • process of manufacturing the glass yarns
  • process for manufacturing thin profiles
  • process for manufacturing the granules

67
2 et 3 - Etude des relations autour dun concept
  • Des relations lexicales aux relations sémantiques
  • Déterminer les concepts reliés et le type des
    relations
  • Les représenter à laide de rôles ou de relations
    EST-UN
  • Décider des propriétés des relations héritage,
  • Des relations à une hiérarchie de concepts
  • Différencier des concepts selon des critères
    homogènes corps solide/corps liquide,
    différents processus de fabrication
  • Relations révèlent des critères de
    différentiation
  • Ajout de concepts non terminologiques

68
Contenu du modèle
69
Première structuration dans Excel
70
4 . Formalisation
  • Nature de la formalisation
  • Traduction en logique (concept ensemble de
    relations, conditions nécessaires et suffisantes
    pour sa définition)
  • Vérification de lunicité des définitions
  • TERMINAE
  • Représentation des connaissances en logique de
    description
  • Formats dexportation standards (OIL, RDFs)
  • Jusquoù formaliser ?
  • Revenir à la demande
  • Introduction de concepts, relations et règles
    pour optimiser la représentation et lutilisation
    qui en est faite (ex requêtes)

71
Fibre de verre
72
Conclusion
  • Apport des ontologies
  • Fondements ontologiques
  • Formalisation
  • Capacité de raisonnement
  • Standards pour la représentation des
    connaissances
  • Apport des ontologies à composante terminologique
  • Retour vers les textes
  • Documentation
  • Acquérir des connaissances à partir de textes
  • Méthodes éprouvées
  • Outils mieux adaptés et plus disponibles
  • Fondements des modèles sappuyant sur les usages
    et les connaissances écrites, stabilisées dun
    domaine

73
Perspective mise à jour de modèles conceptuels
  • Maintenance dun modèles, dune ontologie
  • Retour dexpérience
  • Mise à jour du corpus de référence
  • La trace
  • Il peut y avoir une distance importante entre les
    résultats des outils et le modèle de type RTO
  • corpus ?? Termes ??? MC
  • Le corpus est un des éléments de documentation
    dun modèle
  • Termes de la RTO pont entre le réseau de
    concepts et le corpus
  • Garder la trace des choix de validation et de
    modélisation (positifs et négatifs)
  • Incrémentalité
  • Utiliser la RTO construite pour faciliter
    lanalyse du nouveau corpus par les outils de
    TAL et par lontologue

74
Des recherches à poursuivre
  • Les applications en vraie grandeur sont
    nécessaires pour faire avancer les recherches
  • La notion dontologie est intrinsèquement liée à
    celle dapplication, dusage
  • Tester la faisabilité
  • Identifier les verrous
  • Retour sur investissement mettre en place des
    expériences pour mesurer le ratio coût /gain
  • Remise en question des ontologies ?

75
Bibliographie
  • Acquisition à partir de textes
  • Bourigault D., Aussenac-Gilles N., Charlet J.
    Construction de ressources terminologiques ou
    ontologiques à partir de textes  un cadre
    unificateur pour trois études de cas. Revue
    dIntelligence Artificielle (RIA). Numéro spécial
    sur les Terminologies. Slodzian M. (Ed.). Paris 
    Hermès. A paraître en 2004.
  • Aussenac-Gilles N., Biébow B., Szulman S.,
    Modélisation du domaine par une méthode fondée
    sur lanalyse de corpus. In Ingénierie des
    Connaissances. R. Teullier, P. Tchounikine et J.
    Charlet Eds. Paris  Eyrolles. A paraître en
    2003.
  • Bourigault D. Aussenac-Gilles N., Construction
    d'ontologies à partir de textes, actes de la
    10ème conférence sur le Traitement Automatique
    des Langues Naturelles TALN2003, 11-14 juin 2003,
    Batz-sur-mer, pp. 27-47
  • Projet Verre
  • N. Aussenac-Gilles and A. Busnel. Méthode de
    construction à partir de textes dune ontologie
    du domaine de lindustrie de la fibre de verre.
    Rapport final, contrat de recherche entre IRIT et
    Saint-Gobain Recherche. Rapport Interne
    IRIT/2002-28-R. Sept. 2002.
  • PICSEL
  • Reynaud C, M.C. Rousset, B. Safa (2002).
    Construction de médiateurs pour intégrer des
    sources dinformation multiples et hétérogènes
    le projet PICSEL. Revue I3. N1. Vol. 1
    Cépaduès-Editions.
  • Modélisation conceptuelle
  • http//www.semanticweb.org/
  • Engle P. Data modelling, left and right. The Data
    Administration Newsletter. 2003.
    http//www.TDAN.com/
  • Guizzardi G., Herre H., Wagner G., On the General
    Ontological Foudationsof Conceptual Modeling.
    Proc. Of 21th Int. Conf. On Conceptual Modeling
    (ER2002). Berlin SpringerVerlag, LNCS. 2002.
Write a Comment
User Comments (0)
About PowerShow.com