Title: Fouille de textes : Extraction It
1Fouille de textes Extraction Itérative de la
Terminologie
- Mathieu ROCHE
- (Équipe IA-TAO du LRI)
- 12 novembre 2003
- Journées de lEcole Doctorale 2003
2Axe fouille de textes de léquipe IA-TAO
- Yves Kodratoff
- Ahmed Amrani
- Jérôme Azé
- Thomas Heitz
- Oriane Matte-Tailliez
- Mathieu Roche
3Plan de lexposé
- Approche globale
- EXIT EXtraction Itérative de la Terminologie
- La méthode utilisée
- Lévaluation des résultats
- Conclusion et perspectives
4Approche globale
5Étape 1 Nettoyage
La question biologique Comprendre
lorganisation, la dynamique des protéines qui
interagissent directement avec lADN, chez la
levure Saccharomyces cerevisiae.
MEDLINE - NCBI
DNA-binding proteins Yeast ? 6000 textes (10 Mo)
6000 résumés darticles CORPUS
6Étape 1 Nettoyage
- Nettoyage lié au format du corpus
7Étape 1 Nettoyage
- Uniformisation du corpus
- Règles
- Grâce à une liste de près de 2000 alias de gènes
associés à leur nom générique, nous avons
remplacé ces alias par leur nom générique. - Ex ISE1, LIS1, SED6 ? ERG6
alias
8Étape 2 Étiquetage
Étiqueteur grammatical
Corpus étiqueté
Corpus nettoyé
The modulation of the biological activities of
mitochondrial histone Abf2-protein ...
9Étape 2 Étiquetage
Étiqueteur grammatical
Corpus étiqueté
Corpus nettoyé
ETIQ Application pour adapter létiquetage de
Brill à des textes spécialisés (Ahmed AMRANI).
10Étape 3 EXIT (Extraction Itérative de la
Terminologie)
- Termes extraits
- Nom-Nom
- Adjectif-Nom
- Nom-Préposition-Nom
- Nom-verbe_gérondif
- Formule-Nom
11Étape 4 Détection de traces de concepts
- Exemple de traces de concepts en biologie
TRANSCRIPTION
TRANSCRIPTION REGULATION
TRANSCRIPTION INITIATION
TRANSCRIPTION- ACTIVATOR-GENE
TRANSCRIPTION INITIATION MACHINERY
TFIID-complex SAGA-complex
MSN4 MSN2
12Étape 4 Détection de traces de concepts
- Exemples dinstances de concepts
- (bendingSujet,influenceVerbe) Bendng
- transcription-factor Regulfactor
- Caractérisation des traces de concepts dans les
textes - utilisation du logiciel de visualisation ROWAN
- induction en extension sur les concepts
13Étape 5 Extraction dinformations
- Extraction d'informations par patrons
d'extraction - Exemple
- MSN2 encodes a zinc-finger transcriptional
activator , ... - MSN4 encodes a DNA-binding component of the
stress responsive system , ...
2 patrons d'extraction sont nécessaires pour
rechercher la spécificité des protéines codées
par les gènes de régulation de transcription
? MSN2 encodes SpécificitéFacteur ? MSN4
encodes SpécificitéFacteur
14Étape 5 Extraction dinformations
- Extraction d'informations par patrons
d'extraction - Exemple
- MSN2 encodes a zinc-finger transcriptional
activator , ... - MSN4 encodes a DNA-binding component of the
stress responsive system , ...
1 seul patron d'extraction suffit pour rechercher
la spécificité des protéines codées par les
gènes de régulation de transcription avec la
connaissance sémantique. ? TranscriptionActivit
or encodes SpécificitéFacteur
15Étape 5 Extraction dinformations
- Extraction de règles dassociations Kodratoff et
al., 2003
(bendingSujet,influenceVerbe) Bendng DNA-duplex
DNAconformatn transcription-factor
Regulfactor gal4-binding
Regulfactor interaction-with-TFIIB
Transcriptn
Bendng, DNAconformatn, Regulfactor ? Transcriptn
16Approche globale
17EXIT la méthode utilisée (1/5)
Étiqueteur grammatical
Corpus étiqueté
Corpus nettoyé
Extraction des collocations
Sélection des meilleurs collocations
DNA binding TATA binding binding
motif transcription factor
insertion mutation hydrogen peroxide DNA
binding SH2 domain
18EXIT la méthode utilisée (2/5)
- Une méthode statistique
- Information Mutuelle Church et Hanks, 1990
19EXIT la méthode utilisée (3/5)
- Une méthode statistique
- Rapport de vraisemblance Dunning, 1993
- RV a log(a) b log(b) c log(c)
- d log(d) - (ab) log(ab) - (ac) log(ac)
- - (bd) log(bd) - (cd) log(cd)
- (abcd) log(abcd)
y y' avec y' ? y
x a b
x' avec x' ? x c d
20EXIT la méthode utilisée (4/5)
- Paramètres ajoutés Roche, 2003
- Privilégier les termes qui apparaissent dans des
textes différents. -
21EXIT la méthode utilisée (5/5)
- Interface développée en Java par Thomas Heitz
22EXIT évaluation des résultats (1/5)
23EXIT évaluation des résultats (2/5)
- Les courbes délévation ( lift chart )
variation de la précision en fonction du nombre
de termes proposés à lexpert
24EXIT évaluation des résultats(3/5)
Impossible à calculer !!
25EXIT évaluation des résultats(4/5)
- Comparaison de mesures Roche et al., 2003
26EXIT évaluation des résultats(5/5)
- Courbes délévation avec linformation mutuelle
et le rapport de vraisemblance
27Conclusion et perspectives
- Expérimenter les mesures dinduction mises en
place - Étudier les textes entiers.
28Approche globale