Title: Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs
1Importation de dictionnaires biologiques au
format INTEX et utilisation pour le filtrage de
motifs
- Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT
- LERIA - Université dAngers
2PLAN
- La problématique
- Les ressources biologiques utilisées
- Filtrage des motifs
- Conclusion
3Problématique
- Exploitation des documents dans un domaine de la
biologie - Recherche de relations sémantiques entre termes
biologiques - Extraction de motifs biologiques
- ? Utilisation de INTEX
4- Constitution du corpus dapprentissage
PubMed
Etiquetage du corpus
5La terminologie biologique
- Évolution constante de la terminologie
- Pas de notation constante des noms de gènes ou de
protéines. - Polysémie des mots dans certains cas.
6Ressources biologiques (1)
- UMLS (Unified Medical Language System)
- Grande source de connaissance biomédicale
découpée en 3 parties - le Métathesaurus
- le réseau sémantique
- un lexique médical Specialist Lexicon
7Ressources biologiques (2)
- LocusLink ou Gene
- ?Base de données du NCBI intégrant les gènes
disponibles dans lensemble des bases de données - Environ 40000 entrées
8Ressources biologiques (3)
- Gene Ontology
- permet de produire un vocabulaire contrôlé
sappliquant à tous les organismes - utilisée pour lannotation des Bases de Données
Génomiques
9- GO se compose de 3 réseaux structurés de termes
précis portant sur la description des produits
des gènes
Fonctions moléculaires Processus
biologiques Composants cellulaires
14000 termes
10Intégration des données dans INTEX
gtgt37195 LOCUSID 37195 LOCUS_CONFIRMED
yes LOCUS_TYPE gene with protein product,
function unknown ACCNUM AE00379721626951nana
na TYPE g PROT AAF576047302521 PROT
AAF5760528380717 PROT AAF5760628380718 ACCNUM
AY11337321064296y cn bw spnana TYPE m PROT
AAM2937821064297 OFFICIAL_SYMBOL
CG15109 OFFICIAL_GENE_NAME ALIAS_SYMBOL
CT34984 ALIAS_SYMBOL CT42557 ALIAS_SYMBOL
CT42559
LEMME
VARIANTS
11- Création de DELAF et DELACF
- CG15109, CG15109.LOC
- CT34984, CG15109.LOC
- CT42557, CG15109.LOC
- Besoin de modifier lalphabet anglais de INTEX gt
insertion des chiffres et du caractère -
12baseAPUD cell entryE0000108 catnoun variants
metareg acronym_ofamine precursor uptake
decarboxylase cellE0008543
- Ecriture du DELAF ou DELACF en fonction du lemme
et des variants trouvés - APUD cell, APUD cell.ON
- Amine precursor uptake decarboxylase cell, APUD
cell.UN
13- 3- GO
- ?Extraction des termes et création du DELAF et du
DELACF - Pour chaque réseau de termes, attribution dune
catégorie -
- deoxyribonuclease,deoxyribonuclease.MOLE
- depurination,depurination.BIO
- centromere,centromere.COMP
14Filtrage des motifs
- Résultats avec INTEX dans sa version originale
- Seulement 45 de termes reconnus
- 70 de termes reconnus avec les lexiques
spécialisés. - Besoin de grammaires locales
15- Application de 12 règles lexicales
Ex ltMOTgt-ltMOTgt
acid-treated ADP-ribose
Terme technique
Molécule
- Besoin dun vérification manuelle des résultats
obtenus - ? 90 de termes reconnus
16Conclusion et perspectives
- Amélioration de 45 à 90 de reconnaissance de
termes par notre système - Application de ce système à un autre corpus du
domaine biologique - single nucleotide polymorphism ou SNP
- ?corpus de 6729 résumés (10Mo)
17- Mettre à jour les lexiques spécialisés
- UMLS et Gene
- Améliorer létape de vérification manuelle
- Extraction de connaissance