Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs - PowerPoint PPT Presentation

1 / 17
About This Presentation
Title:

Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs

Description:

utilisation pour le filtrage de motifs. Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT ... Recherche de relations s mantiques entre termes biologiques ... – PowerPoint PPT presentation

Number of Views:80
Avg rating:3.0/5.0
Slides: 18
Provided by: dparte7
Category:

less

Transcript and Presenter's Notes

Title: Importation de dictionnaires biologiques au format INTEX et utilisation pour le filtrage de motifs


1
Importation de dictionnaires biologiques au
format INTEX et utilisation pour le filtrage de
motifs
  • Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT
  • LERIA - Université dAngers

2
PLAN
  • La problématique
  • Les ressources biologiques utilisées
  • Filtrage des motifs
  • Conclusion

3
Problématique
  • Exploitation des documents dans un domaine de la
    biologie
  • Recherche de relations sémantiques entre termes
    biologiques
  • Extraction de motifs biologiques
  • ? Utilisation de INTEX

4
  • Constitution du corpus dapprentissage

PubMed
Etiquetage du corpus
5
La terminologie biologique
  • Évolution constante de la terminologie
  • Pas de notation constante des noms de gènes ou de
    protéines.
  • Polysémie des mots dans certains cas.

6
Ressources biologiques (1)
  • UMLS (Unified Medical Language System)
  • Grande source de connaissance biomédicale
    découpée en 3 parties
  • le Métathesaurus
  • le réseau sémantique
  • un lexique médical Specialist Lexicon

7
Ressources biologiques (2)
  • LocusLink ou Gene
  • ?Base de données du NCBI intégrant les gènes
    disponibles dans lensemble des bases de données
  • Environ 40000 entrées

8
Ressources biologiques (3)
  • Gene Ontology
  • permet de produire un vocabulaire contrôlé
    sappliquant à tous les organismes
  • utilisée pour lannotation des Bases de Données
    Génomiques

9
  • GO se compose de 3 réseaux structurés de termes
    précis portant sur la description des produits
    des gènes

Fonctions moléculaires Processus
biologiques Composants cellulaires
14000 termes
10
Intégration des données dans INTEX
  • 1- LocusLink

gtgt37195 LOCUSID 37195 LOCUS_CONFIRMED
yes LOCUS_TYPE gene with protein product,
function unknown ACCNUM AE00379721626951nana
na TYPE g PROT AAF576047302521 PROT
AAF5760528380717 PROT AAF5760628380718 ACCNUM
AY11337321064296y cn bw spnana TYPE m PROT
AAM2937821064297 OFFICIAL_SYMBOL
CG15109 OFFICIAL_GENE_NAME ALIAS_SYMBOL
CT34984 ALIAS_SYMBOL CT42557 ALIAS_SYMBOL
CT42559
LEMME
VARIANTS
11
  • Création de DELAF et DELACF
  • CG15109, CG15109.LOC
  • CT34984, CG15109.LOC
  • CT42557, CG15109.LOC
  • Besoin de modifier lalphabet anglais de INTEX gt
    insertion des chiffres et du caractère  - 

12
  • 2- UMLS (Lexicon)

baseAPUD cell entryE0000108 catnoun variants
metareg acronym_ofamine precursor uptake
decarboxylase cellE0008543
  • Ecriture du DELAF ou DELACF en fonction du lemme
    et des variants trouvés
  • APUD cell, APUD cell.ON
  • Amine precursor uptake decarboxylase cell, APUD
    cell.UN

13
  • 3- GO
  • ?Extraction des termes et création du DELAF et du
    DELACF
  • Pour chaque réseau de termes, attribution dune
    catégorie
  • deoxyribonuclease,deoxyribonuclease.MOLE
  • depurination,depurination.BIO
  • centromere,centromere.COMP

14
Filtrage des motifs
  • Résultats avec INTEX dans sa version originale
  • Seulement 45 de termes reconnus
  • 70 de termes reconnus avec les lexiques
    spécialisés.
  • Besoin de grammaires locales

15
  • Application de 12 règles lexicales

Ex ltMOTgt-ltMOTgt
acid-treated ADP-ribose
Terme technique
Molécule
  • Besoin dun vérification manuelle des résultats
    obtenus
  • ? 90 de termes reconnus

16
Conclusion et perspectives
  • Amélioration de 45 à 90 de reconnaissance de
    termes par notre système
  • Application de ce système à un autre corpus du
    domaine biologique
  • single nucleotide polymorphism ou SNP
  • ?corpus de 6729 résumés (10Mo)

17
  • Mettre à jour les lexiques spécialisés
  • UMLS et Gene
  • Améliorer létape de vérification manuelle
  • Extraction de connaissance
Write a Comment
User Comments (0)
About PowerShow.com