Utilisation de l - PowerPoint PPT Presentation

About This Presentation
Title:

Utilisation de l

Description:

Utilisation de l UMLS dans un mod le de recherche d information bas sur r seau bayesien de concepts Journ e RIMO du WEB Intelligence – PowerPoint PPT presentation

Number of Views:109
Avg rating:3.0/5.0
Slides: 18
Provided by: LeTh3
Category:

less

Transcript and Presenter's Notes

Title: Utilisation de l


1
Utilisation de lUMLS dans un modèle de
recherche dinformation basé sur réseau bayesien
de concepts
Journée RIMO du WEB Intelligence
  • Thi Hoang Diem LE

2
Plan
  • Introduction
  • Utilisation de ressources externes dans RI
  • UMLS
  • Un modèle dindexation conceptuelle basé sur
    réseau Bayesien
  • Utilisation de connaissance du problème pour
    améliorer la performance de RI
  • Évaluation
  • Application dans la recherche dimages médicaux
  • Conclusion et perspective

3
Introduction
Indexation
Information
Par termes simple
Morphologique Grammaticale Syntaxique
précise
Par multi-termes
Par syntagmes
synonyme
Par concepts
UMLS
multilingual
liens sémantiques
Model bayesien des concepts
- mismatch
4
Utilisation de ressources externes dans RI et RI
multilingue
  • Les types des resources
  • Vocabulaire contrôlé
  • Taxonomie
  • Thésaurus
  • Ontologie
  • Utilisation de ressources externes dans RI et RIM
  • Conceptuelle indexation (Gonzalo1,,Baziz2,
    Loïc3)
  • Expansion de la requete ou des documents
    (Voorheer4, Rila5,)
  • Change de la nature des documents et de la
    requête
  • Risque dajouter des termes inutiles
  • Mesures des similarités sémantiques (Leacock6,
    Hirst7, Resnik8, Jiang9, Lin10,)

5
UMLS (Unified Medical Language System )
  • NLM (National Library of Medicine) 1986
  • Objectives
  • Combiner différentes ressources dans le domaine
    biomedical (140).
  • Faciliter les tâche des systèmes dinformation
    (accès, recherche, intégrer, ...)
  • Multilingual(17)
  • Components
  • Metathesaurus (gt1.1 million concepts)
  • Semantic Network
  • SPECIALIST lexicon
  • Natural Language Processing tools

6
Structure de lUMLS
7
Proposition dun modèle dindexation conceptuelle
basé sur réseau Bayesien
  • Le schéma général du processus de RI

Requête (concepts)
Requête (texte)
Extraction de concepts
Documents (concepts)
Documents (texte)
UMLS
d2
d1
dn

Extraction de Relations sémantiques
c1
c2
cj

cj
ck
q
Documents retrouvés
Prosessus dinférence
8
Proposition dun modèle dindexation conceptuelle
basé sur réseau Bayesien (cont.)
  • Reseau bayesien graphe acyclique oriente
  • Réseau de documents
  • Nœuds concepts
  • Arcs index
  • Réseau de la requete
  • Nœuds concepts
  • Arcs index
  • Liens entre les concepts
  • relations sémantiques

d2
d1
dn

c1
c2
ci

cj
ck
q
9
Proposition dun modèle dindexation conceptuelle
basé sur réseau Bayesien(cont.)
  • Processus de dinférence
  • Initiation de la probabilité antérieure
  • un document dk est observé P(dk)1

dk
d2
d1

c1
c2
cn

2. Inference de la probabilité entre les concepts
cj
cm
3. La probabilité postérieure ou la croyance de
la requête
q
10
Utilisation de connaissance du problème pour
améliorer la performance de RI
  • Les types de connaissances importantes (Lin11)
  • Connaissance sur la tâche d'utilisateur
  • Connaissance sur le problème
  • Connaissance du domaine

Disorders (Pathology)
Procedures (Modality)
Groupes Sémantiques
Anatomy
T029 Body Location or Region
T060 Diagnostic Procedure
T047 Disease or Syndrome
C0040405
C0034067
Concepts
C0817096
Show me Chest CT of emphysema
  • PK inclusion
  • PK intersection

11
Évaluation
  • La collection CLEF images médicales
  • CLEF images médicales 2006,2007
  • Anglais, Français, Allemand
  • 50.026 documents
  • 30 requêtes
  • Résultats
  • Comparaison entre modèle vectoriel avec
    termes(MVT) et avec concepts(MVC)
  • Comparaison entre MVC et MVC utilisant de
    connaissance du problème
  • Comparaison entre MVC et modèle dindexation
    conceptuelle basé sur réseau Bayesien(RB)
  • Application dans la recherche dimages médicaux

Exemple  Show me images of a knee x-ray. Zeige
mir Röntgenbilder des Knies. Montre-moi des
radiographies du genou. 
12
Comparaison entre modèle vectoriel avec
termes(MVT) et avec concepts(MVC)
CLEFMed2006
Avec termes
Avec concepts
13
Comparaison entre MVC et MVC utilisant de
connaissance du problème
CLEFMed2006
14
Comparaison entre MVC et modèle dindexation
conceptuelle basé sur réseau Bayesien(RB)
CLEFMed2007
15
Application dans la recherche dimages médicaux
16
Conclusion et perspective
  • Conclusion
  • Modèle de RI qui capable d'améliorer la qualité
    des index ainsi que la correspondance entre les
    documents et la requête. Expérimentation a prouvé
    les avantages de
  • utiliser des concepts au lieu des termes à l'aide
    d'une ressource externe.
  • prendre en compte les liens sémantiques entre
    concepts dans la requête et ceux dans les
    documents dans un modèle à base de réseau
    Bayesien.
  • d'exploiter des connaissances dans une ressource
    externe pour améliorer la performance de la
    recherche via une fonction sur le RSV
  • Une fusion pour la RI multi-modalité qui permet
    un meilleur recherche que la RI mono-modalité.
  • Perspective
  • Typage des relations sémantiques et leur poids

17
Références
  • Julio Gonzalo, Felisa Verdejo, Irina Chugur, and
    Juan Cigarran. Indexing with wordnet synsets can
    improve text retrieval. In Proceedings of the
    COLING/ACL '98 Workshop on Usage of WordNet for
    NLP, pages 3844, Montreal,Canada, 1998.
  • Mustapha Baziz, Mohand Boughanem, and Nathalie
    Aussenac-Gilles. Conceptual indexing based on
    document content representation. In CoLIS, pages
    171186, 2005.
  • L. Maisonnasse, Les supports de vocabulaires pour
    les systèmes de recherche d'information orientés
    précision application aux graphes pour la
    recherche d'information médicale, Ph.D. thesis,
    Université Joseph Fourier, 2008.
  • Ellen M. Voorhees. Query expansion using
    lexical-semantic relations. In SIGIR '94
    Proceedings of the 17th annual international ACM
    SIGIR conference on Research and development in
    information retrieval, pages 6169, New York, NY,
    USA, 1994. Springer-Verlag New York, Inc.
  • Rila Mandala, Takenobu Tokunaga, and Hozumi
    Tanaka. Combining multiple evidence from dierent
    types of thesaurus for query expansion. In
    Research and Development in Information
    Retrieval, pages 191197, 1999.
  • Claudia Leacock and Martin Chodorow. Combining
    local context and wordnet similarity for word
    sense identication. An Electronic Lexical
    Database, pages 265283, 1998.
  • G. Hirst and D. St-Onge. Lexical chains as
    representation of context for the detection and
    correction malapropisms, 1997.
  • Philip Resnik. Semantic classes and syntactic
    ambiguity. In HLT '93 Proceedings of the
    workshop on Human Language Technology, pages
    278283, Morristown, NJ, USA, 1993. Association
    for Computational Linguistics.
  • Jay J. Jiang and David W. Conrath. Semantic
    similarity based on corpus statistics and lexical
    taxonomy, 1997.
  • Dekang Lin. An information-theoretic denition of
    similarity. In Proc. 15th International Conf. on
    Machine Learning, pages 296304. Morgan Kaufmann,
    Bibliographie 118 San Francisco, CA, 1998.
  • Jimmy Lin and Dina Demner-Fushman. The role of
    knowledge in conceptual retrieval a study in
    the domain of clinical medicine. In SIGIR '06
    Proceedings of the 29th annual international ACM
    SIGIR conference on Research and development in
    information retrieval, pages 99106, New York, NY,
    USA, 2006. ACM Press.
Write a Comment
User Comments (0)
About PowerShow.com