Fabrice Camous - PowerPoint PPT Presentation

1 / 14
About This Presentation
Title:

Fabrice Camous

Description:

La base TrecGen 2004 en est un sous-ensemble. Information textuelle et information ... Ajout des champs MeSH pendant l'indexation: Am lioration de 9% de la ... – PowerPoint PPT presentation

Number of Views:48
Avg rating:3.0/5.0
Slides: 15
Provided by: fabrice2
Category:
Tags: ajout | camous | fabrice

less

Transcript and Presenter's Notes

Title: Fabrice Camous


1
On Combining Text and MeSH Searches to Improve
the Retrieval of MEDLINE documents
Fabrice Camous
Directeurs de thèse Stephen Blott et Alan
Smeaton
School of Computing, Dublin City University
17 Mars 2006
CORIA 2006, Lyon.
Recherche financée par Enterprise Ireland
2
La base MEDLINE
  • Point de départ de recherche pour les
    biologistes.
  • Plus de 13 millions dentrées.
  • Environ 4,800 journaux.
  • La base TrecGen 2004 en est un sous-ensemble.
  • Information textuelle et information structurée.

3
Entrée MEDLINE Champs MeSH
  • Résoudre les ambiguïtés du texte.
  • Compléter linformation contenue dans le texte.

PMID- 10605436 TI - Concerning the localization
of steroids in centrioles and basal bodies by
immunofluorescence. AB - Specific steroid
antibodies, by the immunofluorescence technique,
regularly reveal fluorescent centrioles and
cilia-bearing basal bodies in target and
nontarget cells. Although the precise identity of
the immunoreactive steroid substance has not yet
been established AU - Nenci I AU - Marchetti
E MH - Animals MH - Centrioles/ultrastructure
MH - Cilia/ultrastructure MH - Female MH -
Fluorescent Antibody Technique MH - Human MH -
Lymphocytes/cytology MH - Male MH -
Organelles/ultrastructure MH - Rats MH - Rats,
Sprague-Dawley MH - Respiratory Mucosa/cytology
4
MeSH Utilisations récentes
  • Mixer texte et MeSH a lindexation
  • Abdou et al. (2005) Amélioration de 9 de la MAP
    sur une baseline de 0.2624 MAP.
  • Fusionner résultats obtenus à partir dindexes
    séparés
  • Ruiz (2005) Somme pondérée des scores.

5
Création de Liens Sémantiques
Gène B
Doc B
Liens textuels
Liens textuels
Gène A
Doc A
Liens sémantiques
Liens sémantiques
6
Liens MeSH entre documents MEDLINE
Liens MeSH
  • 2 types de MeSH (2004)
  • 22568 Descripteurs.
  • 83 qualifieurs.

PMID- 10506108 TI - Reduction of UV-induced skin
tumors in hairless mice by selective COX-2
inhibition. MH - Animals MH - Carcinoma,
Squamous Cell/enzymology/pathology/prevention
control MH - Cell Division MH - Cyclooxygenase
Inhibitors/therapeutic use MH - Female MH -
Immunohistochemistry MH - Isoenzymes/drug
effects/metabolism MH - Mice MH - Mice, Inbred
HRS MH - Neoplasms, Radiation-Induced/enzymology/
pathology/prevention control MH -
Prostaglandin-Endoperoxide Synthase/drug
effects/metabolism MH - Skin Neoplasms/enzymology
/pathology/prevention control MH -
Sulfonamides/therapeutic use MH - Support, U.S.
Gov't, P.H.S. MH - Ultraviolet Rays
  • PMID- 10434051
  • TI - Quantitative alterations of hyaluronan and
    dermatan sulfate in the
  • hairless mouse dorsal skin exposed to
    chronic UV irradiation.
  • MH - Animals
  • MH - Chondroitin ABC Lyase
  • MH - Collagenases
  • MH - Deoxyribonucleases, Type II Site-Specific
  • MH - Dermatan Sulfate/radiation effects
  • MH - Disaccharides/analysis
  • MH - Female
  • MH - Histological Techniques
  • MH - Hyaluronic Acid/radiation effects
  • MH - Mice
  • MH - Mice, Inbred HRS
  • MH - Skin/chemistry/pathology/ radiation
    effects
  • MH - Swine
  • MH - Ultraviolet Rays

Association Descripteur/qualifieurs
MH - Dermatan Sulfate/radiation effects MH -
Sulfonamides/therapeutic use
  • 2 indexes créés a partir de TrecGen04
  • MH1 pas dassociation, 21,999 termes uniques.
  • MH2 associations maintenues, 308,333 termes
    uniques.

7
Evaluation des Liens MeSH
Baseline (Texte uniquement)
Combinaison des scores Text et MH2
Combinaison des scores Text et MH1
Génération de requêtes MeSH
Requêtes MH1
Requêtes MH2
Résultats MH1
Résultats MH2
Résultats (TextMH1)
Résultats (TextMH2)
Comparaison entre MH1 et MH2
8
TREC Génomique 2005
  • Abdou et al. (2005)
  • -Ajout des champs MeSH pendant lindexation
    Amélioration de 9 de la MAP sur une baseline de
    0.2624 MAP.
  • Huang et al. (2005)
  • -Pseudo-relevance Feedback (Okapi BM25)
    Amélioration de 9.39 de la MAP sur une baseline
    de 0.2640 MAP.
  • Ando et al. (2005)
  • -Structural Feedback Amélioration de 3.64 de
    la MAP sur une baseline de 0.2610 MAP.

9
Méthode
  • Collection TrecGen 2004 (4.5 millions dentrées
    MEDLINE).
  • Requêtes texte issues des requêtes de lépreuve
    ad hoc 2005.
  • Génération des requêtes MeSH
  • -Calculation des scores des termes MeSH avec la
    méthode Offer Weight
  • -Paramètres pour la création de requêtes MeSH
    R5, T5, 10, .., 40.
  • Fusion des scores baseline et MeSH
  • -combi_doc_score a (text_doc_score /
    max_text_score)
  • (1- a)
    (mesh_doc_score / max_mesh_score)
  • -a0.9.

10
Résultats
11
Résultats
12
Expérience suivant la soumission de larticle
  • Apprentissage des paramètres de la méthode de PRF
  • Les 50 (49) requêtes de TrecGen 2005 sont
    séparées en 25 requêtes dapprentissage et 24 de
    test.
  • Paramètres 
  • R5, 10, ..., 20. (docs considérés pertinents)
  • T5, 10, ..., 40. (Nombre de termes dans la
    requête MeSH)
  • a0.50, 0.55, ..., 0.95. (fusion des scores).

13
Résultats
14
Résultats
15
Conclusion et Travaux futurs
  • Lexpérience confirme le bénéfice de
    lutilisation des termes MeSH.
  • Pas dimpact évident pour les associations
    descripteur/qualifieur.
  • Utiliser une meilleure baseline (Ando et al.
    (2005), 26.10 MAP)
  • Tester la pertinence des termes MeSH selon leur
    position dans le réseau sémantique.
  • Introduire le réseau pour comparer les groupes de
    termes MeSH.

16
Merci!
17
Bibliographie
  • Abdou S., Savoy J., Ruck P. (2005), Evaluation
    of Stemming, Query Expansion and Manual Indexing
    Approaches for the Genomic Task, in Proceedings
    of TREC 2005, Gaithersburg, MD.
  • Ando R.K., Dredze M., Zhang T. (2005), TREC 2005
    Genomics Track Experiments at IBM Watson, in
    Proceedings of TREC 2005, Gaithersburg, MD.
  • Ferguson P., Gurrin C., Wilkins P., Smeaton A. F.
    (2005), Físréal A Low Cost Terabyte Search
    Engine, in Proceedings of the European
    Conference in Information Retrieval (ECIR 2005),
    Santiago de Compostela, Spain.
  • Robertson S. E., Sparck Jones K. (1997), Simple,
    proven approaches to text retrieval, Technical
    Report TR356, Cambridge University Computer
    Laboratory, 1997.
  • Ruiz M. E. (2005), Experiments on Genomics Ad
    Hoc Retrieval, in Proceedings of TREC 2005,
    Gaithersburg, MD.
Write a Comment
User Comments (0)
About PowerShow.com