Title: Fabrice Camous
1On Combining Text and MeSH Searches to Improve
the Retrieval of MEDLINE documents
Fabrice Camous
Directeurs de thèse Stephen Blott et Alan
Smeaton
School of Computing, Dublin City University
17 Mars 2006
CORIA 2006, Lyon.
Recherche financée par Enterprise Ireland
2La base MEDLINE
- Point de départ de recherche pour les
biologistes. - Plus de 13 millions dentrées.
- Environ 4,800 journaux.
- La base TrecGen 2004 en est un sous-ensemble.
- Information textuelle et information structurée.
3Entrée MEDLINE Champs MeSH
- Résoudre les ambiguïtés du texte.
- Compléter linformation contenue dans le texte.
PMID- 10605436 TI - Concerning the localization
of steroids in centrioles and basal bodies by
immunofluorescence. AB - Specific steroid
antibodies, by the immunofluorescence technique,
regularly reveal fluorescent centrioles and
cilia-bearing basal bodies in target and
nontarget cells. Although the precise identity of
the immunoreactive steroid substance has not yet
been established AU - Nenci I AU - Marchetti
E MH - Animals MH - Centrioles/ultrastructure
MH - Cilia/ultrastructure MH - Female MH -
Fluorescent Antibody Technique MH - Human MH -
Lymphocytes/cytology MH - Male MH -
Organelles/ultrastructure MH - Rats MH - Rats,
Sprague-Dawley MH - Respiratory Mucosa/cytology
4MeSH Utilisations récentes
- Mixer texte et MeSH a lindexation
- Abdou et al. (2005) Amélioration de 9 de la MAP
sur une baseline de 0.2624 MAP. - Fusionner résultats obtenus à partir dindexes
séparés - Ruiz (2005) Somme pondérée des scores.
5Création de Liens Sémantiques
Gène B
Doc B
Liens textuels
Liens textuels
Gène A
Doc A
Liens sémantiques
Liens sémantiques
6Liens MeSH entre documents MEDLINE
Liens MeSH
- 2 types de MeSH (2004)
- 22568 Descripteurs.
- 83 qualifieurs.
PMID- 10506108 TI - Reduction of UV-induced skin
tumors in hairless mice by selective COX-2
inhibition. MH - Animals MH - Carcinoma,
Squamous Cell/enzymology/pathology/prevention
control MH - Cell Division MH - Cyclooxygenase
Inhibitors/therapeutic use MH - Female MH -
Immunohistochemistry MH - Isoenzymes/drug
effects/metabolism MH - Mice MH - Mice, Inbred
HRS MH - Neoplasms, Radiation-Induced/enzymology/
pathology/prevention control MH -
Prostaglandin-Endoperoxide Synthase/drug
effects/metabolism MH - Skin Neoplasms/enzymology
/pathology/prevention control MH -
Sulfonamides/therapeutic use MH - Support, U.S.
Gov't, P.H.S. MH - Ultraviolet Rays
- PMID- 10434051
- TI - Quantitative alterations of hyaluronan and
dermatan sulfate in the - hairless mouse dorsal skin exposed to
chronic UV irradiation. - MH - Animals
- MH - Chondroitin ABC Lyase
- MH - Collagenases
- MH - Deoxyribonucleases, Type II Site-Specific
- MH - Dermatan Sulfate/radiation effects
- MH - Disaccharides/analysis
- MH - Female
- MH - Histological Techniques
- MH - Hyaluronic Acid/radiation effects
- MH - Mice
- MH - Mice, Inbred HRS
- MH - Skin/chemistry/pathology/ radiation
effects - MH - Swine
- MH - Ultraviolet Rays
Association Descripteur/qualifieurs
MH - Dermatan Sulfate/radiation effects MH -
Sulfonamides/therapeutic use
- 2 indexes créés a partir de TrecGen04
- MH1 pas dassociation, 21,999 termes uniques.
- MH2 associations maintenues, 308,333 termes
uniques.
7Evaluation des Liens MeSH
Baseline (Texte uniquement)
Combinaison des scores Text et MH2
Combinaison des scores Text et MH1
Génération de requêtes MeSH
Requêtes MH1
Requêtes MH2
Résultats MH1
Résultats MH2
Résultats (TextMH1)
Résultats (TextMH2)
Comparaison entre MH1 et MH2
8TREC Génomique 2005
- Abdou et al. (2005)
- -Ajout des champs MeSH pendant lindexation
Amélioration de 9 de la MAP sur une baseline de
0.2624 MAP. - Huang et al. (2005)
- -Pseudo-relevance Feedback (Okapi BM25)
Amélioration de 9.39 de la MAP sur une baseline
de 0.2640 MAP. - Ando et al. (2005)
- -Structural Feedback Amélioration de 3.64 de
la MAP sur une baseline de 0.2610 MAP.
9Méthode
- Collection TrecGen 2004 (4.5 millions dentrées
MEDLINE). - Requêtes texte issues des requêtes de lépreuve
ad hoc 2005. - Génération des requêtes MeSH
- -Calculation des scores des termes MeSH avec la
méthode Offer Weight -
-
- -Paramètres pour la création de requêtes MeSH
R5, T5, 10, .., 40. - Fusion des scores baseline et MeSH
- -combi_doc_score a (text_doc_score /
max_text_score) - (1- a)
(mesh_doc_score / max_mesh_score) - -a0.9.
10Résultats
11Résultats
12Expérience suivant la soumission de larticle
- Apprentissage des paramètres de la méthode de PRF
- Les 50 (49) requêtes de TrecGen 2005 sont
séparées en 25 requêtes dapprentissage et 24 de
test. - Paramètres
- R5, 10, ..., 20. (docs considérés pertinents)
- T5, 10, ..., 40. (Nombre de termes dans la
requête MeSH) - a0.50, 0.55, ..., 0.95. (fusion des scores).
13Résultats
14Résultats
15Conclusion et Travaux futurs
- Lexpérience confirme le bénéfice de
lutilisation des termes MeSH. - Pas dimpact évident pour les associations
descripteur/qualifieur. - Utiliser une meilleure baseline (Ando et al.
(2005), 26.10 MAP) - Tester la pertinence des termes MeSH selon leur
position dans le réseau sémantique. - Introduire le réseau pour comparer les groupes de
termes MeSH.
16Merci!
17Bibliographie
- Abdou S., Savoy J., Ruck P. (2005), Evaluation
of Stemming, Query Expansion and Manual Indexing
Approaches for the Genomic Task, in Proceedings
of TREC 2005, Gaithersburg, MD. - Ando R.K., Dredze M., Zhang T. (2005), TREC 2005
Genomics Track Experiments at IBM Watson, in
Proceedings of TREC 2005, Gaithersburg, MD. - Ferguson P., Gurrin C., Wilkins P., Smeaton A. F.
(2005), Físréal A Low Cost Terabyte Search
Engine, in Proceedings of the European
Conference in Information Retrieval (ECIR 2005),
Santiago de Compostela, Spain. - Robertson S. E., Sparck Jones K. (1997), Simple,
proven approaches to text retrieval, Technical
Report TR356, Cambridge University Computer
Laboratory, 1997. - Ruiz M. E. (2005), Experiments on Genomics Ad
Hoc Retrieval, in Proceedings of TREC 2005,
Gaithersburg, MD.