Modles d'valuation des systmes de RI - PowerPoint PPT Presentation

1 / 31
About This Presentation
Title:

Modles d'valuation des systmes de RI

Description:

L' valuation constitue une tape importante lors de la mise en uvre d'un mod le ... A document will address the role of the Federal Govrnment in financing the ... – PowerPoint PPT presentation

Number of Views:46
Avg rating:3.0/5.0
Slides: 32
Provided by: abdel79
Category:

less

Transcript and Presenter's Notes

Title: Modles d'valuation des systmes de RI


1
Modèles d'évaluation des systèmes de RI
Projet- INF6304, Interfaces intelligentes.
  • Abdelilah SAKTI
  • INF6304 Automne 2009

2
Plan
  • Introduction.
  • Approche orientée système.
  • Les mesures usuelles dévaluation des SRI.
  • Modèles dévaluation.
  • TREC - Text REtrieval Conference
  • Approche orientée usagers.
  • Conclusion.

3
Introduction
4
Introduction
  • Lévaluation constitue une étape importante lors
    de la mise en uvre dun modèle de recherche
    dinformation, elle permet
  • De paramétrer le modèle
  • Destimer limpact de chacune de ses
    caractéristiques
  • De fournir des éléments de comparaison entre
    modèles
  • Les premières évaluations datent de 1953
  • Dans ce domaine on peut distinguer entre deux
    grandes écoles
  • Lanalyse quantitative (paradigme système)
  • Le facteur de satisfaction de lutilisateur
    (paradigme cognitif)

5
Approche orientée système.
  • Le paradigme système constitue depuis plus de
    quarante ans.
  • Le paradigme dominant en informatique
    documentaire.
  • Evaluation orienté système est basée sur quatre
    points
  • Une collection de documents sur laquelle les
    recherches sont effectuées,
  • Un ensemble de requêtes de test
  • Une liste des documents (dans la collection)
    pertinents pour chacune des requêtes
  • Des mesures dévaluation

6
Les mesures usuelles dévaluation des SRI
  • Un certain nombre de mesures standards sont
    proposées dans la littérature
  • les plus utilisés sont -
  • le rappel, la précision, la MAP (Mean average
    Precision), la F-mesure, et les mesures de haute
    précision (P_at_5,P_at_10, P_at_15).

7
Le rappel et la précision
  • Le rappel et la précision sont deux mesures de
    base pour évaluer les performances des systèmes.

8
Le rappel (calculer lexhaustivité de la
recherche)
  • le ratio entre le nombre de documents pertinents
    retrouvés et le nombre total de documents
    pertinents dans la base
  • Rq - est lensemble des documents retrouvés par
    le système pour la requête q
  • Pq - est lensemble des documents pertinents de
    la collection pour cette requête.
  • Si de nombreux documents intéressants
    napparaissent pas on parle de silence

9
La précision (combien de non pertinent ?)
  • le nombre de documents pertinents retrouvés
    rapporté au nombre total de documents retrouvés
  • Tous les documents superflus constituent du bruit

10
La courbe de précision
  • Soit une requête Q, et P (D13, D15, D12, D5,
    D3, D7, D11, D20, D17, D2) lensemble
  • Soit S un SRI qui retourne les documents du
    tableau 1 en réponse à la requête Q.
  • Onze points de rappel sont considérés en RI
    (0, 10, 20, ..., 100)

11
La précision moyenne 
  • de la performance des SRI est généralement
    effectuée sur un ensemble de requêtes (Q).
  • Nq Nombre total de requêtes
  • Pi(rp) Précision de la requête au point de
    rappel rp(10, 20 )

12
Les mesures combinées (F-mesure)
  • Différents auteurs ont montré que les deux
    mesures rappel/précision sont insatisfaisantes
    pour déterminer la pertinence dun document.
  • Mesure harmonique
  • Mesure orientée utilisateur
  • Coverage
  • Novelty

13
Modèles dévaluation
14
Projet Cranfield
  • Dans la première phase de ce projet, on visait à
    tester lefficacité de différentes façons
    dindexer et de rechercher des documents.
  • La collection de test
  • ensemble darticles (18 000 dans Cranfield I)
  • (1 200) de requêtes.
  • les requêtes sont évaluées par des experts afin
    de déterminer les réponses souhaitées
  • Les résultats dune recherche sont comparés avec
    les réponses souhaitées
  • Le projet Cranfield a une influence marquante sur
    toute lhistoire de la RI. On utilise encore
    aujourdhui les mêmes principes dévaluation pour
    les systèmes de RI.

15
Les caractéristiques de Cranfield
  • Le SRI est considéré comme une boîte noire ,
    il agit donc comme un filtre qui accepte en
    entrée des requêtes et fournit des documents.
  • La performance du SRI sexprime à travers les
    seules notions de précision et rappel

16
Les limites de Cranfield
  • Labsence de lusager dans le processus
    dévaluation.
  • Aucune ou sous estimation d'analyse des besoins
    d'information.
  • rappel/précision sont insuffisants pour
    déterminer la pertinence dune recherche.

17
Autres Projets
  • Projet MEDLARS MEDical Literature Analysis and
    Retrieval System
  • Les documents dans la collection sont dans le
    domaine biomédical
  • Projet SMART
  • Dans ce projet, une série dexpérimentations a
    été menée, portant sur divers sujets
  • Projet STAIRS - STorage And Information Retrieval
    System
  • Les documents sont dans le domaine de droit.

18
TREC - Text REtrieval Conference
  • TREC est une conférence annuelle d'origine
    américaine.
  • Objectifs
  • Encourager la recherches dans les SRI.
  • Augmenter la communication entre l'industrie,
    milieu universitaire et le gouvernement .
  • Accélérer le transfert de technologie des
    laboratoires de recherche en produits
    commerciaux.
  • Augmenter la disponibilité de techniques
    d'évaluation.

19
Les taches TREC
  • Ad-hoc
  • Une recherche classique dun utilisateur qui
    soumet une requête au système et attend en
    réponse un ensemble de documents pertinents par
    rapport à cette requête.
  • Question-réponse 
  • Dans lesquelles les systèmes doivent retourner à
    lutilisateur la réponse à une question précise.
  • RI-translingue
  • sintéresse à la recherche de documents dans une
    langue différente de celle de la requête.
  • Terabyte-
  • sintéresse aux très grands corpus de documents.

20
Format requête TREC
21
Format dun document TREC
22
Principe de construction TREC
  • On constitue un groupe dassesseurs de
    pertinence.
  • Chacun deux gère un ensemble den moyenne 10
    sujets de requête.
  • Chacun détermine les documents pertinents
    associés dans la collection.
  • On sélectionne finalement 50 sujets de requêtes
    sur la base du nombre de documents pertinents
    estimé.
  • Dans lannée, les participants à TREC
  • utilisent les 50 requêtes pour leur SRI
  • proposent la liste des 1000 top documents obtenus
    pour chaque requête
  • TREC constitue un document de synthèse où figure
    pour chaque système et chaque requête les 100
    premiers documents restitués.
  • Lassesseur de pertinence de chaque sujet de
    requête évalue les résultats de synthèse pour
    chacun des documents.
  • On évalue alors chaque système en considérant
    que-
  • Tout document qui napparaît pas parmi les 100
    premiers est non pertinent
  • Les mesures standards de précision moyenne à la
    requête et précision moyenne du système.

23
Trec-eval
  • Trec-eval est l'outil standard utilisé par la
    communauté TREC pour lévaluation ad-hoc des SRI.
  • Entrée 2 fichiers
  • Résultats
  • Jugements
  • Sortie
  • Un fichier(schéma)

24
Exemple de Comparaison TREC des résultats de deux
systèmes
25
Critiques TREC
  • proposent uniquement des mesures quantitatives.
  • la pertinence des documents est binaire
    (pertinent ou non pertinent).
  • Plusieurs travaux ont montré que les jugements de
    pertinence pour un même besoin, diffèrent en
    fonction du juge qui examine les documents ainsi
    que linstant du jugement. dépendant complètement
    de lutilisateur
  • Malgré cela, TREC reste sans conteste la
    référence en matière dévaluation des SRI.

26
Lévaluation orientée usagers
27
Lévaluation orientée usagers
  • Son apparition a été fondée en grande partie sur
    certaines critiques portées à lencontre du
    paradigme système.
  • le fait que les requêtes ne sont que des
    représentations imparfaites des besoins
    dinformation.
  • La notion de pertinence est inadéquate pour
    rendre compte de la satisfaction des usagers.
  • le fait que les mesures dévaluation utilisées
    dans cette approche ne sont pas appropriées.

28
Lévaluation orientée usagers
  • Les besoins réels de l'utilisateur et son
    environnement
  • Comment les usagers définissent leurs besoins ?
  • Comment les usagers reconnaissent leurs besoins ?
  • Comment les usagers formalisent leurs besoins ?
  • Comment les usagers présentent leurs besoins au
    système ?
  • Comment les usagers utilisent les fonctions du
    système pour satisfaire leurs besoins
    d'information ?
  • Cette liste de questions cherche à expliquer
    comment les usagers organisent leur pensée et
    leur activité.

29
Les modèles proposés
  • Le modèle de Carol Kuhltlau
  • Le modèle de Nicholas Belkin
  • Le modèle de Peter Ingwersen
  • Le modèle de Tom Wilson

30
Conclusion
  • TREC reste sans conteste la référence en matière
    dévaluation des SRI.
  • L'approche cognitive constitue l'une des
    alternatives à l'approche système de l'évaluation
    des SRI.

31
Merci pour votre attention
  • Questions ?
Write a Comment
User Comments (0)
About PowerShow.com