Filtrage de l’Information - PowerPoint PPT Presentation

About This Presentation
Title:

Filtrage de l’Information

Description:

Lynda AIT MEHEDINE, Abdejlil KHATTABI et Sanaa EL AOUMARI Jian-Yun Nie: Cours IFT6255 Universit de Montr al Plan de la pr sentation Introduction TREC et le ... – PowerPoint PPT presentation

Number of Views:29
Avg rating:3.0/5.0
Slides: 56
Provided by: iroUmont3
Category:

less

Transcript and Presenter's Notes

Title: Filtrage de l’Information


1
Filtrage de lInformation
  • Lynda AIT MEHEDINE, Abdejlil KHATTABI
  • et Sanaa EL AOUMARI
  • Jian-Yun Nie Cours IFT6255
  • Université de Montréal

2
Plan de la présentation
  • Introduction
  • TREC et le filtrage dinformation
  • Définition du filtrage dinformation
  • Filtrage d'information et Recherche
    d'information 
  • Comparaison entre recherche dinformation et
    filtrage dinformation
  • Caractéristiques d'un système de filtrage
  • Le filtrage par contenu
  • Le filtrage par collaboration
  • Les agents

3
Plan de la présentation - suite
  • Evaluation des systèmes de filtrage dinformation
  • Les métriques de la recherche dinformation 
  • Précision et rappel 
  • Métriques TREC pour le filtrage dinformation 
  • Notion dutilité 
  • Métrique orientée vers la précision 
  • Concepts Avancés De Filtrage
  • Quelques systèmes de filtrage
  • Conclusion

4
Introduction
  • Avec la très grande masse d'informations devenue
    disponible sur lInternet. Il est devenu
    primordial aujourd'hui de consacrer une partie
    considérable de notre temps à l'extraction de
    l'information pertinente
  • Au lieu de laisser l'utilisateur dépenser son
    temps à chercher l'information dont il a besoin,
    la tendance actuelle est de concevoir des
    mécanismes qui permettent de lui faciliter la
    tâche en lui faisant parvenir continuellement
    l'information qui l'intéresse.
  • Recherche et filtrage d'information visent à
    modéliser, concevoir et mettre en application des
    systèmes capables de traiter un flux
    d'informations au fur et à mesure de leur arrivée
    pour en sélectionner et de diffuser seulement
    les informations pertinentes

5
Introduction
  • le filtrage de l'information est un nom donné à
    une variété de processus dont le but est de faire
    parvenir, à partir de larges volumes
    d'informations générées dynamiquement, les
    informations aux personnes qui en ont besoin.
  • Les domaines d'application du filtrage de
    l'information sont assez variés, et d'une grande
    importance économique, parmi eux  mailing list,
    Usenet News, filtrage des e-mails, filtrage dans
    les webs.
  • Les conférences TREC ont joué un rôle important
    dans le développement du domaine de la recherche
    dinformation automatisée.

6
TREC et le filtrage dinformation
  • dans le domaine de la recherche dinformation les
    principes directeurs de ces conférences sont les
    suivants 
  • Définir les principaux domaines et sous domaine
    de la Ri
  • Fournir des données de références normalisées,
    dans le but de comparer les performances de
    système de RI, grâce a des métriques communes
  • Faciliter léchange entre équipe participantes,
    issues aussi bien de l industrie que du domaine
    public(universités, entités gouvernementales,
    laboratoires etc..)

7
TREC et le filtrage dinformation
  • Le premier atelier sur le filtrage de
    linformation haute performance(High Performance
    Information Filtering) a vu le jour en 1991 il a
    été sponsorise par Bellcore et le Sig sur les
    systèmes dinformation bureautique(office
    information System).
  • au cours de cet atelier environ quarante
    publications examineront le domaine du filtrage a
    partir de plusieurs perspectives différentes 
  • De la sélection de linformation
  • A la modélisation de lutilisateur

8
TREC et le filtrage dinformation
  • En passant par les domaines dapplications, les
    détails techniques et logiciels ainsi que des
    considérations sur la confidentialité et des
    études de cas.
  • Le filtrage dinformation ne connut que des
    débuts très hésitants, ne se focalisant que sur
    un des aspects de lactivité Le filtrage a
    partir du contenu.
  • Dautres types de filtrages ont été évoques au
    cours du développement du domaine, tel que le
    filtrage collaboratif, ou social, prenant en
    compte les avis des utilisateurs sur la qualité
    informative des documents consultes.

9
TREC et le filtrage dinformation
  • Dans les premières édition de TREC, le filtrage
    dinformation n était considère que comme une
    recherche exploratoire.
  • Le filtrage dinformation proprement dit n'est
    apparu qu'a la quatrième édition de TREC.Cette
    édition est loccasion de distinguer entre
    routage dinformation et filtrage dinformation.  

10
Définition du filtrage dinformation
  • Le filtrage est un processus qui consiste à
    extraire les informations pertinentes et de
    qualité à partir dune imposante masse
    dinformations.

11
Définition du filtrage dinformation
  • L'élément essentiel du filtrage est le modèle de
    l'utilisateur, qui permet de sélectionner quelles
    sont les informations à transmettre à
    l'utilisateur et de savoir comment le faire.
  • Le filtrage de l'information se présente comme
    une aide à l'extraction de l'information
    pertinente concevoir des mécanismes destinés à
    faire parvenir à l'utilisateur l'information qui
    l'intéresse directement.

12
Définition du filtrage dinformation
  • Cest aussi un processus visant à extraire au
    sein d'un important volume d'informations
    générées dynamiquement, les documents
    susceptibles de correspondre aux besoins et
    intérêts de l'utilisateur, après que celui-ci ait
    défini ses centres d'intérêt. Le filtrage intègre
    aussi les opérations d'exploitation et de
    présentation des résultats. Les informations,
    sont extraites de sources différentes et évoluent
    dans le temps.
  • L'outil de filtrage permet ainsi de repérer et
    identifier exclusivement les documents relatifs
    aux centres d'intérêt indiqués par l'utilisateur.

13
Filtrage d'information et recherche
d'information 
  • La distinction entre la recherche d'information
    et le filtrage d'information n'est souvent pas
    claire.
  • Un système de recherche d'information a pour
    fonction de guider l'utilisateur à retrouver les
    documents qui lui permettent de répondre à ses
    besoins
  • D'une part, l'utilisateur soumet une requête au
    système
  • D'autre part, les sources d'informations sont une
    collection de textes représentés sous forme de
    bases de données et souvent indexés en un
    ensemble de mots clés
  • Ces derniers sont comparés à la requête de
    l'utilisateur pour aboutir à un ensemble de
    documents répondant à sa requête.

14
Filtrage d'information et recherche d'information
15
Filtrage d'information et recherche d'information
  • La 2éme figure schématise un modèle de filtrage
    d'information.
  • Il débute avec des individus ou groupe
    d'individus qui ont des intérêts relativement
    stables à long terme  profils
  • La source d'informations provient des producteurs
    de textes (exemple  journaux)
  • Ces derniers doivent distribuer ces informations
    aux personnes intéressées
  • Cette opération est réalisée en comparant les
    textes aux profils des différents individus.

16
Comparaison entre les Processus de Recherche et
de Filtrage d'Information
  • En comparant les 2 figures, nous constatons une
    analogie entre les processus de filtrage et de
    recherche d'information.
  • Les principales différences sont résumées comme
    suit 

17
Comparaison entre les Processus de Recherche et
de Filtrage d'Information
  • La recherche d'information assure la collection
    et l'organisation des documents
  • Le filtrage de l'information assure la
    distribution des documents aux personnes qui en
    ont besoin

18
Comparaison entre les Processus de Recherche et
de Filtrage d'Information
  • Un système de recherche d'information établit
    une sélection de documents à partir d'une base de
    données statique
  • Le filtrage est une sélection et/ou souvent une
    élimination d'information à partir d'une source
    d'information dynamique

19
Comparaison entre les Processus de Recherche et
de Filtrage d'Information
  • Un système de recherche d'information est utilisé
    par une seule personne à un moment donné (une
    requête à la fois)
  • Par contre un système de filtrage est un
    processus itératif (multiples parcours) pouvant
    être utilisé par une ou plusieurs personnes avec
    des intérêts à long terme

20
Comparaison entre les Processus de Recherche et
de Filtrage d'Information
  • Le filtrage de l'information est généralement
    appliqué à des flux arrivants de nouvelles
    données
  • Tandis que dans la recherche d'information les
    modifications dans la base de données ne sont pas
    fréquentes et la recherche n'est pas limitée aux
    nouveaux documents

21
Comparaison entre les Processus de Recherche et
de Filtrage d'Information
  • La recherche d'information implique le processus
    de collecte (Finding) de l'information dans la
    base de données.
  • Le filtrage de l'information entraîne le
    processus de déplacement (Removing) de
    l'information du flux de données

22
Comparaison entre les Processus de Recherche et
de Filtrage d'Information
  • Contrairement aux requêtes, les profiles sont
    souvent des spécifications correctes des intérêts
    des utilisateurs
  • Ceci vient du fait qu'ils représentent
    généralement des intérêts à long terme pendant
    que les requêtes dans la recherche d'information
    reflètent des intérêts à court terme pouvant être
    satisfaits par la recherche.

23
Tableau recapitulative
24
Caractéristiques d'un système de filtrage
  • Les principales caractéristiques d'un système de
    filtrage sont les suivantes
  • Il est destiné à des informations peu ou pas
    structurées contrairement aux bases de données
    qui utilisent des documents très structurés
  • A noter que La notion de structure ne concerne
    pas seulement le format que doit avoir le
    document, mais aussi son contenu
  • Il est aussi facile, par exemple de définir une
    base de donnée pour des documents complexes, tel
    que des articles de journaux, mais le contenu du
    texte, figures et tableaux de ce type de
    documents reste mal défini

25
Caractéristiques d'un système de filtrage
  • Il diffuse en général des informations
    textuelles, mais peut également gérer d'autres
    types d'information tel que image ou son.
  • A noter que ce genre d'information est très mal
    géré par les systèmes de recherche
    conventionnelle du fait de la complexité de la
    représentation de leur contenu.

26
Caractéristiques d'un système de filtrage
  • Le filtrage concerne un flux d'information en
    provenance d'une ou plusieurs sources extérieures
    (ex news) ou adressé directement à l'utilisateur
    (ex. email)
  • Le filtrage doit prendre en compte le profil de
    l'usager qui spécifie au système ses
    caractéristiques

27
Le filtrage par contenu
  • La plus ancienne approche
  • But établir une corrélation entre les
    ressources que les usagers consultent
  • Fonctionnement le système analyse le contenu
    des ressources, puis effectue des recommandations
  • Avantages
  • Approprié pour du matériel textuel
  • Facilite l'entrée dun nouvel item dans le système

28
Le filtrage par contenu
  • Désavantages
  • Difficulté d'extraire le contenu ou les
    attributs de certains formats de fichiers
  • Peu apte à recommander des items dissemblables
  • Aucun aspect collaboratif dans cette approche

29
Le filtrage par collaboration
  • Approche plus récente
  • But établir une corrélation entre les usagers
    (leurs profils)
  • Postulat l'usager apprécie des items semblables
    à ceux que des usagers comparables apprécient
    aussi
  • Approche subjective basée sur des jugements de
    valeur

30
Le filtrage par collaboration
  • Individus intermédiaires entre les sources
    d'information
  • Avantages
  • Capacité de recommander des items dissemblables
  • Utilisation pour des formats variés de ressources
  • Capacité de représenter des concepts abstraits
    comme les goûts ou les intérêts

31
Le filtrage par collaboration
  • Désavantages
  • L'ajout de nouveaux items est problématique doit
    avoir été évalué avant d'être suggéré
  • Nécessite un nombre suffisant d'évaluations et
    d'usagers
  • Problème de dispersion des scores
  • Difficulté à gérer les profils atypiques

32
Les agents
  • Un agent est un système capable, dans une
    situation donnée, de prendre une décision et
    d'agir automatiquement sans intervention humaine.
  • Actuellement, on essaie d'intégrer ces agents
    dans le domaine du filtrage et de la recherche
    d'information.
  • Dans les prototypes existants, ces agents
    observent le comportement de l'usager et
    constituent ainsi une base de données sur
    l'usager à partir de laquelle ils pourront agir.

33
Les agents
  • Pour la gestion d'informations structurées, le
    principe est le suivant
  • A partir d'une équation de recherche
    préalablement établie par l'usager, l'agent
    sélectionne les documents qui sont susceptibles
    de répondre à sa requête, les présente à l'usager
    avec des commentaires et des suggestions, en les
    classant par ordre de pertinence. Dans un premier
    temps, il observe le comportement de l'usager
    afin d'ajuster son équation, puis il décide de
    lui adresser ou non tel où tel document.
  • Cybion a annoncé en janvier 2001 la mise en ligne
    de son dernier site "AgentLand", le premier
    portail sur les agents intelligents.

34
Evolution du filtrage dinformation
  • Avec la croissance dInternet et des autres
    réseaux dinformations, la recherche dans le
    domaine du filtrage automatique dinformation
    sest développée ces dernières années.
  • USENET News et courrier électronique sont les
    domaines les plus populaires de la recherche.
  • La croissance du World Wide Web a fait de lui un
    domaine intéressant qui a attiré la recherche
    scientifique
  • Et ceci même si le problème de la collection de
    linformation semble le rendre un domaine plus
    difficile pour mener une recherche fondamentale
    sur des techniques de filtrage dinformation.

35
Evolution du filtrage dinformation
  • Une des premières formes de filtrage de
    l'information électronique a été la DSI
    Diffusion Sélective de l'Information
  • DSI consiste à envoyer à intervalle régulier
    correspondant en général aux mises à jour de la
    base de données, l'ensemble des références
    nouvelles répondant à une requête préalablement
    enregistrée
  • Bien que largement utilisée, la DSI n'est pas
    sans défaut. Elle peut être difficile à
    implémenter telle quelle sur les systèmes de
    messagerie, et ceci étant donné le grand volume
    d'information qui circule dans l'Internet et la
    diversité des sources

36
Evolution du filtrage dinformation
  • Toutes les recherches actuelles sont orientées
    vers des systèmes automatiques dits
    "intelligents".
  • Pour des raisons pratiques, en particulier un
    minimum de structuration des documents, les
    premiers travaux concernaient surtout les News.
    Les recherches actuelles sont plutôt orientées
    vers les services WWW.
  • Un autre domaine qui a attiré lintérêt de la
    recherche cest la conférence annuelle de
    récupération des textes TREC (Text Retreival
    Conference) dans lequel une collection standard
    des textes est utilisée et une méthodologie
    dévaluation soigneusement contrôlée est imposée.

37
Evolution du filtrage dinformation
  • Dans TREC, la tâche de filtrage de linformation
    est notifiée en tant que cheminement  routing ,
    ajoutant une confusion de la terminologie dans ce
    domaine
  • En effet, TREC a récemment adopté une voie de
    filtrage  feltering  qui suit une méthodologie
    dévaluation différente, mais reste conforme à la
    définition du filtrage.
  • Les systèmes commerciaux qui filtrent des
    articles dInternet et dautres sources
    dinformations deviennent aussi disponibles. Des
    techniques de filtrages seront probablement
    appliquées dans dautres domaines tels que les
    images, son et vidéo

38
Evaluation des systèmes de filtrage dinformation
  • Nous allons présenter les métriques utilisées en
    Ri et Fi dans le cadre de TREC pour lévaluation
    des systèmes
  • Les métriques de Recherche dinformation
  • Les métriques de filtrage dinformation 

39
Evaluation des systèmes de filtrage dinformation
  • Les métriques de la recherche dinformation
  • La majorité des métriques utilisée en RI,
  • supposent la constitution dun ensemble de
  • réponses de références, a comparer avec les
    réponses des systèmes évalues

40
Evaluation des systèmes de filtrage dinformation
  • Les métriques Précision et Rappel se définissent
    comme suit 
  • Précision documents pertinents retrouves/Nbre
    documents retrouvés.
  • Rappel documents pertinents retrouves/Nbre
    documents pertinents
  • dans la base
  • Le taux de Rappel mesure la capacité des systèmes
  • évalués a couvrir le problème, alors que le
    taux de
  • précision mesure la qualité des réponses
    fournies

41
Evaluation des systèmes de filtrage dinformation
  • Métriques TREC pour le filtrage dinformation 
  • Les métriques TREC sinspirent des métriques que
    lon vient de présenter cest a dire celle des
    systèmes de recherche dinformation.
  • Notion dutilité  (TREC-3) Cette notion
    introduite au cours de TREC marquera les vrais
    débuts du filtrage dinformation

42
Evaluation des systèmes de filtrage dinformation
  • Pour toute expérience Ri, évaluer la capacité
    des systèmes de filtrage reviens a évaluer la
    formule suivante qui sert a trier un ensemble de
    documents en deux catégories A et B 
  • UiUaiAiUbiBi.
  • Ai nombre de documents pertinents trouvés par le
    système.
  • Bi nombre de documents non pertinents.
  • Les constantes Uai et Ubi correspondent a la
    valeur dutilité donnée par un utilisateur .

43
Evaluation des systèmes de filtrage dinformation
  • TREC4 a fixé trois valeurs pour ces constantes,
    correspondants a trois scénarios différents 
  • Un scénario ou on favorise la qualité des
    réponses(un poids maximal sur la précision).
  • Un scénario dit équilibré ou les poids sur les
    documents de type A et B sont égaux.
  • Un scénario ou cest la quantité de réponse qui
    est recherchée.

44
Evaluation des systèmes de filtrage
dinformation 
  • Propriétés de cette métrique 
  • La mesure dutilité nest pas normalisée. 
  • La comparaison de lefficacité dun même
    système sur plusieurs requêtes différentes nest
    pas facile, seule la comparaison entre systèmes
    pour une même expérience est possible.

45
Evaluation des systèmes de filtrage dinformation
  • Dautres métriques pour le filtrage
  • d information ont vu le jour tel que 
  • ASPPrécisionRappel.
  • Les deux métriques utilité et ASP sont
  • utilisées conjointement afin de fournir des
  • indicateurs de performance pour chaque
  • système.

46
Evaluation des systèmes de filtrage dinformation 
  • Métrique orientée vers la précision 
  • Ces métriques ont vu le jour au niveau de la 9eme
    édition de TREC.
  • T9PNombre de documents pertinents
    sélectionnés/Max(Cible, Nombre de documents
    sélectionnes)

47
Evaluation des systèmes de filtrage dinformation 
  • Avec une cible fixe a 50 pour TREC-9
  • Le principe de cette mesure repose sur lidée de
    cible ou but a atteindre( cest a dire un
    effectif de 50)pour chaque système en terme de
    nombres de documents pertinents, une pénalité est
    attribuée dans les cas ou la cible nest pas
    atteinte.

48
Concepts Avancés De Filtrage
  • La première étape dans la création d'un système
    de filtrage est de déterminer et représenter les
    intérêts d'un lecteur
  • demander à l'utilisateur une liste de mots clés
    qu'il jugent intéressant.
  • une pondération pour chaque mots qui détermine le
    niveau d 'intérêt associer avec les mots
  • D'autres méthodes tentent d'observer les
    articles qu'un utilisateur décide de lire,
    d'analyser leur contenu.

49
Concepts Avancés De Filtration
  • Toutes ses informations(mots clés et poids.)
    seront stockées dans un profile utilisateur.
  • Des études ont montrées qu'on peut aboutir à de
    meilleurs résultats en combinant toute ses
    méthodes.

50
Quelques systèmes de filtrage
  • POESIA est un projet de logiciel de filtrage
    libre
  • Le marché principal de POESIA est composé des
    institutions d'enseignement, telles que les
    écoles et les bibliothèques. Chaque système
    POESIA fonctionne sur un PC Linux séparant le
    réseau de l'école de l'Internet mais mettant en
    commun les données de filtrage.
  •  PRINCIP est un système multilingue pour détecter
    les documents racistes sur Internet.

51
Quelques systèmes de filtrage
  • SCOFI est un système intelligent
    d'authentification par carte à puce
  • Les cartes à puce contiendront les détails des
    élèves et lorsqu'elles seront introduites dans
    l'ordinateur, un code PIN sera demandé pour
    accéder à certains sites Web, le niveau d'accès
    étant spécifique à chaque utilisateur pour
    proceder au filtrage adequat.
  • L'objectif est de produire un environnement sur
    Internet pour les enfants entre 8 et 14 ans.

52
Conclusion
  • Difficile d'obtenir une image claire de la façon
    dont l'information que nous obtiendrons des
    médias du futur différera de l'information que
    nous obtenons des outils actuels.
  • Noam. Chomsky
  • il y a des genres particuliers d'information
    que l'on ne pourra jamais trouver.

53
Conclusion
  • des systèmes plus complexes et plus réalisables
    seront développés bientôt.
  • La question qui se posent combien de personnes
    feront confiance aux ordinateurs pour leur dire
    ce qu'ils veulent savoir vraiment et est ce que
    les systèmes de filtrages du futur vont
    satisfaire les besoins des utilisateurs plus que
    les systèmes qui existent actuellement ?

54
References
  • www.slis.ualberta.ca/cais2000/favier.htm
  • www.limsi.fr/Individu/gael/ManuscritThese/HTML/nod
    e54.html
  • www.uhb.fr/urfist/filtrfonct.html
  • www.unesco.org/webworld/public_domain/tunis97/com_
    08/com_08.html
  • www.inria.fr/valorisation/rencontres/web-semantiqu
    e/panorama/filtrage.fr.html
  • www.ee.umd.edu/medlab/filter/filter.html
  • www.ils.unc.edu/losee/minim.html
  • www.business.com/directory/internet_and_online/ema
    il/anti-spam/filtering/
  • is.gseis.ucla.edu/impact/s94/students/paul/paul_fi
    nal.html
  • www.adbs.fr/site/web3/sitespro/lardy/chap5.htm
  • antonio.balvet1.free.fr/Manuscrit_V1.0.1-03-01-03.
    pdf
  • www.ida.liu.se/labs/iislab/courses/IRIF/IRIF_intro
    duktion.htmlHDR4 solutions.journaldunet.com/00jan
    v/000119alaxis.shtml
  • www.unesco.org/webworld/public_domain/tunis97/com_
    08/com_08.html
  • www.uhb.fr/urfist/filtrfonct.html

55
Merci de votre attention !
Write a Comment
User Comments (0)
About PowerShow.com