Title: Filtrage de l’Information
1Filtrage de lInformation
- Lynda AIT MEHEDINE, Abdejlil KHATTABI
- et Sanaa EL AOUMARI
- Jian-Yun Nie Cours IFT6255
- Université de Montréal
2Plan de la présentation
- Introduction
- TREC et le filtrage dinformation
- Définition du filtrage dinformation
- Filtrage d'information et Recherche
d'information - Comparaison entre recherche dinformation et
filtrage dinformation - Caractéristiques d'un système de filtrage
- Le filtrage par contenu
- Le filtrage par collaboration
- Les agents
3Plan de la présentation - suite
- Evaluation des systèmes de filtrage dinformation
- Les métriques de la recherche dinformation
- Précision et rappel
- Métriques TREC pour le filtrage dinformation
- Notion dutilité
- Métrique orientée vers la précision
- Concepts Avancés De Filtrage
- Quelques systèmes de filtrage
- Conclusion
4Introduction
- Avec la très grande masse d'informations devenue
disponible sur lInternet. Il est devenu
primordial aujourd'hui de consacrer une partie
considérable de notre temps à l'extraction de
l'information pertinente - Au lieu de laisser l'utilisateur dépenser son
temps à chercher l'information dont il a besoin,
la tendance actuelle est de concevoir des
mécanismes qui permettent de lui faciliter la
tâche en lui faisant parvenir continuellement
l'information qui l'intéresse. - Recherche et filtrage d'information visent à
modéliser, concevoir et mettre en application des
systèmes capables de traiter un flux
d'informations au fur et à mesure de leur arrivée
pour en sélectionner et de diffuser seulement
les informations pertinentes
5Introduction
- le filtrage de l'information est un nom donné à
une variété de processus dont le but est de faire
parvenir, à partir de larges volumes
d'informations générées dynamiquement, les
informations aux personnes qui en ont besoin. - Les domaines d'application du filtrage de
l'information sont assez variés, et d'une grande
importance économique, parmi eux mailing list,
Usenet News, filtrage des e-mails, filtrage dans
les webs. - Les conférences TREC ont joué un rôle important
dans le développement du domaine de la recherche
dinformation automatisée.
6TREC et le filtrage dinformation
- dans le domaine de la recherche dinformation les
principes directeurs de ces conférences sont les
suivants - Définir les principaux domaines et sous domaine
de la Ri - Fournir des données de références normalisées,
dans le but de comparer les performances de
système de RI, grâce a des métriques communes - Faciliter léchange entre équipe participantes,
issues aussi bien de l industrie que du domaine
public(universités, entités gouvernementales,
laboratoires etc..)
7TREC et le filtrage dinformation
- Le premier atelier sur le filtrage de
linformation haute performance(High Performance
Information Filtering) a vu le jour en 1991 il a
été sponsorise par Bellcore et le Sig sur les
systèmes dinformation bureautique(office
information System). - au cours de cet atelier environ quarante
publications examineront le domaine du filtrage a
partir de plusieurs perspectives différentes - De la sélection de linformation
- A la modélisation de lutilisateur
8TREC et le filtrage dinformation
- En passant par les domaines dapplications, les
détails techniques et logiciels ainsi que des
considérations sur la confidentialité et des
études de cas. - Le filtrage dinformation ne connut que des
débuts très hésitants, ne se focalisant que sur
un des aspects de lactivité Le filtrage a
partir du contenu. - Dautres types de filtrages ont été évoques au
cours du développement du domaine, tel que le
filtrage collaboratif, ou social, prenant en
compte les avis des utilisateurs sur la qualité
informative des documents consultes.
9TREC et le filtrage dinformation
- Dans les premières édition de TREC, le filtrage
dinformation n était considère que comme une
recherche exploratoire. - Le filtrage dinformation proprement dit n'est
apparu qu'a la quatrième édition de TREC.Cette
édition est loccasion de distinguer entre
routage dinformation et filtrage dinformation.
10Définition du filtrage dinformation
- Le filtrage est un processus qui consiste à
extraire les informations pertinentes et de
qualité à partir dune imposante masse
dinformations.
11Définition du filtrage dinformation
- L'élément essentiel du filtrage est le modèle de
l'utilisateur, qui permet de sélectionner quelles
sont les informations à transmettre à
l'utilisateur et de savoir comment le faire. - Le filtrage de l'information se présente comme
une aide à l'extraction de l'information
pertinente concevoir des mécanismes destinés à
faire parvenir à l'utilisateur l'information qui
l'intéresse directement.
12Définition du filtrage dinformation
- Cest aussi un processus visant à extraire au
sein d'un important volume d'informations
générées dynamiquement, les documents
susceptibles de correspondre aux besoins et
intérêts de l'utilisateur, après que celui-ci ait
défini ses centres d'intérêt. Le filtrage intègre
aussi les opérations d'exploitation et de
présentation des résultats. Les informations,
sont extraites de sources différentes et évoluent
dans le temps. - L'outil de filtrage permet ainsi de repérer et
identifier exclusivement les documents relatifs
aux centres d'intérêt indiqués par l'utilisateur.
13Filtrage d'information et recherche
d'information
- La distinction entre la recherche d'information
et le filtrage d'information n'est souvent pas
claire. - Un système de recherche d'information a pour
fonction de guider l'utilisateur à retrouver les
documents qui lui permettent de répondre à ses
besoins - D'une part, l'utilisateur soumet une requête au
système - D'autre part, les sources d'informations sont une
collection de textes représentés sous forme de
bases de données et souvent indexés en un
ensemble de mots clés - Ces derniers sont comparés à la requête de
l'utilisateur pour aboutir à un ensemble de
documents répondant à sa requête.
14Filtrage d'information et recherche d'information
15Filtrage d'information et recherche d'information
- La 2éme figure schématise un modèle de filtrage
d'information. - Il débute avec des individus ou groupe
d'individus qui ont des intérêts relativement
stables à long terme profils - La source d'informations provient des producteurs
de textes (exemple journaux) - Ces derniers doivent distribuer ces informations
aux personnes intéressées - Cette opération est réalisée en comparant les
textes aux profils des différents individus.
16Comparaison entre les Processus de Recherche et
de Filtrage d'Information
- En comparant les 2 figures, nous constatons une
analogie entre les processus de filtrage et de
recherche d'information. - Les principales différences sont résumées comme
suit
17Comparaison entre les Processus de Recherche et
de Filtrage d'Information
- La recherche d'information assure la collection
et l'organisation des documents - Le filtrage de l'information assure la
distribution des documents aux personnes qui en
ont besoin
18Comparaison entre les Processus de Recherche et
de Filtrage d'Information
- Un système de recherche d'information établit
une sélection de documents à partir d'une base de
données statique - Le filtrage est une sélection et/ou souvent une
élimination d'information à partir d'une source
d'information dynamique
19Comparaison entre les Processus de Recherche et
de Filtrage d'Information
- Un système de recherche d'information est utilisé
par une seule personne à un moment donné (une
requête à la fois) - Par contre un système de filtrage est un
processus itératif (multiples parcours) pouvant
être utilisé par une ou plusieurs personnes avec
des intérêts à long terme
20Comparaison entre les Processus de Recherche et
de Filtrage d'Information
- Le filtrage de l'information est généralement
appliqué à des flux arrivants de nouvelles
données - Tandis que dans la recherche d'information les
modifications dans la base de données ne sont pas
fréquentes et la recherche n'est pas limitée aux
nouveaux documents
21Comparaison entre les Processus de Recherche et
de Filtrage d'Information
- La recherche d'information implique le processus
de collecte (Finding) de l'information dans la
base de données. - Le filtrage de l'information entraîne le
processus de déplacement (Removing) de
l'information du flux de données
22Comparaison entre les Processus de Recherche et
de Filtrage d'Information
- Contrairement aux requêtes, les profiles sont
souvent des spécifications correctes des intérêts
des utilisateurs - Ceci vient du fait qu'ils représentent
généralement des intérêts à long terme pendant
que les requêtes dans la recherche d'information
reflètent des intérêts à court terme pouvant être
satisfaits par la recherche.
23Tableau recapitulative
24Caractéristiques d'un système de filtrage
- Les principales caractéristiques d'un système de
filtrage sont les suivantes - Il est destiné à des informations peu ou pas
structurées contrairement aux bases de données
qui utilisent des documents très structurés - A noter que La notion de structure ne concerne
pas seulement le format que doit avoir le
document, mais aussi son contenu - Il est aussi facile, par exemple de définir une
base de donnée pour des documents complexes, tel
que des articles de journaux, mais le contenu du
texte, figures et tableaux de ce type de
documents reste mal défini
25Caractéristiques d'un système de filtrage
- Il diffuse en général des informations
textuelles, mais peut également gérer d'autres
types d'information tel que image ou son. - A noter que ce genre d'information est très mal
géré par les systèmes de recherche
conventionnelle du fait de la complexité de la
représentation de leur contenu.
26Caractéristiques d'un système de filtrage
- Le filtrage concerne un flux d'information en
provenance d'une ou plusieurs sources extérieures
(ex news) ou adressé directement à l'utilisateur
(ex. email) - Le filtrage doit prendre en compte le profil de
l'usager qui spécifie au système ses
caractéristiques
27Le filtrage par contenu
- La plus ancienne approche
- But établir une corrélation entre les
ressources que les usagers consultent - Fonctionnement le système analyse le contenu
des ressources, puis effectue des recommandations - Avantages
- Approprié pour du matériel textuel
- Facilite l'entrée dun nouvel item dans le système
28Le filtrage par contenu
- Désavantages
- Difficulté d'extraire le contenu ou les
attributs de certains formats de fichiers - Peu apte à recommander des items dissemblables
- Aucun aspect collaboratif dans cette approche
29Le filtrage par collaboration
- Approche plus récente
- But établir une corrélation entre les usagers
(leurs profils) - Postulat l'usager apprécie des items semblables
à ceux que des usagers comparables apprécient
aussi - Approche subjective basée sur des jugements de
valeur
30Le filtrage par collaboration
- Individus intermédiaires entre les sources
d'information - Avantages
- Capacité de recommander des items dissemblables
- Utilisation pour des formats variés de ressources
- Capacité de représenter des concepts abstraits
comme les goûts ou les intérêts
31Le filtrage par collaboration
- Désavantages
- L'ajout de nouveaux items est problématique doit
avoir été évalué avant d'être suggéré - Nécessite un nombre suffisant d'évaluations et
d'usagers - Problème de dispersion des scores
- Difficulté à gérer les profils atypiques
32Les agents
- Un agent est un système capable, dans une
situation donnée, de prendre une décision et
d'agir automatiquement sans intervention humaine. - Actuellement, on essaie d'intégrer ces agents
dans le domaine du filtrage et de la recherche
d'information. - Dans les prototypes existants, ces agents
observent le comportement de l'usager et
constituent ainsi une base de données sur
l'usager à partir de laquelle ils pourront agir.
33Les agents
- Pour la gestion d'informations structurées, le
principe est le suivant - A partir d'une équation de recherche
préalablement établie par l'usager, l'agent
sélectionne les documents qui sont susceptibles
de répondre à sa requête, les présente à l'usager
avec des commentaires et des suggestions, en les
classant par ordre de pertinence. Dans un premier
temps, il observe le comportement de l'usager
afin d'ajuster son équation, puis il décide de
lui adresser ou non tel où tel document. - Cybion a annoncé en janvier 2001 la mise en ligne
de son dernier site "AgentLand", le premier
portail sur les agents intelligents.
34Evolution du filtrage dinformation
- Avec la croissance dInternet et des autres
réseaux dinformations, la recherche dans le
domaine du filtrage automatique dinformation
sest développée ces dernières années. - USENET News et courrier électronique sont les
domaines les plus populaires de la recherche. - La croissance du World Wide Web a fait de lui un
domaine intéressant qui a attiré la recherche
scientifique - Et ceci même si le problème de la collection de
linformation semble le rendre un domaine plus
difficile pour mener une recherche fondamentale
sur des techniques de filtrage dinformation.
35Evolution du filtrage dinformation
- Une des premières formes de filtrage de
l'information électronique a été la DSI
Diffusion Sélective de l'Information - DSI consiste à envoyer à intervalle régulier
correspondant en général aux mises à jour de la
base de données, l'ensemble des références
nouvelles répondant à une requête préalablement
enregistrée - Bien que largement utilisée, la DSI n'est pas
sans défaut. Elle peut être difficile à
implémenter telle quelle sur les systèmes de
messagerie, et ceci étant donné le grand volume
d'information qui circule dans l'Internet et la
diversité des sources
36Evolution du filtrage dinformation
- Toutes les recherches actuelles sont orientées
vers des systèmes automatiques dits
"intelligents". - Pour des raisons pratiques, en particulier un
minimum de structuration des documents, les
premiers travaux concernaient surtout les News.
Les recherches actuelles sont plutôt orientées
vers les services WWW. - Un autre domaine qui a attiré lintérêt de la
recherche cest la conférence annuelle de
récupération des textes TREC (Text Retreival
Conference) dans lequel une collection standard
des textes est utilisée et une méthodologie
dévaluation soigneusement contrôlée est imposée.
37Evolution du filtrage dinformation
- Dans TREC, la tâche de filtrage de linformation
est notifiée en tant que cheminement routing ,
ajoutant une confusion de la terminologie dans ce
domaine - En effet, TREC a récemment adopté une voie de
filtrage feltering qui suit une méthodologie
dévaluation différente, mais reste conforme à la
définition du filtrage. - Les systèmes commerciaux qui filtrent des
articles dInternet et dautres sources
dinformations deviennent aussi disponibles. Des
techniques de filtrages seront probablement
appliquées dans dautres domaines tels que les
images, son et vidéo
38Evaluation des systèmes de filtrage dinformation
- Nous allons présenter les métriques utilisées en
Ri et Fi dans le cadre de TREC pour lévaluation
des systèmes - Les métriques de Recherche dinformation
- Les métriques de filtrage dinformation
39Evaluation des systèmes de filtrage dinformation
- Les métriques de la recherche dinformation
- La majorité des métriques utilisée en RI,
- supposent la constitution dun ensemble de
- réponses de références, a comparer avec les
réponses des systèmes évalues -
40Evaluation des systèmes de filtrage dinformation
- Les métriques Précision et Rappel se définissent
comme suit - Précision documents pertinents retrouves/Nbre
documents retrouvés. - Rappel documents pertinents retrouves/Nbre
documents pertinents - dans la base
- Le taux de Rappel mesure la capacité des systèmes
- évalués a couvrir le problème, alors que le
taux de - précision mesure la qualité des réponses
fournies
41Evaluation des systèmes de filtrage dinformation
- Métriques TREC pour le filtrage dinformation
- Les métriques TREC sinspirent des métriques que
lon vient de présenter cest a dire celle des
systèmes de recherche dinformation. - Notion dutilité (TREC-3) Cette notion
introduite au cours de TREC marquera les vrais
débuts du filtrage dinformation
42Evaluation des systèmes de filtrage dinformation
- Pour toute expérience Ri, évaluer la capacité
des systèmes de filtrage reviens a évaluer la
formule suivante qui sert a trier un ensemble de
documents en deux catégories A et B - UiUaiAiUbiBi.
- Ai nombre de documents pertinents trouvés par le
système. - Bi nombre de documents non pertinents.
- Les constantes Uai et Ubi correspondent a la
valeur dutilité donnée par un utilisateur .
43Evaluation des systèmes de filtrage dinformation
- TREC4 a fixé trois valeurs pour ces constantes,
correspondants a trois scénarios différents - Un scénario ou on favorise la qualité des
réponses(un poids maximal sur la précision). - Un scénario dit équilibré ou les poids sur les
documents de type A et B sont égaux. - Un scénario ou cest la quantité de réponse qui
est recherchée.
44Evaluation des systèmes de filtrage
dinformation
- Propriétés de cette métrique
- La mesure dutilité nest pas normalisée.
- La comparaison de lefficacité dun même
système sur plusieurs requêtes différentes nest
pas facile, seule la comparaison entre systèmes
pour une même expérience est possible.
45Evaluation des systèmes de filtrage dinformation
- Dautres métriques pour le filtrage
- d information ont vu le jour tel que
- ASPPrécisionRappel.
- Les deux métriques utilité et ASP sont
- utilisées conjointement afin de fournir des
- indicateurs de performance pour chaque
- système.
46Evaluation des systèmes de filtrage dinformation
- Métrique orientée vers la précision
- Ces métriques ont vu le jour au niveau de la 9eme
édition de TREC. - T9PNombre de documents pertinents
sélectionnés/Max(Cible, Nombre de documents
sélectionnes)
47Evaluation des systèmes de filtrage dinformation
- Avec une cible fixe a 50 pour TREC-9
- Le principe de cette mesure repose sur lidée de
cible ou but a atteindre( cest a dire un
effectif de 50)pour chaque système en terme de
nombres de documents pertinents, une pénalité est
attribuée dans les cas ou la cible nest pas
atteinte.
48Concepts Avancés De Filtrage
- La première étape dans la création d'un système
de filtrage est de déterminer et représenter les
intérêts d'un lecteur - demander à l'utilisateur une liste de mots clés
qu'il jugent intéressant. - une pondération pour chaque mots qui détermine le
niveau d 'intérêt associer avec les mots - D'autres méthodes tentent d'observer les
articles qu'un utilisateur décide de lire,
d'analyser leur contenu.
49Concepts Avancés De Filtration
- Toutes ses informations(mots clés et poids.)
seront stockées dans un profile utilisateur. - Des études ont montrées qu'on peut aboutir à de
meilleurs résultats en combinant toute ses
méthodes.
50Quelques systèmes de filtrage
- POESIA est un projet de logiciel de filtrage
libre - Le marché principal de POESIA est composé des
institutions d'enseignement, telles que les
écoles et les bibliothèques. Chaque système
POESIA fonctionne sur un PC Linux séparant le
réseau de l'école de l'Internet mais mettant en
commun les données de filtrage. - PRINCIP est un système multilingue pour détecter
les documents racistes sur Internet.
51Quelques systèmes de filtrage
- SCOFI est un système intelligent
d'authentification par carte à puce - Les cartes à puce contiendront les détails des
élèves et lorsqu'elles seront introduites dans
l'ordinateur, un code PIN sera demandé pour
accéder à certains sites Web, le niveau d'accès
étant spécifique à chaque utilisateur pour
proceder au filtrage adequat. - L'objectif est de produire un environnement sur
Internet pour les enfants entre 8 et 14 ans.
52Conclusion
- Difficile d'obtenir une image claire de la façon
dont l'information que nous obtiendrons des
médias du futur différera de l'information que
nous obtenons des outils actuels. - Noam. Chomsky
- il y a des genres particuliers d'information
que l'on ne pourra jamais trouver.
53Conclusion
- des systèmes plus complexes et plus réalisables
seront développés bientôt. - La question qui se posent combien de personnes
feront confiance aux ordinateurs pour leur dire
ce qu'ils veulent savoir vraiment et est ce que
les systèmes de filtrages du futur vont
satisfaire les besoins des utilisateurs plus que
les systèmes qui existent actuellement ?
54References
- www.slis.ualberta.ca/cais2000/favier.htm
- www.limsi.fr/Individu/gael/ManuscritThese/HTML/nod
e54.html - www.uhb.fr/urfist/filtrfonct.html
- www.unesco.org/webworld/public_domain/tunis97/com_
08/com_08.html - www.inria.fr/valorisation/rencontres/web-semantiqu
e/panorama/filtrage.fr.html - www.ee.umd.edu/medlab/filter/filter.html
- www.ils.unc.edu/losee/minim.html
- www.business.com/directory/internet_and_online/ema
il/anti-spam/filtering/ - is.gseis.ucla.edu/impact/s94/students/paul/paul_fi
nal.html - www.adbs.fr/site/web3/sitespro/lardy/chap5.htm
- antonio.balvet1.free.fr/Manuscrit_V1.0.1-03-01-03.
pdf - www.ida.liu.se/labs/iislab/courses/IRIF/IRIF_intro
duktion.htmlHDR4 solutions.journaldunet.com/00jan
v/000119alaxis.shtml - www.unesco.org/webworld/public_domain/tunis97/com_
08/com_08.html - www.uhb.fr/urfist/filtrfonct.html
55Merci de votre attention !