Title: L
1LAnalyse des Concepts Formels appliquée à la
Recherche dInformation
Université de Montréal Département diformatique
et de Recherche opérationnelle
Kamal NEHME Fouad DOUZIDIA
2Plan
- Introduction
- Formal concept analysis (FCA)
- Contexte formel
- Concept formel
- Treillis de concept
- Règles dassociation
- FCA RI
- Interrogation et Navigation
- Expansion de requête
- Formulation de requête sur le web
- Recherche suivant les profils des utilisateurs
- Conclusion
3FCA
- Objectif
- identifier des groupements dobjets ayant des
attributs en commun. - Application
- Analyse des données.
- Génie logiciel.
- Apprentissage automatique.
- Récemment, la Recherche dinformation.
- Sujet de la présentation
- Avantages et problèmes pour la RI
4Contexte Formel
Contexte Formel (O, A, R)
Mots Clés Mots Clés Mots Clés Mots Clés Mots Clés Mots Clés Mots Clés Mots Clés
a b c d e f g h
D O C U M E N T S 1 X X X X X
D O C U M E N T S 2 X X
D O C U M E N T S 3 X X X X X
D O C U M E N T S 4 X
D O C U M E N T S 5 X X X
D O C U M E N T S 6 X X X X
D O C U M E N T S 7 X X X
D O C U M E N T S 8 X
1,3 d,g,h d,g,h 1,3 1,3
1,3 b,d 1,6,7 b,c,d a,c
2,6 a,c 7,8 d1,3,6,7,8
Connection de Galois Y?f(X) iff Y ? g(X)
Opérateurs de fermeture Xgof(X), Yfog(Y)
Ensemble fermé XX, YY
5Concept Formel
- Concept formel C(X,Y)
- X?O, Y?A et XX, YY
- XY, YX
- X extent, Y intent
- Ordre Partiel
- (X1,Y1) (X2,Y2) iff X1?X2 (?Y2 ?Y1)
- (X1,Y1) subconcept de (X2,Y2)
- (X2,Y2) superconcept de (X1,Y1)
- Join et Meet (opérations sur les concepts)
- (X1,Y1) et (X2,Y2) 2 concepts alors (X1,Y1) ˆ
(X2,Y2) (X1 n X2 , (Y1 U Y2)"). -
(X1,Y1) ? (X2,Y2) ((X1 U X2)" , Y1 n Y2).
Exemples (67,bcd) nest pas un concept (26,ac)
est un concept
6Treillis de Galois
- Treillis complet (E, ) ensemble ordonné est un
treillis si - ? x,y ? E ? Join(x,y) et Meet(x,y) ?.
- (E, ) treillis complet si ? S ? E ? Join(S) et
Meet(S) ?. - Treillis de Galois La famille de tous les
concepts formels ordonnée par la relation est
appelé treillis de Galois. - Diagramme de Hasse
- représentation du treillis
7Règles dassociation (1)
- motifs de la forme antécédent ? conséquence
- Exemple achète(x, fromage) ? achète(x, pain)
- X ? Y
- Support s probabilité quune transaction
contienne X, Y - Confiance c probabilité conditionnelle quune
transaction qui contient X contienne aussi Y - Confiancesupport(X,Y)/support(X)
8Règles dassociation (2)
- Seuils minimaux de support et confiance donnés
par lutilisateur - MinSup
- MinConf
- Objectif trouver toutes les règles respectant
MinSup et MinConf. - Des règles triviales ou inutiles.
- Extraction des règles non redondantes minimales
(les plus utiles et les plus pertinentes).
9Algorithmes
- Trois représentations différentes des mêmes
informations. - Le contexte
- le treillis des concepts
- la base des règles dassociation.
- Il est possible de transformer lune en lautre
de façon automatique. - On distingue les algorithmes incrémentaux qui
construisent le treillis par ajouts successifs
dobjets des algorithmes bash. - Lextraction des règles peut se faire à partir
des treillis.
10(FCA RI) Introduction
- Lapplication des treillis dans la recherche
dinformations date des années 1960. - Un modèle à base de treillis (Lattice-based
model) a été suggéré mais il était pratiquement
inappliquable dans le temps. - Les treillis ont été utilisés par plusieurs
chercheurs pour dériver une formalisation
mathématique pour les requêtes. - Fairthorne (1956)
- Mooers (1958)
- Soergel (1967)
- Salton (1968)
11Navigation
- La hiérarchie (larbre) est la structure de
navigation la plus commune en informatique. - Les structures de navigation ont lavantage
dêtre simple à concevoir et à comprendre. - Leur problème est quelles sont figées dès la
conception et quil est très difficile de les
faire évoluer. - Une solution les outils de recherche. Ces outils
intègrent des mécanismes dinterrogation, mais
ils offrent souvent un language de requête peu
expressif et donnent des réponses non structurées
et pas toutes pertinentes.
12Interrogation
- Linterrogation consiste à formuler une requête
qui sélectionne un certain nbre dobjets reconnus
comme une réponse. - Elle est formée dune indexation des objets et
dune fonction de comparaison entre les index et
la requête. - Un problème de linterrogation est la formulation
de la requête qui nest pas toujours facile. - Un autre problème de linterrogation est le
volume des réponses. Il peut être considérable et
parfois il est vide.
13Treillis de Galois Interrogation
Navigation (1)
- Quel modèle de recherche faut il priviligier. La
navigation ou linterrogation ? - Le treillis de Galois généré à partir dune
relation dindexation combine les deux modes
navigation et interrogation dans un système. - un concept peut être vu comme un endroit par son
extension et comme une requête par son intension. - Les liens de navigation sont les arcs du
diagramme de Hasse.
14Treillis de Galois Interrogation
Navigation (2)
- Le principe est de partir dune requête vide
quon raffine par ajouts successifs dattributs. - A chaque étape, sil reste un seul objet instance
de la requête, il sera rendu comme résultat de la
recherche. - sinon, tous les attributs non déja donnés sont
proposés pour létape suivante. - Cette méthode de recherche a été appliquée dans
plusieurs approches. - Godin
- Lindig
- Priss
15Approche de Godin (1)
- Les expériences menées mettent en évidence le
potentiel de cette méthode par rapport à la
recherche booléenne et la navigation dans une
classification hiérarchique. - Elle porte sur un ensemble de 113 résumés tirés
du répertoire des films et vidéos de lOffice
National du Film du Canada. - Le nombre moyen de termes dindex par document
est de 6.5 - le treillis résultant contient 325 éléments, 784
arcs et une moyenne de 2.41 parents (enfants) par
élément. - Les tests sur 30 requêtes. Chaque requête est de
trouver les documents reliés à un sujet spécific
16Treillis de Galois - Approche de Godin (2)
17Résultats - Approche de Godin (3)
Méthode Temps Recherche Précision Rappel
Hiérarchique 3.9 83.4 70.5
Booleen 3.55 83.5 80.9
Treillis 3.95 80.5 79.5
18Bilan
- La recherche dinformation avec les treillis des
concepts est aussi facile que dans les systèmes
de navigation. - Lorganisation des données est aussi simple que
les systèmes à interrogation. (associer aux
nouveaux objets des attributs,ajouter et
retrancher des objets) - la complexité de la structure et des algorithmes
de construction du treillis? - la taille du treillis peut croître très vite avec
le nombre dobjets et dattributs. Dans le pire
cas, cette croissance est exponentielle, mais
pratiquement beaucoup moindre (linéaire)
19Expansion des requêtes (1)
- Lexpansion des requêtes consiste à ajouter des
termes reliés à ceux de la requête à partir dun
thesaurus (ou un dictionnaire) afin de la
raffiner pour sortir des résultats pertinents à
lusager (utilisateur). - trouver les relations entre les termes à partir
des règles dassociation sans la présence dun
thesaurus préétabli. - Soient O d1,d2,....dm lensemble des
documents et A t1,t2,....tn lensemble des
termes (attributs). - La règle dassociation (X ? Y) signifie que les
documents de la collection qui contiennent X ont
tendance à contenir Y (X ti et Y tj )
20Expansion des requêtes (2)
- les termes utilisés sont des noms.(les noms
reflètent le mieux la sémentique dun document) - Soit S lensemble de tous les noms utilisés dans
les règles dassociation, alors Env (X)
environnement (X) Y ? S / X? Y) . - Les relations sont basées sur la distribution des
termes dans le corpus . - Les seuils définis ,par lutilisateur, minSupport
et minConfiance permettent lextraction des
règles significatives.
21Expansion des requêtes (3)
- Expansion interactive lutilisateur choisit les
termes ? Env( ) pour les ajouter à la requête. - Expansion automatique tous les termes de
lensemble Env( ) sont ajoutés à la requête. - Les relations entre les termes formées à partir
des AR améliorent la performance de la recherche
dans un IRS (expériences). - Dautres expériences ont été réalisées sur le
web. Les résultats ont été satisfaisants par
rapport à des moteurs de recherhe bien connus et
surtout dans le cas ou les requêtes sont
imprécises. - Relations between terms discovered by AR
22Bruza - Formulation des requêtes (1)
- Souvent les requêtes sur le Web sont formées dun
ou de deux mots ce qui rend la recherche
inefficace. - Formuler les requêtes en utilisant un mécanisme
de navigation (Query By Navigation) sur un espace
de recherche appelé Hyperindex en se basant sur
des treillis. - Le but est de diminuer les informations
surchargées lors de laffichage des résultats de
la recherche. - les index sont des expressions formées par les
titres des pages Web. Ils ont la structure
darbre.
23Bruza - Formulation des requêtes (2)
- Règles pour générer une expression régulière
- Sil y a plusieurs opérateurs entre deux mots
successifs, seul le premier sera gardé. - Sil ny a pas dopérateurs entre deux mots
successifs, lopérateur nul o est inséré. - Les opérateurs au début dune expression sont
supprimés. - Deux niveaus de priorité des opérateurs 0 et 1.
- 0 est plus prioritaire que 1.
- Lheuristique utilisée consiste à approfondir
larbre lorsquun opérateur de niveau plus haut
est détecté, à élargir larbre dans lautre cas.
24Bruza - Formulation des requêtes (3)
- Exemple internet security of networks in
government.
- Construction du treillis.
- Hyperindex est lunion de ces treillis
25Bruza - Formulation des requêtes (4)
- Lutilisateur navigue à travers lhyperindex tout
en essayant de trouver une description adéquate à
ses besoins. Cette dernière sera traitée comme
une requête classique. - Ce modèle a été appliqué avec succès sur des
collections y compris des documents du Web.
26Amélioration de la recherche sur le web (1)
Etape 2
Etape 1
Requête de lutilisateur
Transformer
concept lattice
27Amélioration de la recherche sur le web (2)
- Etape 1 transformer la requête en un treillis de
concept. - Etape 2 a Comparer le treillis avec tous ceux du
website 1 en applicant un calcul de similarité. - Etape 2 b Comparer le treillis avec tous ceux du
website 2 en applicant un calcul de similarité. - Etape 3 Retourner le résultat en comparant les
similarités des websites.
28Recherche suivant les profils des usagers (1)
- Le plus souvent les systèmes de recherche
dinformation actuels se base sur un modèle où
une même requête fournit tjs le même résultat. - Lajout dun contexte dinformation aux modèles
de mot-clés peut améliorer dune manière
significative la recherche. - Quelle type de contexte et comment le de definir?
29Recherche suivant les profils des usagers (2)
- Typiquement chaque document cible quelque secteur
d'intérêt et ainsi une communauté centrée sur ce
secteur. - L'identification de Contexte est basée sur les
observations du comportement de recherche de
larges groupes d'utilisateurs. - Lhypothèse est qu'un Thème d'intérêt peut être
déterminé en identifiant une collection des
documents qui ont un intérêt en commun à un
groupe d'utilisateurs suffisamment grand.
30Recherche suivant les profils des usagers (3)
- u1, u2, , um recherchent indépendamment une
collection de documents a1, a2, , am. - on peut dire qu'il y a un contexte d'intérêt
partagé par u1, u2, , um. - La collection de documents a1, a2, ,am
caractérise le contexte associé à ce groupe. - Objets lensemble des documents A exprimant un
intérêt à ce groupe dutilisateurs.
31Avantages
- Descripteurs dynamiques alors quils sont
statiques dans les approches classiques
(clustering). - Localisation de la recherche.
- Optimisation de la stratégie de recherche.
- Peut couvrir des objets qui ne respectent pas les
formes de recherche conventionnelle (pdf,
images,vidéo,)
32Conclusion
- Un point fort de lanalyse formelle des concepts
est de permettre la construction automatique des
concepts et des liens de navigation entre
concepts. - Lavantage du FCA pour lorganisation et la
recherche dinformation semble clair dun point
de vue fonctionnel . - il reste des questions concernant dune part la
réalisation et dune autre part la création des
interfaces. -
- Les applications sont récentes, la plupart des
systèmes utilisés sont des prototypes, les tests
sont faits sur des collections de petites
tailles.
33Merci