L - PowerPoint PPT Presentation

About This Presentation
Title:

L

Description:

Formulation de requ te sur le web. Recherche suivant les profils des utilisateurs ... les syst mes de recherche d'information actuels se base sur un mod le ... – PowerPoint PPT presentation

Number of Views:54
Avg rating:3.0/5.0
Slides: 34
Provided by: nehm
Category:
Tags: actuels

less

Transcript and Presenter's Notes

Title: L


1
LAnalyse des Concepts Formels appliquée à la
Recherche dInformation
  • IFT 6255 Avril 2003


Université de Montréal Département diformatique
et de Recherche opérationnelle
Kamal NEHME Fouad DOUZIDIA
2
Plan
  • Introduction
  • Formal concept analysis (FCA)
  • Contexte formel
  • Concept formel
  • Treillis de concept
  • Règles dassociation
  • FCA RI
  • Interrogation et Navigation
  • Expansion de requête
  • Formulation de requête sur le web
  • Recherche suivant les profils des utilisateurs
  • Conclusion

3
FCA
  • Objectif
  • identifier des groupements dobjets ayant des
    attributs en commun.
  • Application
  • Analyse des données.
  • Génie logiciel.
  • Apprentissage automatique.
  • Récemment, la Recherche dinformation.
  • Sujet de la présentation
  • Avantages et problèmes pour la RI

4
Contexte Formel
Contexte Formel (O, A, R)
Mots Clés Mots Clés Mots Clés Mots Clés Mots Clés Mots Clés Mots Clés Mots Clés
a b c d e f g h
D O C U M E N T S 1 X X X X X
D O C U M E N T S 2 X X
D O C U M E N T S 3 X X X X X
D O C U M E N T S 4 X
D O C U M E N T S 5 X X X
D O C U M E N T S 6 X X X X
D O C U M E N T S 7 X X X
D O C U M E N T S 8 X
1,3 d,g,h d,g,h 1,3 1,3
1,3 b,d 1,6,7 b,c,d a,c
2,6 a,c 7,8 d1,3,6,7,8
Connection de Galois Y?f(X) iff Y ? g(X)
Opérateurs de fermeture Xgof(X), Yfog(Y)
Ensemble fermé XX, YY
5
Concept Formel
  • Concept formel C(X,Y)
  • X?O, Y?A et XX, YY
  • XY, YX
  • X extent, Y intent
  • Ordre Partiel
  • (X1,Y1) (X2,Y2) iff X1?X2 (?Y2 ?Y1)
  • (X1,Y1) subconcept de (X2,Y2)
  • (X2,Y2) superconcept de (X1,Y1)
  • Join et Meet (opérations sur les concepts)
  • (X1,Y1) et (X2,Y2) 2 concepts alors (X1,Y1) ˆ
    (X2,Y2) (X1 n X2 , (Y1 U Y2)").

  • (X1,Y1) ? (X2,Y2) ((X1 U X2)" , Y1 n Y2).

Exemples (67,bcd) nest pas un concept (26,ac)
est un concept
6
Treillis de Galois
  • Treillis complet (E, ) ensemble ordonné est un
    treillis si
  • ? x,y ? E ? Join(x,y) et Meet(x,y) ?.
  • (E, ) treillis complet si ? S ? E ? Join(S) et
    Meet(S) ?.
  • Treillis de Galois  La famille de tous les
    concepts formels ordonnée par la relation  est
    appelé treillis de Galois.
  • Diagramme de Hasse
  • représentation du treillis

7
Règles dassociation (1)
  • motifs de la forme antécédent ? conséquence
  • Exemple achète(x, fromage) ? achète(x, pain)
  • X ? Y
  • Support s probabilité quune transaction
    contienne X, Y
  • Confiance c probabilité conditionnelle quune
    transaction qui contient X contienne aussi Y
  • Confiancesupport(X,Y)/support(X)

8
Règles dassociation (2)
  • Seuils minimaux de support et confiance donnés
    par lutilisateur
  • MinSup
  • MinConf
  • Objectif trouver toutes les règles respectant
    MinSup et MinConf.
  • Des règles triviales ou inutiles.
  • Extraction des règles non redondantes minimales
    (les plus utiles et les plus pertinentes).

9
Algorithmes
  • Trois représentations différentes des mêmes
    informations.
  • Le contexte
  • le treillis des concepts
  • la base des règles dassociation.
  • Il est possible de transformer lune en lautre
    de façon automatique.
  • On distingue les algorithmes incrémentaux qui
    construisent le treillis par ajouts successifs
    dobjets des algorithmes bash.
  • Lextraction des règles peut se faire à partir
    des treillis.

10
(FCA RI) Introduction
  • Lapplication des treillis dans la recherche
    dinformations date des années 1960.
  • Un modèle à base de treillis (Lattice-based
    model) a été suggéré mais il était pratiquement
    inappliquable dans le temps.
  • Les treillis ont été utilisés par plusieurs
    chercheurs pour dériver une formalisation
    mathématique pour les requêtes.
  • Fairthorne (1956)
  • Mooers (1958)
  • Soergel (1967)
  • Salton (1968)

11
Navigation
  • La hiérarchie (larbre) est la structure de
    navigation la plus commune en informatique.
  • Les structures de navigation ont lavantage
    dêtre simple à concevoir et à comprendre.
  • Leur problème est quelles sont figées dès la
    conception et quil est très difficile de les
    faire évoluer.
  • Une solution les outils de recherche. Ces outils
    intègrent des mécanismes dinterrogation, mais
    ils offrent souvent un language de requête peu
    expressif et donnent des réponses non structurées
    et pas toutes pertinentes.

12
Interrogation
  • Linterrogation consiste à formuler une requête
    qui sélectionne un certain nbre dobjets reconnus
    comme une réponse.
  • Elle est formée dune indexation des objets et
    dune fonction de comparaison entre les index et
    la requête.
  • Un problème de linterrogation est la formulation
    de la requête qui nest pas toujours facile.
  • Un autre problème de linterrogation est le
    volume des réponses. Il peut être considérable et
    parfois il est vide.

13
Treillis de Galois Interrogation
Navigation (1)
  • Quel modèle de recherche faut il priviligier. La
    navigation ou linterrogation ?
  • Le treillis de Galois généré à partir dune
    relation dindexation combine les deux modes
    navigation et interrogation dans un système.
  • un concept peut être vu comme un endroit par son
    extension et comme une requête par son intension.
  • Les liens de navigation sont les arcs du
    diagramme de Hasse.

14
Treillis de Galois Interrogation
Navigation (2)
  • Le principe est de partir dune requête vide
    quon raffine par ajouts successifs dattributs.
  • A chaque étape, sil reste un seul objet instance
    de la requête, il sera rendu comme résultat de la
    recherche. 
  • sinon, tous les attributs non déja donnés sont
    proposés pour létape suivante.
  • Cette méthode de recherche a été appliquée dans
    plusieurs approches.
  • Godin
  • Lindig
  • Priss

15
Approche de Godin (1)
  • Les expériences menées mettent en évidence le
    potentiel de cette méthode par rapport à la
    recherche booléenne et la navigation dans une
    classification hiérarchique.
  • Elle porte sur un ensemble de 113 résumés tirés
    du répertoire des films et vidéos de lOffice
    National du Film du Canada.
  • Le nombre moyen de termes dindex par document
    est de 6.5
  • le treillis résultant contient 325 éléments, 784
    arcs et une moyenne de 2.41 parents (enfants) par
    élément.
  • Les tests sur 30 requêtes. Chaque requête est de
    trouver les documents reliés à un sujet spécific

16
Treillis de Galois - Approche de Godin (2)
17
Résultats - Approche de Godin (3)
Méthode Temps Recherche Précision Rappel
Hiérarchique 3.9 83.4 70.5
Booleen 3.55 83.5 80.9
Treillis 3.95 80.5 79.5
18
Bilan
  • La recherche dinformation avec les treillis des
    concepts est aussi facile que dans les systèmes
    de navigation.
  • Lorganisation des données est aussi simple que
    les systèmes à interrogation. (associer aux
    nouveaux objets des attributs,ajouter et
    retrancher des objets)
  • la complexité de la structure et des algorithmes
    de construction du treillis?
  • la taille du treillis peut croître très vite avec
    le nombre dobjets et dattributs. Dans le pire
    cas, cette croissance est exponentielle, mais
    pratiquement beaucoup moindre (linéaire)

19
Expansion des requêtes (1)
  • Lexpansion des requêtes consiste à ajouter des
    termes reliés à ceux de la requête à partir dun
    thesaurus (ou un dictionnaire) afin de la
    raffiner pour sortir des résultats pertinents à
    lusager (utilisateur).
  • trouver les relations entre les termes à partir
    des règles dassociation sans la présence dun
    thesaurus préétabli.
  • Soient O d1,d2,....dm lensemble des
    documents et A t1,t2,....tn lensemble des
    termes (attributs).
  • La règle dassociation (X ? Y) signifie que les
    documents de la collection qui contiennent X ont
    tendance à contenir Y (X ti et Y tj )

20
Expansion des requêtes (2)
  • les termes utilisés sont des noms.(les noms
    reflètent le mieux la sémentique dun document)
  • Soit S lensemble de tous les noms utilisés dans
    les règles dassociation, alors Env (X)
    environnement (X) Y ? S / X? Y) .
  • Les relations sont basées sur la distribution des
    termes dans le corpus .
  • Les seuils définis ,par lutilisateur, minSupport
    et minConfiance permettent lextraction des
    règles significatives.

21
Expansion des requêtes (3)
  • Expansion interactive  lutilisateur choisit les
    termes ? Env( ) pour les ajouter à la requête.
  • Expansion automatique  tous les termes de
    lensemble Env( ) sont ajoutés à la requête.
  • Les relations entre les termes formées à partir
    des AR améliorent la performance de la recherche
    dans un IRS (expériences).
  • Dautres expériences ont été réalisées sur le
    web. Les résultats ont été satisfaisants par
    rapport à des moteurs de recherhe bien connus et
    surtout dans le cas ou les requêtes sont
    imprécises.
  • Relations between terms discovered by AR

22
Bruza - Formulation des requêtes (1)
  • Souvent les requêtes sur le Web sont formées dun
    ou de deux mots ce qui rend la recherche
    inefficace.
  • Formuler les requêtes en utilisant un mécanisme
    de navigation (Query By Navigation) sur un espace
    de recherche appelé Hyperindex en se basant sur
    des treillis.
  • Le but est de diminuer les informations
    surchargées lors de laffichage des résultats de
    la recherche.
  • les index sont des expressions formées par les
    titres des pages Web. Ils ont la structure
    darbre.

23
Bruza - Formulation des requêtes (2)
  • Règles pour générer une expression régulière
  • Sil y a plusieurs opérateurs entre deux mots
    successifs, seul le premier sera gardé.
  • Sil ny a pas dopérateurs entre deux mots
    successifs, lopérateur nul o est inséré.
  • Les opérateurs au début dune expression sont
    supprimés.
  • Deux niveaus de priorité des opérateurs 0 et 1.
  • 0 est plus prioritaire que 1.
  • Lheuristique utilisée consiste à approfondir
    larbre lorsquun opérateur de niveau plus haut
    est détecté, à élargir larbre dans lautre cas.

24
Bruza - Formulation des requêtes (3)
  • Exemple internet security of networks in
    government.
  • Construction du treillis.
  • Hyperindex est lunion de ces treillis

25
Bruza - Formulation des requêtes (4)
  • Lutilisateur navigue à travers lhyperindex tout
    en essayant de trouver une description adéquate à
    ses besoins. Cette dernière sera traitée comme
    une requête classique.
  • Ce modèle a été appliqué avec succès sur des
    collections y compris des documents du Web.

26
Amélioration de la recherche sur le web (1)
Etape 2
Etape 1
Requête de lutilisateur
Transformer
concept lattice
27
Amélioration de la recherche sur le web (2)
  • Etape 1 transformer la requête en un treillis de
    concept.
  • Etape 2 a Comparer le treillis avec tous ceux du
    website 1 en applicant un calcul de similarité.
  • Etape 2 b Comparer le treillis avec tous ceux du
    website 2 en applicant un calcul de similarité.
  • Etape 3 Retourner le résultat en comparant les
    similarités des websites.

28
Recherche suivant les profils des usagers (1)
  • Le plus souvent les systèmes de recherche
    dinformation actuels se base sur un modèle où
    une même requête fournit tjs le même résultat.
  • Lajout dun contexte dinformation aux modèles
    de mot-clés peut améliorer dune manière
    significative la recherche.
  • Quelle type de contexte et comment le de definir?

29
Recherche suivant les profils des usagers (2)
  • Typiquement chaque document cible quelque secteur
    d'intérêt et ainsi une communauté centrée sur ce
    secteur.
  • L'identification de Contexte est basée sur les
    observations du comportement de recherche de
    larges groupes d'utilisateurs.
  • Lhypothèse est qu'un Thème d'intérêt peut être
    déterminé en identifiant une collection des
    documents qui ont un intérêt en commun à un
    groupe d'utilisateurs suffisamment grand.

30
Recherche suivant les profils des usagers (3)
  • u1, u2, , um recherchent indépendamment une
    collection de documents a1, a2, , am.
  • on peut dire qu'il y a un contexte d'intérêt
    partagé par u1, u2, , um.
  • La collection de documents a1, a2, ,am
    caractérise le contexte associé à ce groupe.
  • Objets lensemble des documents A exprimant un
    intérêt à ce groupe dutilisateurs.

31
Avantages
  • Descripteurs dynamiques alors quils sont
    statiques dans les approches classiques
    (clustering).
  • Localisation de la recherche.
  • Optimisation de la stratégie de recherche.
  • Peut couvrir des objets qui ne respectent pas les
    formes de recherche conventionnelle (pdf,
    images,vidéo,)

32
Conclusion
  • Un point fort de lanalyse formelle des concepts
    est de permettre la construction automatique des
    concepts et des liens de navigation entre
    concepts.
  • Lavantage du FCA pour lorganisation et la
    recherche dinformation semble clair dun point
    de vue fonctionnel .
  • il reste des questions concernant dune part la
    réalisation et dune autre part la création des
    interfaces.
  • Les applications sont récentes, la plupart des
    systèmes utilisés sont des prototypes, les tests
    sont faits sur des collections de petites
    tailles.

33
Merci
Write a Comment
User Comments (0)
About PowerShow.com