Lapprentissage partir de graphes et autres donnes structures - PowerPoint PPT Presentation

1 / 33
About This Presentation
Title:

Lapprentissage partir de graphes et autres donnes structures

Description:

pour qui les m thodes d'apprentissage symbolique ensembliste ne s'appliquent ... Organisation grossi re : familles de r actions tri es par similarit ... – PowerPoint PPT presentation

Number of Views:121
Avg rating:3.0/5.0
Slides: 34
Provided by: lor62
Category:

less

Transcript and Presenter's Notes

Title: Lapprentissage partir de graphes et autres donnes structures


1
Lapprentissage à partir de graphes et autres
données structurées
( Classique  données ensemblistes données
 non structurées )
  • frederic.pennerath
  • _at_supelec.fr _at_loria.fr

2
Plan
  • Les données structurées
  • Le problème de la fouille de graphes
  • Les travaux existants
  • Les pattern structures
  • Le graph-based data mining. Exemple de gSpan.
  • Vers une plateforme dapprentissage de graphes.

3
Partie I les données structurées
pour qui les méthodes dapprentissage symbolique
ensembliste ne sappliquent plus
4
La fouille de réactions chimiques
  • Nombreuses bases de réactions stockées sous forme
    développée
  • Comment exploiter ces données ?
  • Organisation grossière familles de réactions
    triées par similarité
  • Exemple réactions créant un groupe carbonyle
  • Organisation fine schémas génériques de
    réactions, conditions (T,P, )
  • Prédiction dune réaction espace des versions,
    fouille de motifs fréquents
  • Réponse apprentissage, fouille de données, FCA,
  • Objets réactions chimiques
  • Mais quelle description, quels attributs ?

5
1ère approche réduction au cas classique
  • Thèse de Sandra Berasaluce
  • An Experiment on Knowledge Discovery in Chemical
    Databases, Berasaluce Laurenço Napoli Niels
    2004
  • Principe
  • Identification de groupes fonctionnels

6
1ère approche réduction au cas classique
  • Décompte des groupes détruits, stables et créés.
  • Utilisation de méthodes applicables à des données
    non structurées
  • Exemple règles dassociation
  • anhydride hémiacétal alcène ? ester alcène

7
Limitation de la 1ère approche
  • Problème du choix des groupes
  • Groupes trop petits ? projection sur la formule
    brute ? tout est stable ? on apprend le
    principe de Lavoisier !
  • Groupes trop grands ? tout est instable ? on
    apprend rien !
  • ? Projection à un niveau intermédiaire
    connaissance apriori
  • Perte de linformation topologique
  • Lespace de projection est un ensemble de groupes
    fonctionnels où tous les éléments permutent
  • Espace des versions vite contradictoire !

8
Autres exemples de données naturellement 
structurées
  • Graphes
  • Toxicité des molécules
  • Toxicology analysis by means of JSM-Methods,
    Kuznetsov 2001
  • Réseaux de relations (sociales, décosystème )
  • Représentation des connaissances documents RDF,
  • Cartes
  • Configuration spatiale
  • Image
  • Arbres
  • Documents semi structurés (balise XML)
  • Séquences
  • Scénarii journaux dévénements
  • Génome

9
Conclusion une 2ère approche ?
  • Bilan de la 1ère approche  non structurée 
  • Couvre la majorité des cas en pratique
  • Passage des attributs multi-valués à des
    attributs mono-valués par le truchement de
    treillis
  • Nécessite des connaissances a priori
  • Pas de descriptions récursives (arbres de
    description) et encore moins cycliques (graphes).
  • i.e. les individus ne peuvent être décrits en
    terme des relations quils ont entre eux.
  • Espoir dune 2ème approche  structurée 
    exprimant les notions de
  • Voisinage (topologie discrète)
  • Cardinalité (valence)
  • Asymétrie (séquences)
  • Récursivité (arbres)
  • Cyclicité (graphes)
  • Qui peut le plus peut le moins
  • séquences ? arbres ? cartes ? graphes
  • NB rapprochement simpliste - avec les modèles
    de représentation des connaissances (logique de
    description).

10
Partie II le problème de la fouille de graphes
  • ou
  • une définition et des difficultés

11
Une définition du problème
  • Modélisation des données
  • Graphes étiquetés Gi(V,E,lv,le)
  • Treillis des étiquettes (Lv,?v,?v), (Le,?e,?e)
  • Objectif isoler le ou les sous-structures
    caractéristiques
  • discriminantes (version space, arbre de
    décision,)
  • ou récurrentes (règles dassociation).
  • Relation dordre partielle de subsomption
  • Sous structure sous graphe,
  • Restrictions éventuelles
  • Maximaux, fermés
  • Connectés, induits,
  • Arbres ordonnés, enracinés
  • Opérateur de généralisation (treillis ?)
  • Hypothèse sous-jacente de lapprentissage
  • Principe de localité les hypothèses sont
    décrites par des disjonctions de sous-graphes
    étiquetés connectés

12
1ère difficulté lisomorphisme de graphes
  • Difficulté fondamentale
  • Isomorphisme permutation des sommets préservant
    les étiquettes et le voisinage
  • Paradoxe
  • Linformation contenue par un graphe sexprime à
    un isomorphisme près (les atomes dune molécule
    ne portent pas de numéros !)
  • Au niveau des structures de données
    informatiques, nécessité dune numérotation
    arbitraire des sommets dun graphe (deux graphes
    isomorphes sont distincts, informatiquement
    parlant)
  • Notion de graphe canonique
  • Définition dun ordre lexicographique (total)
  • Sélection du graphe minimum dans une classe
    déquivalence ? algorithme simple et efficace
    pour le test disomorphisme

13
2ème difficulté les sous-graphes isomorphes
  • Notion centrale de lapprentissage ordre de
    subsomption
  • M1 ? M2 ? g1 ? g2
  • Difficulté fondamentale
  • Recherche dans un espace détat exponentiel ?
    backtracking
  • Problème NP complet

14
3ème difficulté les sous-graphes isomorphes
communs maximaux
  • Opération de généralisation (version space, FCA,
    )
  • M1 ? M2 ? g1 ? g2 ? Sous graphe isomorphe commun
    maximal
  • Difficulté ultime
  • Pas dunicité du résultat !
  • Complexité au moins NP-complet

15
1ères conclusions analogies avec les attributs
mono-valués
16
Partie III les travaux existants
  • Les pattern structures
  • Le graph-based data-mining

17
Une représentation structurée de lapprentissage
symbolique de données  non structurées 
Supervisés
Non supervisés
Stratégies dextraction de la connaissance
Version space
Arbres de décision
Réseaux bayésiens
Règles dassociation
Représentation des connaissances qualité (taux
de prédiction), concision, robustesse, pouvoir
sémantique
Complexité des algorithmes en temps espace
Axes dévaluation
Treillis de Galois (FCA), inférence logique,
théorie des probabilité et de linformation
Structures de données (trie), théorie des
ensembles, SGBD, théorie des probabilités et de
linformation
Outils théoriques
18
Une représentation structurée de lapprentissage
symbolique de données  structurées 
Supervisés
Non supervisés
Stratégies dextraction de la connaissance
Version space
Arbres de décision
Réseaux bayésiens
Règles dassociation
Représentation des connaissances qualité (taux
de prédiction), concision, robustesse, pouvoir
sémantique
Complexité des algorithmes en temps espace
Axes dévaluation
Pattern structures, inférence logique, théorie
des probabilité et de linformation
Structures de données (arbres dénumérations),
théorie des graphes, CSP, SGB objets et de
graphes, théorie des probabilités et de
linformation
Outils théoriques
19
Partie III.A les pattern structures
  • ou
  • une intégration dans lanalyse de concepts formels

20
Les pattern structures et la FCA
  • Extension de la FCA aux graphes
  • Pattern Structures and Their Projections, Ganter
    Kuznetsov, 2001
  • Hypotheses and version space, Ganter
    Kuznetsov, 2003
  • Construction rigoureuse dun treillis de Galois
    (?(?, G,I), ?, ?) à partir de graphes étiquetés G
  • Objet o ? ?, description ?(o) ? G
  • attributs tous les sous-graphes étiquetés de
    ?(o)
  • Intensions ? des concepts C idéaux
  • g ? ?(C) g ? g ? g ? ?(C)
  • Idéal ?(C) ? ensemble de ses graphes maximaux
  • Définition de (?, ? ,?)
  • ?( C1 ? C2)?(C1)? ?(C2)
  • ?( C1 ? C2) (?(C1)? ? (C2)) ? ?(o,?(o)) pour o
    ? ?(C1)? ? (C2)
  • Pas de concept top treillis infini

21
Les pattern structures un exempleEtape 1
construction du contexte
22
Les pattern structures un exemple Etape 2
construction des concepts
23
Les pattern structures limitations pratiques
  • Pas de  calcul direct 
  • Le graphe dun individu est remplacé par
    lensemble de ses sous-graphes
  • ?(?(o)) ? gi pour gi ? ?(o)
  • Les concepts se déduisent de ces ensembles
    (idéaux)
  • ?( C1 ? C2)?(C1) ? ?(C2)
  • Les sous graphes maximaux sont extraits.
  • ? complexité en temps et espace garantie
    exponentielle
  • ? recours aux projections conformément au
    principe de localité
  • Restriction aux très petits sous-graphes
  • ?(?(o)) ? gi pour gi ? ?(o) taille(gi)?
    5
  • Mais perte importante de linformation
     topologique 
  • ? Apport essentiellement théorique
  • ? Orientation de la thèse sur le calcul direct et
    ses apports

24
Les pattern structures exemple de projection
25
Partie III.B le graph-based data mining
  • et lalgorithme gSpan

26
La communauté du Graph-based Data Mining (GBDM)
  • Adaptation des algorithmes de recherche de motifs
    fréquents aux graphes
  • State of the art of Graph-based Data Mining,
    Washio Motoda , 2003
  • Principe récurrent
  • Arbre dénumération (trie généralisé) de graphes
    canoniques
  • Algorithme en 2 temps alternés
  • Génération de graphes candidats selon 3 principes
  • ? La relation père fils de larbre dénumération
    correspond à lajout dune arête.
  • ? Larbre ne génère que des graphes canoniques
  • ? Chaque graphe canonique est énuméré une et une
    seule fois
  • ? Elagage de larbre grâce à la monotonicité de
    la fréquence
  • Parcours de la base et test g ? ?(tid)
  • Différentes stratégies, différents codes
    canoniques
  • Apriori (parcours en largeur)
  • AGM, Inokuchi, Washio Motoda, 2000
  • FSG, Kuramochi Karypis, 2001
  • Parcours en profondeur
  • gSpan, Yan Han, 2002

27
gSpan code DFS et graphe canonique
  • Parcours P en profondeur des sommets selon un
    arbre ((1-5) (5-3) (3-6) (6-4) (6-2))
  • A chaque nouveau sommet, on ordonne les arêtes
    arrière en fonction de lindice de parcours du
    sommet darrivée,puis on suit larête avant
    suivante du parcours
  • ((1-5) (5-3) (3-6) (6-4) (4-5) (4-3) (6-2)
    (2-1) (2-3)) ?
  • code DFS(G,P) ((1-2,V,J) (2-3,J,B) (3-4,B,J)
    (4-5,J,R) (5-2) (5-3) (4-6,J,J) (6-1) (6-3))
  • Ordre lexicographique sur les arêtes (ordre de
    larête, ordre sur létiquette) puis sur le code
    DFS entier.
  • Construction du code DFS minimal par
    élimination
  • (1,V),(2,J),(3,B),(4,R),(5,J),(6,J) ? (2-6,J,J),
    (5-1,J,V) , (6-2,J,J)
  • ? ((2-6) (6-3,J,B)), ((6-2) (2-1,J,V))
  • ? ((6-2) (2-1) (1-5) (5-3) (3-6) (3-2) (3-4)
    (4-6) (4-5))
  • Construction du graphe canonique
  • Test disomorphisme test dégalité entre
    graphes canoniques (O(nm))

28
gSpan arbre dénumération
Non fréquent
29
Partie IV vers une plateforme dapprentissage à
partir de graphes
30
Vers une plateforme adaptée
  • Cahier des charges
  • Opérations directes et optimisées sur les idéaux
    de graphes sans recours aux projections.
  • Etiquettes dans un treillis.
  • Gère de manière transparente les cas des arbres,
    séquences et cartes.
  • Intégration dans le formalisme général de la FCA
    et des pattern structures.
  • Validation application aux bases de réactions
    chimiques
  • Projet similaire
  • Generic Pattern Mining via Data Mining Template
    Library, Zaki et al 2005

31
Choix dimplémentation
  • Choix du langage de programmation
  • Critères nombreuses indirections mémoire,
    ramasse miette efficace, héritage objet, rapidité
  • Candidats LISP (concision du code (tout est
    liste !), ramasse miette, héritage puissant),
    Java (ramasse miette, large adoption,
    réutilisabilité, GUI), C (rapidité)
  • Problème du stockage
  • Couplage avec une base de données objet ?
  • Problème de visualisation et dinteraction avec
    lutilisateur

32
Conclusion
  • Un défi
  • Par sa complexité
  • au sens propre,
  • comme au sens algorithmique ? risque !
  • Un point de départ
  • Elargir les possibilités de requête/résultat
    (transitivité, composition ) ? modularité du
    code, langage, logique (ILP),

33
Merci
Write a Comment
User Comments (0)
About PowerShow.com