Title: Lapprentissage partir de graphes et autres donnes structures
1Lapprentissage à partir de graphes et autres
données structurées
( Classique données ensemblistes données
non structurées )
- frederic.pennerath
- _at_supelec.fr _at_loria.fr
2Plan
- Les données structurées
- Le problème de la fouille de graphes
- Les travaux existants
- Les pattern structures
- Le graph-based data mining. Exemple de gSpan.
- Vers une plateforme dapprentissage de graphes.
3Partie I les données structurées
pour qui les méthodes dapprentissage symbolique
ensembliste ne sappliquent plus
4La fouille de réactions chimiques
- Nombreuses bases de réactions stockées sous forme
développée
- Comment exploiter ces données ?
- Organisation grossière familles de réactions
triées par similarité - Exemple réactions créant un groupe carbonyle
- Organisation fine schémas génériques de
réactions, conditions (T,P, ) - Prédiction dune réaction espace des versions,
fouille de motifs fréquents - Réponse apprentissage, fouille de données, FCA,
- Objets réactions chimiques
- Mais quelle description, quels attributs ?
51ère approche réduction au cas classique
- Thèse de Sandra Berasaluce
- An Experiment on Knowledge Discovery in Chemical
Databases, Berasaluce Laurenço Napoli Niels
2004 - Principe
- Identification de groupes fonctionnels
61ère approche réduction au cas classique
- Décompte des groupes détruits, stables et créés.
- Utilisation de méthodes applicables à des données
non structurées - Exemple règles dassociation
- anhydride hémiacétal alcène ? ester alcène
7Limitation de la 1ère approche
- Problème du choix des groupes
- Groupes trop petits ? projection sur la formule
brute ? tout est stable ? on apprend le
principe de Lavoisier ! - Groupes trop grands ? tout est instable ? on
apprend rien ! - ? Projection à un niveau intermédiaire
connaissance apriori - Perte de linformation topologique
- Lespace de projection est un ensemble de groupes
fonctionnels où tous les éléments permutent - Espace des versions vite contradictoire !
8Autres exemples de données naturellement
structurées
- Graphes
- Toxicité des molécules
- Toxicology analysis by means of JSM-Methods,
Kuznetsov 2001 - Réseaux de relations (sociales, décosystème )
- Représentation des connaissances documents RDF,
- Cartes
- Configuration spatiale
- Image
- Arbres
- Documents semi structurés (balise XML)
- Séquences
- Scénarii journaux dévénements
- Génome
9Conclusion une 2ère approche ?
- Bilan de la 1ère approche non structurée
- Couvre la majorité des cas en pratique
- Passage des attributs multi-valués à des
attributs mono-valués par le truchement de
treillis - Nécessite des connaissances a priori
- Pas de descriptions récursives (arbres de
description) et encore moins cycliques (graphes). - i.e. les individus ne peuvent être décrits en
terme des relations quils ont entre eux. - Espoir dune 2ème approche structurée
exprimant les notions de - Voisinage (topologie discrète)
- Cardinalité (valence)
- Asymétrie (séquences)
- Récursivité (arbres)
- Cyclicité (graphes)
- Qui peut le plus peut le moins
- séquences ? arbres ? cartes ? graphes
- NB rapprochement simpliste - avec les modèles
de représentation des connaissances (logique de
description).
10Partie II le problème de la fouille de graphes
- ou
- une définition et des difficultés
11Une définition du problème
- Modélisation des données
- Graphes étiquetés Gi(V,E,lv,le)
- Treillis des étiquettes (Lv,?v,?v), (Le,?e,?e)
- Objectif isoler le ou les sous-structures
caractéristiques - discriminantes (version space, arbre de
décision,) - ou récurrentes (règles dassociation).
- Relation dordre partielle de subsomption
- Sous structure sous graphe,
- Restrictions éventuelles
- Maximaux, fermés
- Connectés, induits,
- Arbres ordonnés, enracinés
- Opérateur de généralisation (treillis ?)
- Hypothèse sous-jacente de lapprentissage
- Principe de localité les hypothèses sont
décrites par des disjonctions de sous-graphes
étiquetés connectés
121ère difficulté lisomorphisme de graphes
- Difficulté fondamentale
- Isomorphisme permutation des sommets préservant
les étiquettes et le voisinage - Paradoxe
- Linformation contenue par un graphe sexprime à
un isomorphisme près (les atomes dune molécule
ne portent pas de numéros !) - Au niveau des structures de données
informatiques, nécessité dune numérotation
arbitraire des sommets dun graphe (deux graphes
isomorphes sont distincts, informatiquement
parlant) - Notion de graphe canonique
- Définition dun ordre lexicographique (total)
- Sélection du graphe minimum dans une classe
déquivalence ? algorithme simple et efficace
pour le test disomorphisme
132ème difficulté les sous-graphes isomorphes
- Notion centrale de lapprentissage ordre de
subsomption - M1 ? M2 ? g1 ? g2
- Difficulté fondamentale
- Recherche dans un espace détat exponentiel ?
backtracking - Problème NP complet
143ème difficulté les sous-graphes isomorphes
communs maximaux
- Opération de généralisation (version space, FCA,
) - M1 ? M2 ? g1 ? g2 ? Sous graphe isomorphe commun
maximal
- Difficulté ultime
- Pas dunicité du résultat !
- Complexité au moins NP-complet
151ères conclusions analogies avec les attributs
mono-valués
16Partie III les travaux existants
- Les pattern structures
- Le graph-based data-mining
17Une représentation structurée de lapprentissage
symbolique de données non structurées
Supervisés
Non supervisés
Stratégies dextraction de la connaissance
Version space
Arbres de décision
Réseaux bayésiens
Règles dassociation
Représentation des connaissances qualité (taux
de prédiction), concision, robustesse, pouvoir
sémantique
Complexité des algorithmes en temps espace
Axes dévaluation
Treillis de Galois (FCA), inférence logique,
théorie des probabilité et de linformation
Structures de données (trie), théorie des
ensembles, SGBD, théorie des probabilités et de
linformation
Outils théoriques
18Une représentation structurée de lapprentissage
symbolique de données structurées
Supervisés
Non supervisés
Stratégies dextraction de la connaissance
Version space
Arbres de décision
Réseaux bayésiens
Règles dassociation
Représentation des connaissances qualité (taux
de prédiction), concision, robustesse, pouvoir
sémantique
Complexité des algorithmes en temps espace
Axes dévaluation
Pattern structures, inférence logique, théorie
des probabilité et de linformation
Structures de données (arbres dénumérations),
théorie des graphes, CSP, SGB objets et de
graphes, théorie des probabilités et de
linformation
Outils théoriques
19Partie III.A les pattern structures
- ou
- une intégration dans lanalyse de concepts formels
20Les pattern structures et la FCA
- Extension de la FCA aux graphes
- Pattern Structures and Their Projections, Ganter
Kuznetsov, 2001 - Hypotheses and version space, Ganter
Kuznetsov, 2003 - Construction rigoureuse dun treillis de Galois
(?(?, G,I), ?, ?) à partir de graphes étiquetés G
- Objet o ? ?, description ?(o) ? G
- attributs tous les sous-graphes étiquetés de
?(o) - Intensions ? des concepts C idéaux
- g ? ?(C) g ? g ? g ? ?(C)
- Idéal ?(C) ? ensemble de ses graphes maximaux
- Définition de (?, ? ,?)
- ?( C1 ? C2)?(C1)? ?(C2)
- ?( C1 ? C2) (?(C1)? ? (C2)) ? ?(o,?(o)) pour o
? ?(C1)? ? (C2) - Pas de concept top treillis infini
21Les pattern structures un exempleEtape 1
construction du contexte
22Les pattern structures un exemple Etape 2
construction des concepts
23Les pattern structures limitations pratiques
- Pas de calcul direct
- Le graphe dun individu est remplacé par
lensemble de ses sous-graphes - ?(?(o)) ? gi pour gi ? ?(o)
- Les concepts se déduisent de ces ensembles
(idéaux) - ?( C1 ? C2)?(C1) ? ?(C2)
- Les sous graphes maximaux sont extraits.
- ? complexité en temps et espace garantie
exponentielle - ? recours aux projections conformément au
principe de localité - Restriction aux très petits sous-graphes
- ?(?(o)) ? gi pour gi ? ?(o) taille(gi)?
5 - Mais perte importante de linformation
topologique - ? Apport essentiellement théorique
- ? Orientation de la thèse sur le calcul direct et
ses apports
24Les pattern structures exemple de projection
25Partie III.B le graph-based data mining
26La communauté du Graph-based Data Mining (GBDM)
- Adaptation des algorithmes de recherche de motifs
fréquents aux graphes - State of the art of Graph-based Data Mining,
Washio Motoda , 2003 - Principe récurrent
- Arbre dénumération (trie généralisé) de graphes
canoniques - Algorithme en 2 temps alternés
- Génération de graphes candidats selon 3 principes
- ? La relation père fils de larbre dénumération
correspond à lajout dune arête. - ? Larbre ne génère que des graphes canoniques
- ? Chaque graphe canonique est énuméré une et une
seule fois - ? Elagage de larbre grâce à la monotonicité de
la fréquence - Parcours de la base et test g ? ?(tid)
- Différentes stratégies, différents codes
canoniques - Apriori (parcours en largeur)
- AGM, Inokuchi, Washio Motoda, 2000
- FSG, Kuramochi Karypis, 2001
- Parcours en profondeur
- gSpan, Yan Han, 2002
27gSpan code DFS et graphe canonique
- Parcours P en profondeur des sommets selon un
arbre ((1-5) (5-3) (3-6) (6-4) (6-2)) - A chaque nouveau sommet, on ordonne les arêtes
arrière en fonction de lindice de parcours du
sommet darrivée,puis on suit larête avant
suivante du parcours - ((1-5) (5-3) (3-6) (6-4) (4-5) (4-3) (6-2)
(2-1) (2-3)) ? - code DFS(G,P) ((1-2,V,J) (2-3,J,B) (3-4,B,J)
(4-5,J,R) (5-2) (5-3) (4-6,J,J) (6-1) (6-3)) - Ordre lexicographique sur les arêtes (ordre de
larête, ordre sur létiquette) puis sur le code
DFS entier. - Construction du code DFS minimal par
élimination - (1,V),(2,J),(3,B),(4,R),(5,J),(6,J) ? (2-6,J,J),
(5-1,J,V) , (6-2,J,J) - ? ((2-6) (6-3,J,B)), ((6-2) (2-1,J,V))
- ? ((6-2) (2-1) (1-5) (5-3) (3-6) (3-2) (3-4)
(4-6) (4-5)) - Construction du graphe canonique
- Test disomorphisme test dégalité entre
graphes canoniques (O(nm))
28gSpan arbre dénumération
Non fréquent
29Partie IV vers une plateforme dapprentissage à
partir de graphes
30Vers une plateforme adaptée
- Cahier des charges
- Opérations directes et optimisées sur les idéaux
de graphes sans recours aux projections. - Etiquettes dans un treillis.
- Gère de manière transparente les cas des arbres,
séquences et cartes. - Intégration dans le formalisme général de la FCA
et des pattern structures. - Validation application aux bases de réactions
chimiques - Projet similaire
- Generic Pattern Mining via Data Mining Template
Library, Zaki et al 2005
31Choix dimplémentation
- Choix du langage de programmation
- Critères nombreuses indirections mémoire,
ramasse miette efficace, héritage objet, rapidité - Candidats LISP (concision du code (tout est
liste !), ramasse miette, héritage puissant),
Java (ramasse miette, large adoption,
réutilisabilité, GUI), C (rapidité) - Problème du stockage
- Couplage avec une base de données objet ?
- Problème de visualisation et dinteraction avec
lutilisateur
32Conclusion
- Un défi
- Par sa complexité
- au sens propre,
- comme au sens algorithmique ? risque !
- Un point de départ
- Elargir les possibilités de requête/résultat
(transitivité, composition ) ? modularité du
code, langage, logique (ILP),
33Merci