Title: Organisation des donnes et apprentissage nonsupervis
1Organisation des données et apprentissage
non-supervisé
- Guillaume Cleuziou
- LIFO, Laboratoire dInformatique Fondamentale
dOrléans
2Plan de lexposé
- 1. Introduction et motivations
- Construction de concepts sémantiques
- Un compromis le soft-clustering ?
- 2. Lalgorithme de clustering PoBOC
- La notion de pôle
- Présentation formelle de lalgorithme
- Présentation des heuristiques
- Etude de la complexité et discussions
- 3. Evaluations de lapproche
- Application à la construction de concepts
sémantiques - Application à la classification à partir règles
(cadre supervisé) - Application au regroupement dattributs pour la
classification de documents (RI)
3Construction de concepts sémantiques
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- A lorigine de ce travail la construction de
concepts sémantiques (à partir dune liste de
termes), - Définir une mesure de similarité sémantique ,
- Appliquer un algorithme de clustering
(k-moyennes, algo. Hiérarchique,...), - Applications TAL (détection de thèmes,
construction dontologies, etc.) et RI (expansion
de requêtes, indexation, etc.). - Problème les données issues des textes sont
complexes (relations entre les objets difficiles
à caractériser). - Exemples banane, tomate, ..., avocat avocat,
juge, ..., tribunal - apprentissage, classification, Bayes, règle,
estimation, ... - Solution(s) proposer une méthode dorganisation
(clustering) prenant en compte cet aspect de
polysémie totale ou partielle.
4Le clustering Etat de lart
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Distinction / méthode
- Hiérarchique,
- Partitionnement,
- Basée sur les densités,
- Basée sur un découpage (Grid-based),
- Basée sur des modèles statistiques (Model-based),
- Distinction / type de résultat
- Hard-clustering construction de groupes
disjoints - Fuzzy-clustering chaque objet participe à la
définition de chaque groupe - Soft-clustering (overlapping) chaque objet
appartient à un ou plusieurs groupes
5Overlapping Clustering
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- TAL
- Organisation sémantique de termes (unités
lexicales) - Classification thématique de documents (thèmes
partagés par plusieurs documents) - Segmentation thématique de textes (recouvrements
entre thèmes) - Traitement de limage
- Segmentation dimages (zones géographiques,
climatiques, ...) - ...
- Objets quelconques munis dune description
- Partage de propriétés
- Recouvrements entre concepts...
6Overlapping Clustering
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Adaptation dalgorithmes existants
- Hard (e.g. agrandissement des hypersphères pour
k-moyennes) - Fuzzy (choix dun seuil daffectation des objets
aux foyers obtenus) - Algorithmes dédiés, non-spécifiques
- Pyramides (Diday, 1984)
- k-means axiales (Lelu, 1993)
- ... (?)
- Algorithmes dédiés, spécifiques
- UNICON UNsupervised Induction of Concepts,
- CBC Clustering by Committes (LinPantel, 2001),
- WBSC Word-Based Soft-Clustering (LinKondadadi,
2001)
7Intérêts dune nouvelle approche
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Le cahier des charges
- Complexité (traitement de grandes bases),
- Organisation hiérarchique (richesse de
représentation), - Souplesse dorganisation (recouvrements sans
contraintes), - Nature des données dentrée (matrice de
similarité), - Nombre de groupes à constituer,
- Gestion des outliers,
- Prise en compte de la densité,
- ...
- Présentation de lalgorithme PoBOC (Pole-Based
Overlapping Clustering)
8PoBOC présentation générale
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
9Construction du graphe de similarités
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Soit S la matrice de similarités à valeurs dans
-11, GS(X,V) est le graphe ayant - X pour ensemble de sommets,
- V pour ensemble darêtes, tel que (xi,xj)?V
ssi s(xi,xj)gts(xi,X)s(xj,X)
- Contrainte forte mais non définitive,
- Traitement des outliers adapté,
- Prise en compte de la densité locale des objets
Densité élevée ? s(xi,X) élevée ? Voisinage
limité ? Arête favorisée pour un xj proche
Densité faible ? s(xi,X) faible ? Voisinage
élargi ? Arête favorisée pour un xj plus
distant
10Construction des pôles
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Soit S la matrice de similarités à valeurs dans
-11, et GS(X,V) le graphe de similarités - Définition Un pôle est un sous-graphe complet
dans GS(X,V), à partir dun sommet x1 - Heuristique de choix des sommets x1, x2, ..., xl
- Heuristique dapproximation du sous-graphe
complet de taille maximale
- x1argminX s(xi,X) puis construction du pôle
P1, - x2argminX\P s(xi,P) puis construction du pôle
P2, - ...
- - condition darrêt argminX\P s(xi,P) gt0
- Nombre de groupes obtenu automatiquement,
- Nature et position des pôles,
- Complexité raisonnable,
- Pixi et V xj?X (xi,xj)?V
- PiPi?xk où xkargmaxV s(xj,Pi)
- et V V \xj (xk ,xj)?V
- - condition darrêt V Ø
11Multi-affectations
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Soit S la matrice de similarités à valeurs dans
-11 et P P1,P2,...,Pl lensemble des pôles
construits - ?xi?X, affecter x au pôle le plus proche, puis
au suivant,...
- ordonner les pôles / xi t.q. s(xi,P1(xi))gt
s(xi,P2(xi))gt...
- affecter xi à P2(xi) (2ème pôle le plus proche)
ssi - s(xi,P2(xi)) gt ½ s(xi,P1(xi)) s(xi,P3(xi))
- ...
- affecter xi à Pk(xi) (kème pôle le plus proche)
ssi - s(xi,Pk(xi)) gt ½ s(xi,Pk-1(xi)) s(xi,Pk1(xi))
12Bilan de lalgorithme
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Rappel du cahier des charges
- Organisation hiérarchique (richesse de
représentation), - Souplesse dorganisation (recouvrements sans
contraintes), - Nature des données dentrée (matrice de
similarité), - Nombre de groupes à constituer,
- Gestion des outliers,
- Prise en compte de la densité,
- Complexité (traitement de grandes bases),
Organisation hiérarchique Possibilité
dorganiser hiérarchiquement les groupes
obtenus, - feuilles groupes - nuds
fusion de groupes
- Analyse de la complexité
- k-moyennes O(n.k.t)
- HAC-single O(n.log n)
- PoBOC O(k.n²)
- HAC-complete... O(n².log n)
13Utilisations de PoBOC applications
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Différents domaines dapplication
- ILP apprentissage disjonctif (construction de
règles) - Cleuziou et al., ILP 2003
- Apprentissage supervisé apprentissage de règles
de classification - Cleuziou et al., EGC 2004
- Recherche dInformation réduction de lespace
de description - Cleuziou, CORIA 2004
- Traitement Automatique du Langage construction
de concepts sémantiques - Cleuziou, EGC 2004
14Apprentissage Disjonctif (ILP)
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Décomposition dun concept en sous-concepts
(non-disjoints) évalués par rapport à - Lorganisation naturelle du concept exemples
similaires dans un même sous-concept - Simplicité de la décomposition peu de règles et
simples - Performance dans la prédiction de nouveaux
exemples
15Apprentissage Disjonctif (ILP) Exemple
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Base de connaissance r(a),r(b),r(f),r(h),s(a),s(
b),s(g),s(i),t(c),t(d),t(g),t(i),u(c),u(d),u(f),u(
h), - v(b),v(c),v(f),r(e),s(e),t(e),u(e),v(e)
- Soient p(a),p(b),p(c),p(d) les ex et
p(f),p(g),p(h),p(i) les ex-.
Algorithme Glouton (FOIL) p(X) ? Choix du
littéral à ajouter r(X),s(X),t(X),u(X)
couvrent 2 ex et 2 ex- v(X) couvre 2 ex et
1 ex- p(X) ? v(X) 3 clauses alors induites
(e.g.) p(X) ? v(X),t(X) (couvre p(c)) p(X) ?
t(X),u(X) (couvre p(d)) p(X) ? r(X),s(X) (couvre
p(a) et p(b))
16Apprentissage supervisé méthode
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Améliorer les approches gloutonnes de
construction de règles de classification, par une
pré-organisation des classes en sous-concepts. - Soit Ci la classe définie en extension par
lensemble dexemples x1,x2,...,xn, et
Nn1,n2,...,nm lensemble des exemples négatifs
pour Ci. - Apprentissage dun ensemble de règles
- approche gloutonne choisir le selecteur
attval qui couvre le plus dex et rejette le
plus dex-,... (pFOIL) - approche par clustering
- Construire une matrice de similarité sur
x1,x2,...,xn, - Organiser les exemples en sous-concepts
- Evaluer les groupes par lexistence dUNE règle
généralisante
17Apprentissage supervisé méthode
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
Mesure de similarité proposée par MartinMoal,
2001
Classe cible
Classe cible
18Apprentissage supervisé résultats
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
19Apprentissage supervisé résultats
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
20RI et classification de documents
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Classification de documents
- Chaque document di est vu comme un sac de mots,
- Le corpus dentraînement conduit à un vocabulaire
Vw1,...,wn, - Chaque mot constitue un descripteur (attribut,
trait) - Apprentissage sur cet espace de description
(Bayes, SVM, ADD, k-NN,...) - Problématique
- Espace de description trop grand (coûteux en
temps, mémoire, qualité), - Matrice documents? mots très éparse,
- Réduction de lespace par
- Sélection des attributs pertinents E. Gaussier
CORIA 2004 - Re-paramétrage des attributs (LSI, PLSI)
- Clustering sur les attributs BakerMcCallum
SIGIR 1998
21RI et classification de documents
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Méthodologie
- Extraire le vocabulaire,
- Evaluer la similarité entre deux mots (divergence
de Kullback-Leibler) - Regrouper les termes (groupes non-disjoints)
- Caractériser les nouveaux documents par rapport à
ce nouvel ensemble de descripteurs - Evaluation
- Corpus Reuters (10 000 documents dentraînement
et 3 000 documents tests) - Environ 20 000 mots extraits (lemmatisation,
liste de mots vides, ...) - Expérimentations par rapport
- Au nombre de groupes constitués,
- Aux taux de recouvrements autorisés,
22RI résultats
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
23Construction de concepts sémantiques
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Récupération de 38 mots-clés dauteurs issus
darticles scientifiques - Journal of Japanese Society for Artificial
Intelligence (1997) - International World Wide Web Conference (2002)
- International Conference on Language Resources
and Evaluation (2000) - Mesure de similarité
- Corr(v(mi),v(mj)) avec mi,klog2
- Organisation des mots
- PoBOC
- Arbre hiérarchique
24(No Transcript)
25Conclusions
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Intuitivement lorganisation de données en
groupes non-disjoints peut améliorer la qualité
des groupes (représentativité) - Proposition de lalgorithme de clustering PoBOC
(bonnes propriétés) - Empiriquement
- Apprentissage de concepts (PLI) vérifié sur des
exemples, - Apprentissage de règles de classification
amélioration sensible des approche gloutonnes, - Feature Clustering (RI) amélioration de la
qualité des attributs sous de bonnes conditions, - Construction de concepts sémantiques
observations encourageantes sur un jeu de données
de petite taille, - Importance de la mesure de similarité
(évaluations en situations comparables)
26Perspectives
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- Étude fine des différentes étapes de PoBOC
(heuristiques de choix des sommets, construction
de cliques, affectations...) - Etude de limpact des recouvrements entre groupes
sur la qualité des règles apprises (applications
12) - Expérimentations sur bases réelles de PLI
(mutagénèse), - Expérimentations sur dautres corpus (RI)
généralité des critères retenus (Newsgroup), - Regroupement sémantique dattributs (couplage des
applications 34), - Comparaisons avec différentes mesures de
similarité, - ...
- Sélection et proposition de mesures de qualité,
pour évaluer les méthodes de clustering (qualité,
nombre, intersections entre clusters...)
27Coordonnées
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
- guillaume.cleuziou_at_lifo.univ-orleans.fr
- http//www.univ-orleans.fr/SCIENCES/LIFO/Members/c
leuziou - Lionel Martin lionel.martin_at_lifo.univ-orleans.
fr - Christel Vrain cv_at_lifo.univ-orleans.fr