Organisation des donnes et apprentissage nonsupervis - PowerPoint PPT Presentation

1 / 27
About This Presentation
Title:

Organisation des donnes et apprentissage nonsupervis

Description:

Application au regroupement d'attributs pour la classification de documents (RI) ... Multi-affectations. L'algorithme PoBOC. Les applications. Conclusions et ... – PowerPoint PPT presentation

Number of Views:43
Avg rating:3.0/5.0
Slides: 28
Provided by: Cleu3
Category:

less

Transcript and Presenter's Notes

Title: Organisation des donnes et apprentissage nonsupervis


1
Organisation des données et apprentissage
non-supervisé
  • Guillaume Cleuziou
  • LIFO, Laboratoire dInformatique Fondamentale
    dOrléans

2
Plan de lexposé
  • 1. Introduction et motivations
  • Construction de concepts sémantiques
  • Un compromis le  soft-clustering  ?
  • 2. Lalgorithme de clustering PoBOC
  • La notion de  pôle 
  • Présentation formelle de lalgorithme
  • Présentation des heuristiques
  • Etude de la complexité et discussions
  • 3. Evaluations de lapproche
  • Application à la construction de concepts
    sémantiques
  • Application à la classification à partir règles
    (cadre supervisé)
  • Application au regroupement dattributs pour la
    classification de documents (RI)

3
Construction de concepts sémantiques
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • A lorigine de ce travail la construction de
    concepts sémantiques (à partir dune liste de
    termes),
  • Définir une mesure de similarité  sémantique ,
  • Appliquer un algorithme de clustering
    (k-moyennes, algo. Hiérarchique,...),
  • Applications TAL (détection de thèmes,
    construction dontologies, etc.) et RI (expansion
    de requêtes, indexation, etc.).
  • Problème les données issues des textes sont
    complexes (relations entre les objets difficiles
    à caractériser).
  • Exemples banane, tomate, ..., avocat avocat,
    juge, ..., tribunal
  • apprentissage, classification, Bayes, règle,
    estimation, ...
  • Solution(s) proposer une méthode dorganisation
    (clustering) prenant en compte cet aspect de
    polysémie totale ou partielle.

4
Le clustering Etat de lart
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Distinction / méthode
  • Hiérarchique,
  • Partitionnement,
  • Basée sur les densités,
  • Basée sur un découpage (Grid-based),
  • Basée sur des modèles statistiques (Model-based),
  • Distinction / type de résultat
  • Hard-clustering construction de groupes
    disjoints
  • Fuzzy-clustering chaque objet participe à la
    définition de chaque groupe
  • Soft-clustering (overlapping) chaque objet
    appartient à un ou plusieurs groupes

5
Overlapping Clustering
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • TAL
  • Organisation sémantique de termes (unités
    lexicales)
  • Classification thématique de documents (thèmes
    partagés par plusieurs documents)
  • Segmentation thématique de textes (recouvrements
    entre thèmes)
  • Traitement de limage
  • Segmentation dimages (zones géographiques,
    climatiques, ...)
  • ...
  • Objets quelconques munis dune description
  • Partage de propriétés
  • Recouvrements entre concepts...

6
Overlapping Clustering
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Adaptation dalgorithmes existants
  • Hard (e.g. agrandissement des hypersphères pour
    k-moyennes)
  • Fuzzy (choix dun seuil daffectation des objets
    aux foyers obtenus)
  • Algorithmes dédiés, non-spécifiques
  • Pyramides (Diday, 1984)
  • k-means axiales (Lelu, 1993)
  • ... (?)
  • Algorithmes dédiés, spécifiques
  • UNICON UNsupervised Induction of Concepts,
  • CBC Clustering by Committes (LinPantel, 2001),
  • WBSC Word-Based Soft-Clustering (LinKondadadi,
    2001)

7
Intérêts dune nouvelle approche
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Le cahier des charges
  • Complexité (traitement de grandes bases),
  • Organisation hiérarchique (richesse de
    représentation),
  • Souplesse dorganisation (recouvrements sans
    contraintes),
  • Nature des données dentrée (matrice de
    similarité),
  • Nombre de groupes à constituer,
  • Gestion des outliers,
  • Prise en compte de la densité,
  • ...
  • Présentation de lalgorithme PoBOC (Pole-Based
    Overlapping Clustering)

8
PoBOC présentation générale
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
9
Construction du graphe de similarités
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Soit S la matrice de similarités à valeurs dans
    -11, GS(X,V) est le graphe ayant
  • X pour ensemble de sommets,
  • V pour ensemble darêtes, tel que (xi,xj)?V
    ssi s(xi,xj)gts(xi,X)s(xj,X)
  • Contrainte forte mais non définitive,
  • Traitement des outliers adapté,
  • Prise en compte de la densité locale des objets

Densité élevée ? s(xi,X) élevée ? Voisinage
limité ? Arête favorisée pour un xj  proche 
Densité faible ? s(xi,X) faible ? Voisinage
élargi ? Arête favorisée pour un xj  plus
distant 
10
Construction des pôles
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Soit S la matrice de similarités à valeurs dans
    -11, et GS(X,V) le graphe de similarités
  • Définition Un pôle est un sous-graphe complet
    dans GS(X,V), à partir dun sommet x1
  • Heuristique de choix des sommets x1, x2, ..., xl
  • Heuristique dapproximation du sous-graphe
    complet de taille maximale
  • x1argminX s(xi,X) puis construction du pôle
    P1,
  • x2argminX\P s(xi,P) puis construction du pôle
    P2,
  • ...
  • - condition darrêt argminX\P s(xi,P) gt0
  • Nombre de groupes obtenu automatiquement,
  • Nature et position des pôles,
  • Complexité raisonnable,
  • Pixi et V xj?X (xi,xj)?V
  • PiPi?xk où xkargmaxV s(xj,Pi)
  • et V V \xj (xk ,xj)?V
  • - condition darrêt V Ø

11
Multi-affectations
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Soit S la matrice de similarités à valeurs dans
    -11 et P P1,P2,...,Pl lensemble des pôles
    construits
  • ?xi?X, affecter x au pôle le plus proche, puis
    au suivant,...
  • ordonner les pôles / xi t.q. s(xi,P1(xi))gt
    s(xi,P2(xi))gt...
  • affecter xi à P2(xi) (2ème pôle le plus proche)
    ssi
  • s(xi,P2(xi)) gt ½ s(xi,P1(xi)) s(xi,P3(xi))
  • ...
  • affecter xi à Pk(xi) (kème pôle le plus proche)
    ssi
  • s(xi,Pk(xi)) gt ½ s(xi,Pk-1(xi)) s(xi,Pk1(xi))

12
Bilan de lalgorithme
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Rappel du cahier des charges
  • Organisation hiérarchique (richesse de
    représentation),
  • Souplesse dorganisation (recouvrements sans
    contraintes),
  • Nature des données dentrée (matrice de
    similarité),
  • Nombre de groupes à constituer,
  • Gestion des outliers,
  • Prise en compte de la densité,
  • Complexité (traitement de grandes bases),

Organisation hiérarchique Possibilité
dorganiser hiérarchiquement les groupes
obtenus, - feuilles groupes - nuds
fusion de groupes
  • Analyse de la complexité
  • k-moyennes O(n.k.t)
  • HAC-single O(n.log n)
  • PoBOC O(k.n²)
  • HAC-complete... O(n².log n)

13
Utilisations de PoBOC applications
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Différents domaines dapplication
  • ILP apprentissage disjonctif (construction de
    règles)
  • Cleuziou et al., ILP 2003
  • Apprentissage supervisé apprentissage de règles
    de classification
  • Cleuziou et al., EGC 2004
  • Recherche dInformation réduction de lespace
    de description
  • Cleuziou, CORIA 2004
  • Traitement Automatique du Langage construction
    de concepts sémantiques
  • Cleuziou, EGC 2004

14
Apprentissage Disjonctif (ILP)
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Décomposition dun concept en sous-concepts
    (non-disjoints) évalués par rapport à
  • Lorganisation naturelle du concept exemples
    similaires dans un même sous-concept
  • Simplicité de la décomposition peu de règles et
    simples
  • Performance dans la prédiction de nouveaux
    exemples

15
Apprentissage Disjonctif (ILP) Exemple
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Base de connaissance r(a),r(b),r(f),r(h),s(a),s(
    b),s(g),s(i),t(c),t(d),t(g),t(i),u(c),u(d),u(f),u(
    h),
  • v(b),v(c),v(f),r(e),s(e),t(e),u(e),v(e)
  • Soient p(a),p(b),p(c),p(d) les ex et
    p(f),p(g),p(h),p(i) les ex-.

Algorithme Glouton (FOIL) p(X) ? Choix du
littéral à ajouter r(X),s(X),t(X),u(X)
couvrent 2 ex et 2 ex- v(X) couvre 2 ex et
1 ex- p(X) ? v(X) 3 clauses alors induites
(e.g.) p(X) ? v(X),t(X) (couvre p(c)) p(X) ?
t(X),u(X) (couvre p(d)) p(X) ? r(X),s(X) (couvre
p(a) et p(b))
16
Apprentissage supervisé méthode
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Améliorer les approches gloutonnes de
    construction de règles de classification, par une
    pré-organisation des classes en sous-concepts.
  • Soit Ci la classe définie en extension par
    lensemble dexemples x1,x2,...,xn, et
    Nn1,n2,...,nm lensemble des exemples négatifs
    pour Ci.
  • Apprentissage dun ensemble de règles
  • approche gloutonne choisir le selecteur
    attval qui couvre le plus dex et rejette le
    plus dex-,... (pFOIL)
  • approche par clustering
  • Construire une matrice de similarité sur
    x1,x2,...,xn,
  • Organiser les exemples en sous-concepts
  • Evaluer les groupes par lexistence dUNE règle
    généralisante

17
Apprentissage supervisé méthode
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Approche par clustering
  • Approche gloutonne

Mesure de similarité proposée par MartinMoal,
2001
Classe cible
Classe cible
18
Apprentissage supervisé résultats
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
19
Apprentissage supervisé résultats
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
20
RI et classification de documents
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Classification de documents
  • Chaque document di est vu comme un sac de mots,
  • Le corpus dentraînement conduit à un vocabulaire
    Vw1,...,wn,
  • Chaque mot constitue un descripteur (attribut,
    trait)
  • Apprentissage sur cet espace de description
    (Bayes, SVM, ADD, k-NN,...)
  • Problématique
  • Espace de description trop grand (coûteux en
    temps, mémoire, qualité),
  • Matrice documents? mots très éparse,
  • Réduction de lespace par
  • Sélection des attributs pertinents E. Gaussier
    CORIA 2004
  • Re-paramétrage des attributs (LSI, PLSI)
  • Clustering sur les attributs BakerMcCallum
    SIGIR 1998

21
RI et classification de documents
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Méthodologie
  • Extraire le vocabulaire,
  • Evaluer la similarité entre deux mots (divergence
    de Kullback-Leibler)
  • Regrouper les termes (groupes non-disjoints)
  • Caractériser les nouveaux documents par rapport à
    ce nouvel ensemble de descripteurs
  • Evaluation
  • Corpus Reuters (10 000 documents dentraînement
    et 3 000 documents tests)
  • Environ 20 000 mots extraits (lemmatisation,
    liste de mots vides, ...)
  • Expérimentations par rapport
  • Au nombre de groupes constitués,
  • Aux taux de recouvrements autorisés,

22
RI résultats
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
23
Construction de concepts sémantiques
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Récupération de 38 mots-clés dauteurs issus
    darticles scientifiques
  • Journal of Japanese Society for Artificial
    Intelligence (1997)
  • International World Wide Web Conference (2002)
  • International Conference on Language Resources
    and Evaluation (2000)
  • Mesure de similarité
  • Corr(v(mi),v(mj)) avec mi,klog2
  • Organisation des mots
  • PoBOC
  • Arbre hiérarchique

24
(No Transcript)
25
Conclusions
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Intuitivement lorganisation de données en
    groupes non-disjoints peut améliorer la qualité
    des groupes (représentativité)
  • Proposition de lalgorithme de clustering PoBOC
    (bonnes propriétés)
  • Empiriquement
  • Apprentissage de concepts (PLI) vérifié sur des
    exemples,
  • Apprentissage de règles de classification
    amélioration sensible des approche gloutonnes,
  • Feature Clustering (RI) amélioration de la
    qualité des attributs sous de bonnes conditions,
  • Construction de concepts sémantiques
    observations encourageantes sur un jeu de données
    de petite taille,
  • Importance de la mesure de similarité
    (évaluations en situations comparables)

26
Perspectives
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • Étude fine des différentes étapes de PoBOC
    (heuristiques de choix des sommets, construction
    de cliques, affectations...)
  • Etude de limpact des recouvrements entre groupes
    sur la qualité des règles apprises (applications
    12)
  • Expérimentations sur bases réelles de PLI
    (mutagénèse),
  • Expérimentations sur dautres corpus (RI)
    généralité des critères retenus (Newsgroup),
  • Regroupement sémantique dattributs (couplage des
    applications 34),
  • Comparaisons avec différentes mesures de
    similarité,
  • ...
  • Sélection et proposition de mesures de qualité,
    pour évaluer les méthodes de clustering (qualité,
    nombre, intersections entre clusters...)

27
Coordonnées
Lalgorithme PoBOC
Les applications
Conclusions et perspectives
Introduction et motivations
  • guillaume.cleuziou_at_lifo.univ-orleans.fr
  • http//www.univ-orleans.fr/SCIENCES/LIFO/Members/c
    leuziou
  • Lionel Martin lionel.martin_at_lifo.univ-orleans.
    fr
  • Christel Vrain cv_at_lifo.univ-orleans.fr
Write a Comment
User Comments (0)
About PowerShow.com