Title: Pr
1Introduction aux classes empiétantes
François Brucker
Brest (Breizh)
francois.brucker_at_enst-bretagne.fr
2Définition générale de la classification
Le seul moyen de de faire une méthode instructive
et naturelle, cest de mettre ensemble les choses
qui se ressemblent et de séparer celles qui
diffèrent les unes des autres. Georges Leclerc de
Buffon, naturaliste et écrivain, Histoire
naturelle,1749.
2 grands types de critères
- globaux (au niveau des classes)
- locaux (au niveau des objets)
3Une définition dune classe
Ensemble X dobjets
On associe à R un graphe GR(X,E)
C est une classe de X ? C est une clique
maximale de GR
4Une classification de (X,R)
5Classification particulière
Critère global
Critère local
Partition
Relation déquivalence
- réflexive
- symétrique
- transitive
x R y et y R z ? x R z
A ??B ? A,B,?
6non empiétance ? transitivité
ami
Classe B
Classe A
moi
ami
7On regarde par rapport à 2 éléments
Relation 2-transitive (Jardine et Sibson, 1971)
8Se généralise à 3, 4, ..., n éléments.
z
x
y
Relation n-transitive (Jardine et Sibson, 1971)
9Les classes formées par ces modèles relationnels
10Une définition dune classe
Ensemble X dobjets
d(x,y)d(y,x) d(x,y) ? 0 d(x,x)0
telle que
Propre si d(x,y)0 ? xy
On associe à chaque d(x,y)a un graphe Ga(X,Ea)
C est une classe de X ? C est une clique
maximale dun Ga
11Classification particulière
Ultramétrique U
u(x,y) maxu(x,z),u(z,y)
Arbre hiérarchique
A ??B ? A,B,?
12Le cas des hybrides
13(No Transcript)
14Réticulogramme
15Distance additive darbre
Ce nest pas à proprement parler un système de
classes
16Autre problème où lempiétance est nécessaire
la sériation
Le problème est ici de classer des objets par
ordre chronologique, les objets étant décrit par
une dissimilarité.
Une classification est alors la donnée dun ordre
compatible avec la dissimilarité
17Lien entre sériation et classes
À la différence du modèle arboré, le problème de
sériation est lié à un modèle de classe
particulier les hypergraphes dintervalles
Les classes dune dissimilarité d sont un
hypergraphe dintervalle Si et seulement si il
existe un ordre tel que toute classe de d soit
un intervalle de cet ordre.
18Lien entre dissimilarités et classes
Il existe des bijections entre dissimilarités et
classes
Les modèles de classe associés aux modèles de
distance correspondent à des visions
classificatoires différentes
- ultramétriques Û hiérarchies (Jardine, Jardine
et Sibson, 1967, Johnson, 1967, -
Benzecri, 1973) - dissimilarités fortement de Robinson Û
pseudo-hiérarchies indicées (Durand, 1989) - quasi-ultramétriques Û quasi-hiérarchies
indicées (Diatta et Fichet, 1994)
Dans ce cas, classifier cest
transformer une dissimilarité quelconque en une
dissimilarité dun type particulier.
19Les k-ultramétriques (Jardine et Sibson, 1971)
Définition
d est une dissimilarité k-ultramétrique sur X ssi
Pour tout S Í X, Sk, a,b Î X
d(a,b) maxd(x,y) x Î S È a,b, y Î S
ie. Sur k2 points, les deux plus grandes
dissimilarités sont égales
Intérêt rendre compte des relations de
k-transitivités
20Les pyramides (Diday, 1984 Fichet, 1984)
Définition
d est une dissimilarité fortement de Robinson sur
X ssi
- Il existe un ordre q sur X
- pour tout x q y q z d(x,z) ³ maxd(x,y),d(y,z)
- pour tout x q y q z
- pour tout z q t d(x,z)d(y,z) Þ d(x,t)d(y,t)
- pour tout t q x d(x,z)d(x,y) Þ d(y,t)d(z,t)
Intérêt problèmes de sériation
21Les quasi-ultramétriques (Diatta et Fichet, 1994)
Définition
d est une dissimilarité quasi-ultramétrique ssi
pour tout x,y,z,t Í X max d(x,z), d(z,y)
d(x,y) Þ d(z,t) max d(t,x), d(t,y),
d(x,y)
Intérêt (1/2) lintersection de 3 classes est
toujours lintersection de 2
dentres elles
22Les quasi-ultramétriques Intérêt (2/2)
- Les 2-boules sont exactement les cliques
maximales (calculabilité)
- Lintersection de 2 cliques maximales est une
clique maximale (stabilité)
23Relation entre les différents modèles
pyramides
ultra- métrique
quasi- ultramétrique
3-ultramétrique faible
(etc.)
distance darbre
24Visualisation des classes
Problème visualisation des classes dune
dissimilarité.
1
4
dendrogrammes
2
5
3
6
25Classes sur un chemin
x
y
z
t
26Classes sur un circuit
27Classes sur un arbre
28Visualisation 3D
29Exemple distance de mutation
Nombre de positions dans la protéine cytochrome-c
où deux espèces ont deux acides aminés différents
(Fitch et Margoliash, 1967)
30Ultramétrique sous dominante
31(No Transcript)
32(No Transcript)
33(No Transcript)
34(No Transcript)
35(No Transcript)