Une nouvelle mesure de qualit - PowerPoint PPT Presentation

1 / 30
About This Presentation
Title:

Une nouvelle mesure de qualit

Description:

Une nouvelle mesure de qualit pour l'extraction de p pites de connaissances ... Consid rons les r gles concluant sur F (voir treillis des pr misses) ... – PowerPoint PPT presentation

Number of Views:26
Avg rating:3.0/5.0
Slides: 31
Provided by: dsa65
Category:

less

Transcript and Presenter's Notes

Title: Une nouvelle mesure de qualit


1
Une nouvelle mesure de qualité pour lextraction
de pépites de connaissances
  • Jérôme Azé
  • LRI, équipe Inférence et Apprentissage

2
Plan
  • Motivations
  • Mesures de qualité
  • Algorithme
  • Résultats
  • Conclusions et perspectives

3
Pépites de connaissance
  • Règles dassociation A?B
  • Potentiellement faible support (P(A,B) faible)
  • Confiance élevée (P(BA) élevé)
  • Représente une connaissance nouvelle pour
    lexpert

4
Motivations
  • Expert peut difficilement définir un seuil tel
    quaucune connaissance nouvelle ne possède un
    support inférieur à ce seuil
  • seuil trop petit ? bruit potentiel
  • seuil trop grand ? perte de règles intéressantes
  • Lexpert est intéressé par des règles qui ne sont
    pas trop contredites par les données

5
Actuellement
  • Extraction des règles dassociation en deux
    étapes
  • Extraction des Frequent Item Sets (FIS)
  • Contrainte sur le support des FIS (à la
    Apriori)
  • Extraction des règles à partir des FIS à laide
    dune mesure de qualité
  • Choisir une mesure de qualité et fixer un seuil

6
Quelques mesures de qualitéLallich-2002
  • Transformations affines de la confiance P(BA)
  • Dépendance P(BA) - P(B)
  • Lift P(A,B) / P(A)P(B)
  • Loevinger ( P(B/A)-P(B) ) / P(?B)
  • ...
  • Autres
  • Intensité dimplication
  • J-mesure
  • .

7
Difficultés pour lexpert
  • Comprendre les mesures de qualité
  • Choisir une mesure ou plusieurs mesures
  • Fixer les seuils délagage associés aux mesures
    retenues

8
Dépendance étude de casdépendance(A?B)
P(BA) P(B)
  • P(BiAj) 1 avec i1,2 et j1,2

9
Cas 1
  • P(B1)  faible 
  • Support (A1?B1) faible
  • Dépendance élevée
  • Ces règles sont potentiellement intéressantes car
    probablement inconnues de lexpert

10
Cas 2
  • P(B2) élevée
  • Dépendance faible
  • Dépendance (A1?B2 ) lt Dépendance ( A1?B1)
  • Comportement de la dépendance satisfaisant...

11
Cas 3
  • P(A2) et P(B2) élevées
  • Dépendance faible
  • or la connaissance de A2 permet de conclure sans
    erreur sur B2
  • ? comportement contre-intuitif dans ce cas

12
Contraintes minimales
  • Support gt 0
  • Confiance gt 0.5
  • Utiliser une mesure de qualité simple et
    permettant de favoriser les règles les moins
    contredites par les données

13
Moindre-ContradictionAzé-Kodratoff, EGC02
14
Moindre-Contradiction
mc(A1?B1) gt mc(A1?B2)
15
Propriétés de la Moindre-Contradiction
  • Ni monotone, ni anti-monotone
  • pas délagage possible du treillis
  • besoin de nouvelles conditions délagage
  • règles A?B où B est réduit à un attribut et A est
    une conjonction dau plus Kmax attributs
  • ne pas spécialiser les  meilleures  règles
  • utiliser un seuil délagage  contextuel 

16
Conditions délagage
  • Seuil délagage  contextuel 
  • Soit ? R / mc(R) gt 0 (confiance gt 0.5)
  • soit ?E moyenne (?) et ?Eécart-type(?)
  • seuil délagage T ?E ?E
  • Élagage des règles Sahar, KDD99
  • Soit R une règle, si mc(R) gt T alors R est
    présentée à lexpert mais aucune spécialisation
    de R ne sera calculée

17
Exemple
  • Soit une base de données contenant 6 attributs
    (A, B, C, D, E et F). Considérons les règles
    concluant sur F (voir treillis des prémisses).

18
Exemple
  • Soit ? AB, AC, AD, BC, BE, CD, DE R / mc(R)
    gt 0
  • et AD, CD situées au delà de T ?E ?E

ABCDE
AB
BC
CD
DE
BD
BE
AC
AD
AE
CE
19
Exemple
  • Soit ? AB, AC, AD, BC, BE, CD, DE R / mc(R)
    gt 0
  • et AD, CD situées au delà de T ?E ?E

ABCDE
AB
BC
CD
DE
BD
BE
AC
AD
AE
CE
20
Exemple
  • Soit ? AB, AC, AD, BC, BE, CD, DE R / mc(R)
    gt 0
  • et AD, CD situées au delà de T ?E ?E

ABCE
BDE
BCE
ABC
ABE
ACE
AB
BC
CD
DE
BD
BE
AC
AD
AE
CE
21
Algorithme
  • Extraction des règles contenant K attributs en
    prémisse (initialement K 1) et 1 seul attribut
    en conclusion.
  • Étape Initiale
  • Étape itérative
  • Condition darrêt
    ou ou K Kmax

22
Validations
  • Expérimentations sur quelques bases de lUCI
    (http//www.ics.uci.edu/mlearn/MLRepository.html)
  • Contraintes support gt 0, confiance gt 0.5 et
    Kmax 3

23
Validation Fouille de textes
Validation par un expert
24
Corpus étudiés
  • Expérimentations sur deux corpus
  • Introductions darticles sur la fouille de
    données
  • Ressources Humaines (société PerformanSe)
  • Classifications conceptuelles réalisées par des
    experts

25
Discrétisation
  • Création dune interface permettant de contrôler
    le processus de discrétisation
  • Choix des concepts à discrétiser
  • Choix du nombre de sous-concepts
  • ? Discrétisation interactive

26
DiscrétisationAlgorithme Chickering, ICDM01
  • Discrétisation de chaque concept indépendamment
    les uns des autres
  • Isoler les valeurs nulles absence du concept
    dans les textes
  • Equi-répartir les valeurs non nulles dans k
    valeurs discrètes (k fixé par lexpert)

27
Règles obtenues sur le corpus dintroductions
darticles
  • Concepts discrétisés en 3 valeurs 0, 1 et 2
  • Les concepts de valeur 0 nont pas été pris en
    considération

28
Quelques règles (Ressources Humaines)
29
Conclusions
  • Lextraction des pépites de connaissances est
    possible et peut être utile à lexpert
  • Ces règles peu nombreuses permettent
  • de mieux comprendre les données
  • dobtenir une indexation des textes étudiés
  • de valider la classification conceptuelle et le
    contenu des textes

30
Perspectives
  • Validation sur dautres bases de données
  • validation en cours sur un sous-domaine de la
    biologie
  • Validation sur un corpus de CV
  • Étude dautres mesures de qualité
  • transformées affines de la confiance
  • intensité dimplication normalisée
  • Lerman-Azé, EGC03
Write a Comment
User Comments (0)
About PowerShow.com