Mining generalized association rules - PowerPoint PPT Presentation

1 / 62
About This Presentation
Title:

Mining generalized association rules

Description:

Title: Mining generalized association rules Author: mis129 Last modified by: P2000 Created Date: 12/8/1999 3:19:44 AM Document presentation format – PowerPoint PPT presentation

Number of Views:22
Avg rating:3.0/5.0
Slides: 63
Provided by: Mis129
Category:

less

Transcript and Presenter's Notes

Title: Mining generalized association rules


1
??? ?????
2
??? ?????
  • ??
  • ???????????
  • ???????????

3
????
  • ?????????????,?????????,?????????????????
  • ???????????????????

4
????????????
  • ?????
  • ??????(machine learning)
  • ?????????(supervised learning)
  • ????????
  • ???????????
  • ??ID3, PRISM, ??Gini??
  • ???????????
  • ????????????????????

5
????????
  • ????
  • ???????????
  • ????????? (class label)
  • ????
  • ??????(credit approval)
  • ?????????????????
  • ????(target marketing)
  • ?????????????????
  • ????(medical diagnosis)
  • ??????????????SARS
  • ...

6
???????????
  • ?????
  • ?????????,??????????
  • ?????????
  • ??????(feature selection)
  • ???????????,???????
  • ????????
  • ??
  • ?????????????,???????????(class label)
    ,????????????????????
  • ??????????????

7
?????
  • ????
  • ????????????
  • ????????
  • ????(classification rules)
  • ???(decision trees)
  • ????(mathematical formulas)
  • ????
  • ?????????(training samples) ?????(testing
    samples)
  • ???????????????
  • ?????????????
  • ????
  • ?????????
  • ????????

8
??????? (1)
  • ??1????

9
??????? (2)
  • ??2????

10
??????? (3)
  • ??3????
  • ???????????????,??????35?,??,???
  • ???????????? ?,?????????????????
  • ?????????????????????????????,???????,????????????
    ??

11
???????
  • ?????(training-and-testing)
  • ??????????????,???????????,????????????
  • ??????????????
  • ????? (cross-validation)
  • ??????k????,???k-1??????????,?????????????,???k???
    ???????,????????????,???k?????? (k-fold cross
    validation)
  • ?????????????
  • ??? (bootstrap method)
  • ????????????,???????????,??????????
  • ??????????????

12
???????? (1)
  • ???
  • ??
  • ?????????
  • ???????????
  • ??
  • ?????? (postpruning) ?????????
  • ???? (interpretability)
  • ???????????????????
  • ?????

13
???????? (2)
  • ???????
  • ??? (robustness)
  • ?????????????? (missing value)
  • ?????
  • ??? (scalability),????????????????????????????????
    ??

14
??? ?????
  • ??
  • ???????????
  • ???????????

15
?????
  • ???(Decision tree )
  • ??????????
  • ?????? (non-leaf nodes) ???????
  • ???? (branches) ?????????
  • ????? (leaf nodes) ??????????
  • ???,??????????

16
???????????
  • ????????
  • ??1??????
  • ???,????????????
  • ???????,??????????
  • ??2??????
  • ????????????????
  • ?????????????
  • ?????????????

17
???????? (1)
  • ?????(?????,greedy algorithm)
  • ?????????,??(recursive)????
  • (divide-and-conquer)????
  • ??????????,?????????
  • ????
  • ???,?????????????
  • ????????(???????,??????)
  • ???????,???????????
  • ??????????????????
  • (??????information gain)???,??????

18
???????? (2)
  • ???????
  • ???????????????????
  • ???
  • ??????????? ,???????
  • ???????????????
  • ???????????????????
  • ???

19
???????
  • ????(Information gain)
  • ID3/C4.5/PRISM
  • ?????????????(categorical)
  • ?????????????
  • Gini??(Gini index , IBM IntelligentMiner)
  • ????????????????
  • ?????????????????
  • ?????????????
  • ????????(????),?????????
  • ????????????

20
??????????
  • ??????????????,?????????
  • ??(?5-1?????? )
  • ????????????,????????
  • IF ?????? AND ??lt30?
  • THEN ????????
  • ????
  • IF ?????? AND ??lt30? THEN ????????
  • IF ?????? AND ??gt30? THEN ????????
  • IF ?????? AND ??? THEN ????????
  • IF ?????? AND ??? THEN ????????
  • IF ?????? AND ??? THEN ????????

21
????????
  • ???? (over-fitting) ??
  • ???????????????????,
  • ??????????,????????
  • ?????????,??????????
  • ????(prepruning) ???????????
  • ?????????????,????????

22
????????????
?? ?? ?? ???????
24 ?? 80k ?
28 ?? 45k ?
35 ?? 25k ?
32 ?? 40k ?
40 ?? 20k ?
42 ?? 22k ?
38 ?? 35k ?
29 ?? 60k ?
22 ?? 18k ?
33 ?? 38k ?
25 ?? 55k ?
50 ?? 42k ?
35 ?? 36k ?
45 ?? 28k ?
37 ?? 44k ?
18 ?? 25k ?
?5-1
23
???????????????
?? ?? ?? ???????
lt30 ?? ? ?
lt30 ?? ? ?
gt30 ?? ? ?
gt30 ?? ? ?
gt30 ?? ? ?
gt30 ?? ? ?
gt30 ?? ? ?
lt30 ?? ? ?
lt30 ?? ? ?
gt30 ?? ? ?
lt30 ?? ? ?
gt30 ?? ? ?
gt30 ?? ? ?
gt30 ?? ? ?
gt30 ?? ? ?
lt30 ?? ? ?
?5-2
24
?????? - ID3
  • ?? (Quinlan) 1979???????????
  • ???? (Shannon) ? 1949?????
  • ???????????????

25
???? (information theory)
  • ???????n???,????????P(v1), , P(vn),?????????,????
    ??????????????
  • ???????????,????????
  • ????????? (Entropy) ???,?????,??????
  • ?????????

26
???? (1)
  • ???????P (??,positive instance)?N(??,negative
    instance )
  • A???????
  • X????????????
  • X1,, Xv?????????????
  • p??X??????
  • n???????
  • pi??Xi??????
  • ni??Xi??????

27
???? (2)
  • ????A???X??X1,, Xv?????????

  • ??

  • ,?p, n???0

  • ,?p?n???0

28
???????????
  • ????? ??????? ? ???????
  • ?????
  • ???????????????
  • ????????????????????
  • ID3??????????????????,???????????????

29
??????????????(1)
  • ??P?????????N??????????
  • ??5-2??,16??????,???NB?4?,???NB?12?
  • I (p, n) I (4, 12) 0.8113
  • ?????16????????
  • ??30???NB?1?,??NB?5?
  • ?????30???NB?3?,??NB?7?

30
??????????????(2)
  • ??
  • Gain (??) I (4,12) (I (3,4) I (1,8)) 0.0972
  • Gain (??) I (4,12) (I (1,5) I (2,5) I (1,2)
    ) 0.0177
  • ????????????????,?????????????,?????????????????
  • ??????????????????????????????????????????????????
    ?????????

31
?????? - PRISM (1987)
  • ?????????????
  • ??ID3?????????????
  • ??????????????????
  • ??????,???,??lt30?
  • ??Ax???????

  • ,?p
    (AxP) ? 0
  • PRISM_Gain(A x) 0,?p
    (AxP) 0
  • ????????????

32
?????? PRISM??
  • ??5-2??,?????????????30?????????30???????????????
    ??????????????????
  • ???????????????????

??????!
33
?????? Gini ??? (1)
  • IBM Intelligent Miner??????
  • ?????????????
  • ?????N??????D,???????????T
  • Gini???
  • ?????D??? n ???,?Gini????????D?Gini??????

pj ?????j????D ????????
34
Gini ??? (2)
  • ?T ???????? t,??????? t ?????? t
    ?????,???D1?D2,????N1?N2???
  • ??D???? t ???D1?D2??Gini??????
  • ??????????,Gini???????????,Gini?????
  • ??????????,?????????Gini????????

35
Gini ????? (1)
  • ?????????????
  • ????????30
  • ???lt30???????1????5???,?
  • p1 1/16? p25/16,Gini????
  • ??? 30???????3????7???,?
  • p1 3/16?p27/16,?????Gini????
  • 1? (3/16)2? (7/16)20.773

36
Gini ????? (2)
  • ????????40
  • ???lt40???????4????8???,?
  • p1 4/16? p28/16,Gini????

  • 1? (4/16)2? (8/16)2 0.6875
  • ??? 40???????0????4???,?
  • p1 0/16?p24/16,?????Gini????
  • 1? (0/16)2? (4/16)2 0.9375
  • ??Gini(40)ltGini(30),??????????? 40???????
    30?

37
??? ?????
  • ??
  • ???????????
  • ???????????

38
?????- ??
  • ?????? (Probabilistic learning)
  • ???????????????
  • ??? (incremental)
  • ???????
  • ????????????
  • ?????????????????
  • ???????????
  • ?????????????,???????????????

39
???? (Bayesian Theorem) (1)
  • ??
  • X????????,C??????
  • ?????
  • X????C?????
  • (C?????X?????) (C???????) / (X???????)

40
???? (2)
  • ???????????????????
  • X????????
  • C?????????????????
  • X??????????? (???????????X???) (???????????)
    / (X?????)
  • ???????,?????????????X???????????????????

41
?????
  • ?????????
  • P (Xlt x1,,xkgtC) ? P(x1 C)???P(xk C)
  • x1,,xk??? X ? k ????
  • ?P(CX) P(x1C)???P(xkC)?P(C) / P(X)
    .(5.2)
  • ?????
  • ???? (5-2) ????????????????
  • ???????????????????
  • ????P(x1C)???P(xkC)?P(C) ???????C????X?????(?P(X
    ) ???)

42
?????? (1)
  • ????????????????????,???????????????

???? P N
?? 4 12
?? P N
lt 30 1 5
gt 30 3 7
?? P N
?? 3 4
?? 1 8
?? P N
? 1 5
? 2 5
? 1 2
?5-3
43
?????? (2)
  • P(PX)? P(X)
  • P(???30P)?P(????P)?P(???P) P(P)
  • P(NX)? P(X)
  • P(???30N)P(????N)P(???N) P(N)
  • ?P(NX) gt P(PX),???????????N?????????

44
???????-??(Memory-Based Reasoning,MBR)
  • Bradley?1994?? 1982 ?Roger Schank?????????
  • ??????????????????
  • ????????
  • ????
  • ??????????(???? )
  • ?????????(???? )
  • ??????????????????????(?? )

45
???????? (1)
  • ?????????????
  • ???????,?????????????????????
  • ?????????,????????
  • ?????????????
  • ?????????????????,? d(A,B)? 0?
  • ????? (identity)????????????0,? d(A,A)0?
  • ?????????????,?? A ? B ????? B ? A ???,?
    d(A,B)d(B,A)?
  • ?????????A?B?????C,?d(A,B)?d(A,C)d(C,B)?

46
???????? (2)
  • ???(?)
  • ???????????
  • ???A-B
  • ???(A-B)(A-B)
  • ???A-B /????,???01??
  • ????
  • ????????,????????
  • ?????????????????????????,???????1???????2??????
    ,????5???

47
???????? (3)
  • ???(?)
  • ???????,???????????????????????
  • ??
  • ?????
  • ??????

48
???????? (4)
  • ????????????????
  • ?????????????,??????
  • ???????????
  • ????????,? (k1) ????,
  • ??? k ?????
  • ?????????,????????
  • ?????
  • ???????????????
  • ?????
  • ????????,?????????

49
???????? (1)
  • ?????????????
  • ?5-1?????????????????????,?????????5-4

?? ?? ?? ???????
24 ?? 80k ?
35 ?? 25k ?
32 ?? 40k ?
42 ?? 22k ?
25 ?? 55k ?
35 ?? 36k ?
37 ?? 44k ?
18 ?? 25k ?
?5-4
50
???????? (2)
  • ?????????????
  • ?????0,????1,?????????????
  • ????????????????????5-5

51
???????? (3)
  • ????????????????
  • ????3????,?????3, 4, 5??????
  • ?????????,????????
  • ???????????????????
  • 3, 4, 5??????????????,???????,?????????????,??
    ????????????????

52
??????????
  • ????
  • ????????????
  • ?????????
  • ????????????????????
  • ????
  • ?????????
  • ??????
  • ????????,?????

53
??????????
  • ??????????
  • ??????????
  • ??????
  • ??????????,??????????????,???????,????????????
  • ?????????????
  • ?????????????,?????????????
  • ?????????
  • ??????????

54
????????
  • ?????????????
  • ????????????(?????????,neuron )??????????
  • ?????????
  • ????????????????????????????
  • ?????????

55
????????
  • ????
  • ???????????????,???????????????????????
  • ????
  • ????????????????????????
  • ????????(?5-6)
  • ???????????????????????,
  • ???????
  • ????????????????,??????
  • ????????
  • ??????????????????

56
????????????
57
???????
  • ???????
  • ???????,??????????????????
  • ??
  • ?????????????
  • ???????????????
  • ???? (feedback) ?????,??????????
  • ????????,???????????????????

58
??????????
  • ?5-2??
  • 0?? lt30,1?? ?30
  • ??0?? ??,1?? ??
  • ??? -1?? ?,0?? ?,1?? ?
  • ???0?? ?(????NB)
  • ???1?? ?(???NB)
  • ??
  • ????????????
  • (lt30, ??, ?) ????(0,0,1)
    ????,??????0

?5-6
59
?????
  • ????????
  • ??????Xi (xi1, xi2, .., xik),???yi,i1, ..,n
  • ??????????????W (w1, w2, .., wk)
  • ??
  • ?????????????,?????yi??0?1????,???Xi ?
    W???????0???0,??0???1?

60
????????
  • ???????W0 (0, 0, 0),??5-6???????????????
  • ??????????????????

61
??????????
  • ??????
  • ?????????????????????,?????????,????????
  • ??????????,?????????????
  • ??????????????

62
??
  • ??????????????????????
  • ????????????????????????????????????
  • ????????????
  • ??? (scalability)
  • ???????????
  • ?????????????,?????????????????????,?????????????
    ??????
Write a Comment
User Comments (0)
About PowerShow.com