Az adatok - PowerPoint PPT Presentation

About This Presentation
Title:

Az adatok

Description:

Adatok el feldolgoz sa Az adatok ltal nos jellemz se Az adatok alapvet statisztikai jellemz i Az adatok hasonl s g nak m r se Adattiszt t s – PowerPoint PPT presentation

Number of Views:212
Avg rating:3.0/5.0
Slides: 123
Provided by: Jiaw268
Category:
Tags: adatok

less

Transcript and Presenter's Notes

Title: Az adatok


1
Adatok elofeldolgozása
  • Az adatok általános jellemzése
  • Az adatok alapveto statisztikai jellemzoi
  • Az adatok hasonlóságának mérése
  • Adattisztítás
  • Adatok integrálása, átalakítása
  • Adatredukció

2
Milyen típusú adathalmazokkal dolgozunk?
  • Rekord
  • Relációs adatbázis rekordjai
  • Adatmátrixok, például numerikus mátrix, együttes
    gyakoriságot megadó (crosstabs) mátrix
  • Dokumentumok szövegek, weboldalak kulcsszó-
    (term) gyakorisági vektor
  • Tranzakciós adatok
  • Gráfok
  • Weboldalak gráfja (WWW)
  • Közösségi hálók
  • Molekulaszerkezetek
  • Rendezett adatok
  • Földrajzi adatok térképek
  • Idosorok
  • Szekvenciák vásárlási sorozatok
  • Genetikus sorozatok

3
A strukturált adatok legfontosabb jellemzoi
  • Többdimenziós adatok
  • Nagyon nagy lehet a dimenzió, akár több ezer is
    (például dokumentum/kulcsszó mátrix)
  • Ezt hívják a dimenzió átkának (Curse of
    dimensionality).
  • Oracle-ben csak 1000 oszlopos lehet egy tábla!
  • Ritkaság
  • Például a bitmap indexben nagyon sok a 0
  • Felbontás
  • A mintázat függhet a mértékegységtol, skálától
  • Hasonlóság
  • Valamilyen távolságmérték

4
Az attribútumok típusa
  • Szöveges (Nominal)
  • foglalkozás, személyi azonosító, szemszín,
    irányítószám
  • Rendezett (Ordinal)
  • rangok (tisztek rangja, beosztási fokozatok),
    osztályzatok, magasság magas, közepes, alacsony
  • Bináris
  • orvosi teszt (pozitív vagy negatív)
  • Intervallum (Interval) /- muveletek
    értelmezhetok
  • dátum, elégedettségi mutató (1-10)
  • Skálafüggo (Ratio), azaz az egységhez
    arányosítjuk konstanssal szorzás értelmezheto
  • homérséklet Kelvin fokban, hossz centiméterben,
    ido órában, darabszám

5
Diszkrét vagy folytonos attribútumok
  • Diszkrét attribútum
  • Véges vagy megszámlálhatóan végtelen lehetséges
    érték
  • irányítószám, foglalkozás, egy dokumentum szavai
  • gyakran egész számokkal reprezentálják
  • ilyen a bináris attribútum is
  • Folytonos attribútum
  • nem megszámlálható halmazból veheti fel az
    értéket
  • valós számok homérséklet, magasság, súly
  • valójában a valós számokat csak véges sok
    számjeggyel ábrázoljuk
  • tipikusan lebegopontos változóval reprezentáljuk

6
Adatok elofeldolgozása
  • Az adatok általános jellemzése
  • Az adatok alapveto statisztikai jellemzoi
  • Az adatok hasonlóságának mérése
  • Adattisztítás
  • Adatok integrálása, átalakítása
  • Adatredukció

7
Leíró jellemzok eloállítása
  • Motiváció
  • Legyen egy gyors áttekintésünk az adatok
    viselkedésérol, tendenciájáról,
    elhelyezkedésérol, átlagokról, szóródásukról
  • Az adatok szóródására, eloszlására jellemzo
    statisztikák
  • medián, max, min, kvantilisek (quantiles),
    kiugrások (outliers), szórás (variance), etc.
  • Numerikus dimenziók rendezett számhalmazoknak
    felelnek meg
  • az adatok szóródása függ a pontosság fokától,
    azaz hány tizedesjeggyel reprezentáljuk az
    adatokat
  • a minta jellemezheto a kvantiliseket ábrázoló
    Boxplot diagrammal
  • Többdimenziós szóródás
  • visszavezetjük a dimenziók szóródására
  • a Boxplot diagramokat 3D-ben ábrázoljuk
    (xi,yi,Boxplot(z))

8
Mennyire központ körüliek az adatok?
  • Átlag (Mean)
  • súlyozott átlag
  • levágott (Trimmed mean) átlag elhagyjuk a
    legnagyobb, legkisebb értékeket
  • Medián (Median)
  • A középso mintaelem, vagy a két középso mintaelem
    átlaga, ha páratlan, illetve páros számú adat
    van. ( 2. kvartilis)
  • A medián az a µ érték, ahol az eloszlásfüggvény
    1/2 F(µ)1/2
  • Módusz (Mode)
  • A leggyakrabban eloforduló mintaelem vagy elemek
  • több ilyen is lehet unimodális, bimodális.
    trimodális

9
Szimmetrikus vagy ferde adatok
  • A medián, átlag és módusz elhelyezkedése
    szimmetrikus, pozitív és negatív ferdeségu adatok
    esetén.

szimmetrikus
pozitív ferdeség
negatív ferdeség
10
A szóródás jellemzése
  • Kvartilisek (negyedelok), kiugró adatok és
    boxplotok segítségével
  • Kvartilis Q1 (25-ik percentilis, azaz a minta
    25-a kisebb ennél), Q3 (a 75-ik percentilis,
    azaz a minta 75-a kisebb ennél)
  • Belso kvartilis terjedelem (Inter-quartile
    range) IQR Q3 Q1
  • 5-számos jellemzés (Five number summary) min,
    Q1, M, Q3, max
  • Doboz diagram (Boxplot) a doboz a végei, illetve
    a közepe a kvartilisek, a dobozon kívüli minták
    közül a távoliak a kiugró adatok
  • Kiugró elem (Outlier) (1.5xIQR) Q3 nál
    nagyobb, vagy Q1-(1.5xIQR) nél kisebb
  • Szórásnégyzet (Variance), szórás (standard
    deviation) (minta s, populáció s)
  • Szórásnégyzet (Variance) (skálázható algebrai
    formulával számolható ki)
  • Szórás (Standard deviation) a variancia
    négyzetgyöke

11
Doboz (Boxplot) diagram
  • Az eloszlásra jellemzo 5 érték
  • Minimum, Q1, M, Q3, Maximum
  • A doboz (Boxplot)
  • A mintát a doboz reprezentálja
  • A doboz magassága IQR
  • A medián kettéosztja a dobozt
  • Arra ferdül az eloszlás, amelyik féldoboz nagyobb
  • A doboz karjai (Whiskers) két vonal a Minimumig,
    illetve a Maximumig

12
Doboz (Boxplot) diagram
13
Doboz (Boxplot) diagram értelmezése
Harang alakú Egyenletes
Jobbra ferdül
14
3D Boxplot diagram
A Profit eloszlását jellemezzük rögzített
bevétel és költség esetén
15
A normális eloszlás tulajdonságai
  • A suruségfüggvény harang alakú
  • Az adatok 68-a esik a µs, µs intervallumba,
  • ahol µ a várható érték, s a szórás
  • Az adatok 95-a esik a µ2s, µ2s intervallumba
  • Az adatok 99.7-a esik a µ3s, µ3s
    intervallumba

16
További hasznos grafikus megjelenítések
  • Boxplot 5 számmal jellemzi az eloszlást
  • Hisztogram x az értékeknek, az y a
    gyakoriságoknak felel meg
  • Kvantilis diagram (xi ,fi ) párok,
  • ahol a minta 100xfi - a ? xi
  • Kvantilis-kvantilis (q-q) diagram két eloszlás
    kvantilis értékeit hasonlítja össze
  • Pontdiagram (Scatter plot) 2D-ben vagy 3D-ben
    ponttal jelölünk minden mintaelemet
  • Regressziós görbe (Loess - local regression) egy
    sima görbét illesztünk a pontdiagram adatpontjaira

17
Hisztogram
  • A doboz diagramnál jobban jellemzi az eloszlást
  • Gyakorisági hisztogram
  • Egydimenziós eloszláshoz használható
  • A téglalap magassága az adott osztályba eso
    minták számával egyenlo

18
A hisztogram többet árul el az eloszlásról, mint
a doboz diagram
  • A két eloszlás doboza megegyezik
  • Mind az 5 nevezetes értékük ugyanaz min, Q1,
    medián, Q3, max
  • Az egyik egy egycsúcsú eloszlás, a másik egy
    kétcsúcsú eloszlás.

19
Kvantilis diagram (Quantile Plot)
  • Az összes adat megjelenítése helyett az
    eloszlásfüggvényt közelítjük a tapasztalati
    eloszlásfüggvénnyel.
  • A kvantilis diagram a tapasztalati
    eloszlásfüggvény inverze, készítése elott
    rendezzük az adatokat
  • (xi , fi ) azt jelenti, hogy az adatok 100fi-a
    kisebb vagy egyenlo xi értékénél

20
Kvantilis-Kvantilis (Q-Q) diagram
  • Két eloszlásfüggvényt hasonlítunk össze úgy, hogy
    a megegyezo kvantilis pároknak megfelelo pontokat
    ábrázoljuk
  • Megegyezo eloszlás esetén a pontok az yx
    tengelyen lesznek

(Q3,Q3)
(Q2,Q2)
(Q1,Q1)
21
Pontdiagram (Scatter plot)
  • Kétdimenziós adatokat vagy két dimenziós
    vetületet ábrázoljuk
  • Az adatok viselkedését jól lehet látni, például
    hol alakulnak ki csoportok, mi a tendencia, hol
    vannak szélsoséges adatok

22
Lokális regressziós görbe (Loess Curve)
  • Egy sima (általában lineáris vagy kis fokú
    polinom) görbét illesztünk a pontokra a
    környezetük alapján
  • Két paraméterrel hangoljuk
  • a simítási paraméter mondja meg, hogy mennyi ()
    közeli pontot használjunk fel (speciális esete a
    Mozgó Átlag)
  • a második paraméter a polinom foka

23
Pozitív és negatív korreláció
a regressziós egyenes meredeksége negatív
a regressziós egyenes meredeksége pozitív
  • Az adatok kettévághatók egy pozitívan és egy
    negatívan korrelált ponthalmazra

24
Korrelálatlan adatok
25
Vizualizációs módszerek
  • Mit nyújt egy jó ábrázolás?
  • Egyszeru grafikai elemekre (egyenes, kör, gömb,
    kocka, stb.) képezik le az adatokat
  • Nagy adathalmazok jellemzoit kiemelik
  • Könnyebben találhatunk mintákat, szabályosságot
    vagy szabálytalanságot, trendet, összefüggéseket
    az adatok között
  • megtalálhatjuk az adathalmaz lényeges részét,
    ezáltal redukáljuk a feladatot kevesebb adatra
  • A kiszámított modellt ábrázolva látjuk, hogy
    mennyire jó a modell, mennyire illeszkednek rá az
    adatok
  • Tipikus módszerek
  • Geometrikai technikák
  • Ikonizált technikák
  • Hierarchikus technikák

26
Direkt adatvizualizáció
Az örvénylést megtekeredo szalagként ábrázoljuk
27
Geometriai technikák
  • Az adatokon geometriai transzformációt, vetítést
    végzünk
  • Tipikus módszerek
  • 3D-s tájképek
  • Projekciók
  • A többdimenziós adatoknak mely vetületei,
    dimenzió a lényegesek?
  • Az összes kétdimenzió pontdiagramból mátrix
    készítése
  • Metszet készítése
  • Hiperszeletelés (Hyperslice) többdimenziós
    függvények
  • vizualizációja a megfelelo kétváltozós
    függvények ábrázolásával
  • Párhuzamos koordináták használata (Parallel
    coordinates)

28
Pontdiagram mátrix
Used by permission of M. Ward, Worcester
Polytechnic Institute
  • A k-dimenziós adatokból C(k, 2) (k2 ? k)/2
    pontdiagram készítheto

29
3D tájképek
Újságcikkek témák szerinti eloszlása
Used by permission of B. Wright, Visible
Decisions Inc.
  • Az adatokat (mesterséges módon) 2D-ben
    reprezentáljuk és például az együttes gyakoriság
    lesz a pontok magassága
  • Az azonos magasságú szintek azonos színuek

30
Párhuzamos koordináták (Parallel Coordinates)
  • k párhuzamos egyenes felel meg a k attribútumnak
  • Minden k-dimenziós pontot egy töröttvonallal
    reprezentálunk az i-ik egyenesen az i-ik
    koordinátát, ami az i-ik attribútumnak megfelelo
    minimum, maximum tartományba esik
  • Ahány elemi a minta, annyi poligont kapunk

31
3 db (piros, kék, zöld) 3D adathalmaz ábrázolása
párhuzamos koordinátákkal
32
Ikonizált technikák
  • Az értékeket az ikonok valamilyen jellemzoje
    fejezi ki
  • Tipikus módszerek
  • Chernoff arcok
  • Vonalrajzok (Stick Figures)
  • Formák (Shape Coding)
  • Színek
  • Csempeoszlop (TileBars) Dokumentumok részeiben a
    keresett szó hányszor fordul elo

33
Chernoff arcok
  • Több dimenziót tudunk 2D-ben ábrázolni, például x
    legyen a szemöldök meredeksége, y a szem
    nagysága, z az orr hossza, stb.
  • Az ábrán 10 jellemzos arcokat látunk

34
Vonalrajzok (Stick Figures)

Népszámlálási adatok a nem és az iskolázottság
eloszlása a kor és jövedelem függvényében
used by permission of G. Grinstein, University of
Massachusettes at Lowell
35
Csempeoszlop (TileBars)
36
Hierarchikus technikák
  • A teret hierachikus partíciókra osztjuk fel.
  • Tipikus módszerek
  • Dimenzió beágyazása (Dimensional Stacking)
  • Világ a világban (Worlds-within-Worlds)
  • Fatérkép (Treemap)
  • Kúpfák (Cone Trees)
  • Infokocka (InfoCube)

37
Dimenziók beágyazása(Dimensional Stacking)
  • Az n-dimenziós teret 2D részterekre
    particionáljuk, és ezeket egymásba ágyazzuk
  • Minél beljebb van 2 attribútum, annál kevésbé
    lényegesek (az elso attribútum a legfontosabb)
  • Alacsony számosságú rendezett (ordinal)
    attribútumokra használható

38
Dimenziók beágyazása
Used by permission of M. Ward, Worcester
Polytechnic Institute
A földrajzi koordinátákon (x,y) belül a
kibányászott érc vastartalma (z) és amilyen
mélyrol felhozták (w).
39
Fatérkép (Tree-Map)
  • A teret felbontjuk tartományokra a kiválasztott
    attribútum alapján
  • A tartomány nagysága az attribútum értékét fejezi
    ki
  • A tartományt tovább bontjuk egy másik attribútum
    alapján.
  • Színekkel a felbontásban nem szereplo
    attribútumok értékét fejezhetjük ki.

MSR Netscan Image
40
Egy fájlrendszer fatérképe
41
Adatok elofeldolgozása
  • Az adatok általános jellemzése
  • Az adatok alapveto statisztikai jellemzoi
  • Az adatok hasonlóságának mérése
  • Adattisztítás
  • Adatok integrálása, átalakítása
  • Adatredukció

42
Hasonlóság (Similarity) és különbözoség
(Dissimilarity)
  • Hasonlóság
  • egy szám, ami megmondja mennyire hasonló a két
    objektum
  • minél nagyobb, annál jobban hasonlóak
  • a hasonlósági mérték általában 0,1-beli szám
  • Különbözoség (eltérés, távolság)
  • mennyire különbözo a két objektum
  • minél nagyobb, annál jobban eltérnek
  • általában 0 jelenti, hogy teljesen hasonlók
  • felso korlát nem mindig van
  • Közelségen (Proximity) hasonlóságot vagy
    különbözoséget értünk

43
Adatmátrix és különbözoségi mátrix
  • Adatmátrix
  • n darab p dimenziós objektum
  • n x p
  • Különbözoségi mátrix
  • minden objektumpár különbözosége szerepel benne
  • háromszög mátrix
  • n x n

44
Példa távolság mátrixra
Data Matrix
Távolság (különbözoség) mátrix Euklideszi
távolság esetén
45
Minkowski-távolság
  • Minkowski távolság
  • ahol i (xi1, xi2, , xip) és j (xj1, xj2, ,
    xjp) két p-dimenziós objektum, q a távolság
    rendje.
  • Távolság szokásos tulajdonságai
  • d(i, j) gt 0 ha i ? j, és d(i, i) 0 (Potitív
    definit)
  • d(i, j) d(j, i) (Szimmetria)
  • d(i, j) ? d(i, k) d(k, j) (Háromszög-egyenlotle
    nség)
  • Ha a távolság kielégíti mindhármat, akkot metrika.

46
A Minkowski-távolság speciális esetei
  • q 1 Manhattan-távolság (L1 norma)
  • például Hamming-távolság eltéro bitek száma
  • q 2 (L2 norma) Euklideszi-távolság
  • q ? ?. szuprémum-távolság (Lmax norma, L?
    norma).
  • A komponensek maximális eltérése
  • Súlyozott összeg is használható, ha nem egyformán
    fontosak a dimenziók

47
Példa Minkowski-távolságra
Távolság mátrix
48
Intervallum típusú változók
  • Standardizáljuk az adatokat
  • Az f-ik komponensben kiszámoljuk az átlagos
    abszolút eltérést
  • ahol
  • Kiszámítjuk az i-ik objektum standardizált
    z-értékét (z-score).
  • Az abszolút eltérés kevésbé érzékeny a kiugró
    értékekre, mint a szórás
  • A standardizált objektumoknak vesszük a
    Minkowski-távolságát

49
Bináris változók
  • Kontingencia-táblával
  • jellemezzük az együttes eloszlást
  • Szimmetrikus bináris változók távolsága
  • Aszimmetrikus bináris változók távolsága
  • Jaccard-együttható (hasonlósági mérték
    aszimetrikus bináris változókra)
  • A Jaccard-együttható ugyanazt adja, mint a
    koherencia

50
Bináris változók eltérése
  • (név,nem,lázas,köhög,teszt1,teszt2,teszt3)
  • a nem szimmetrikus (egyformán fontos, hogy férfi
    vagy no)
  • a többi változó aszimmetrikus
  • Kódoljuk Y és P értéket 1-gyel, N értéket 0-val

51
Szöveges (Nominal) változók
  • A bináris általánosítása, például felveheto
    értékek piros, sárga, kék, zöld (4 érték)
  • 2. módszer Egyszeru egyezés
  • m az egyezések száma, p a változók száma
  • 2. módszer bittérkép index készítésével
    visszavezetjük bináris változókra
  • minden felveheto értéknek egy bináris változót
    feleltetünk meg

52
Rendezett (Ordinal) változók
  • Lehet diszkrét vagy folytonos is
  • Nem az érték, hanem a sorrend számít, például
    rangfokozat
  • Visszavezetjük intervallum típusúra
  • xif helyett a rendezés szerinti sorszámát
    vesszük
  • normáljuk, hogy a rangok 0, 1-be essenek
  • az így kapott intervallum változók eltérését
    vesszük

53
Skálafüggo (Ratio-Scaled) változók
  • Skálafüggo (Ratio-scaled) nem lináris a skála,
    például exponenciális ( Ae Bt vagy Ae -Bt )
  • Módszerek
  • intervallum típusnak tekintve nem jó (a skála
    torzít)
  • logaritmikus transzformációval visszavezetjük
    lineáris skálára
  • yif log(xif)
  • folytonos rendezett adatoknak tekintjük oket,
    ahol a rang intervallum típusú

54
Kevert típusú változók
  • 6 féle típust határoztunk meg
  • szimmetrikus bináris, aszimmetrikus bináris,
    nominális, ordinális, intervallum és skálafüggo
  • A megfelelo típusok eltérésének súlyozott összege
  • f bináris vagy nominális
  • dij(f) 0 ha xif xjf , dij(f) 1 különben
  • f intervallum típusú normalizált távolság
  • f ordinális vagy skálafüggo
  • vegyük az rif rangot
  • a zif értéket intervallum típusúnak tekintjük

55
Vektorokra értelmezett koszinusz hasonlóság
  • Vektor objektumok dokumentumok kulcsszavai,
    géntulajdonságok egy génchip esetén
  • Alkalmazási terület információ keresés
    (information retrieval), biológia
  • d1 és d2 vektorok esetén
  • cos(d1, d2) (d1 ? d2) /d1
    d2 ,
  • ahol ? a skalárszorzat, d a d hossza
  • Például
  • d1 3 2 0 5 0 0 0 2 0 0
  • d2 1 0 0 0 0 0 0 1 0 2
  • d1?d2 31200050000000210002
    5
  • d1 (33220055000000220000)0
    .5(42)0.5 6.481
  • d2 (11000000000000110022)
    0.5(6) 0.5 2.245
  • cos( d1, d2 ) .3150

56
Adatok elofeldolgozása
  • Az adatok általános jellemzése
  • Az adatok alapveto statisztikai jellemzoi
  • Az adatok hasonlóságának mérése
  • Adattisztítás
  • Adatok integrálása, átalakítása
  • Adatredukció

57
Az elofeldolgozás fo feladatai
  • Adatok tisztítása
  • Hiányzó értékek pótlása, hibás, zajos értékek
    kijavítása (simítása), kiugró esetek keresése
    eltávolítása, inkonzisztenciák feloldása
  • Adatok integrálása
  • Több adatbázis, adatkocka, fájl adatainak közös
    sémába töltjük
  • Adatok transzformálása
  • Szükség esetén normalizálása, összesítése
  • Adatok redukálása (mintavételezés)
  • Olyan kisebb mintát keresünk, amely a teljes
    populációs statisztikai tulajdonságait magán
    hordozza
  • Diszkretizálunk folytonos függvény helyett
    néhány helyen felvett értékét tekintjük vagy
    számokat osztályokba sorolunk

58
Az adattisztítás
  • Rossz adatokból jó eredményt nem lehet kapni!
  • Jó döntést csak jó adatok alapján lehet hozni
  • a hiányzó, vagy duplán tárolt adatok hibás,
    félrevezeto statisztikákat okozhatnak
  • Az adattárház építésének elso számú feladata az
    adattisztítás
  • Az adattárház építés részei (ETL)
  • az adatok összegyujtése az adatforrásokból (data
    Extraction)
  • az adatok tisztítása és transzformálása (cleaning
    and Transform)
  • a transzformált adatok betöltése az adattárházba
    (Load)
  • Az adattisztítás feladatai
  • hiányzó értékek kitöltése
  • kiugró esetek összegyujtése, zajos adatok
    simítása,
  • inkonzisztenciát okozó hibák javítása
  • az integrációból adódó többszörös elofordulások
    eltávolítása

59
Milyen a piszkos adat?
  • Nem teljes hiányoznak attribútumok, értékek vagy
    csak összesített adatok állnak rendelkezésre
  • foglalkozás "" (hiányzó adat)
  • zajos zajos, hibás, vagy kiugró értéket
    tartalmaz
  • fizetés-10 (hibás érték)
  • inkonzisztens összefüggéseket megsérti,
    ellentmondásos a kódolása, névhasználat,
  • Kor42 de születés2000.01.01.
  • Egyik helyen az osztályzat 1,2,3 másik helyen A,
    B, C
  • ellenmondásosak a duplázott rekordok

60
Miért keletkeznek piszkos adatok?
  • Honnan származnak a nem teljes adatok?
  • Az adatgyujtéskor kimarad, például eltéro
    adattípusok miatt
  • Más volt az elképzelés az adatgyujtéskor, mint a
    késobbi adatelemzéskor, hiányoznak az elemzéshez
    szükséges adatok.
  • Emberi/hardver/szoftver problémák
  • Honnan jöhetnek zajos, hibás adatok?
  • Hibás az adatgyujto méroeszköt
  • Az adatbevitel során emberi vagy szoftveres hibák
  • Adatátvitel közben sérülnek az adatok
  • Mitol lesznek inkonzisztens adataink?
  • Különbözo adatforrásokból jönnek az adatok
  • Megsérthetünk például funkcionális függoségeket
    (ha módosítás során nincs ellenorzés)
  • A megegyezo rekordokból csak egyet akarunk
    megtartani

61
Az adatminoséget több szempont alapján mérhetjük
(többdimenziós mérték)
  • A legfontosabb mértékek
  • Pontosság (Accuracy) - például méroeszközöbol
    származó adatok hány jegyre pontosak
  • Teljesség (Completeness) például nullértékek
    száma
  • Konzisztencia (Consistency) megsértett
    szabályok száma, vagy legbovebb konzisztens
    részhalmaz mérete
  • Idoszeruség (Timeliness) mennyire frissek az
    adatok (legjobb lenne az online)
  • Hihetoség (Believability) mennyire bízunk mi,
    vagy szakértok (0,1) a bevitt adatokban

62
Az adatminoséget több szempont alapján mérhetjük
(többdimenziós mérték)
  • További mértékek
  • Hozzáadott érték (Value added) például az értékek
    alapján kap egy jelzot, hogy átlagos, átlagon
    felüli vagy aluli
  • Értelmezhetoség (Interpretability)
  • Elérhetoség (Accessibility)
  • Az adatminoség
  • szoftverekkel mérheto

63
Hiányzó adatok
  • Nem mindig adják meg az összes adatot
  • Például a vásárlók jövedelmét, vagy a gmail-es
    felhasználók telefonszámát nem töltik ki
  • Miért van hiányzó adat
  • Hibás a méromuszer
  • Törölték a nem konzisztens adatokat
  • nem volt kötelezoen kitöltendo
  • adatgyujtéskor még nem tudtuk, hogy fontos lesz
    késobb
  • az adatváltozás nem volt naplózva, elvesztek a
    régi értékek
  • Mi van, ha mégis szükségünk lenne arra, hogy
    milyen érték hiányzik valójában?

64
Mit kezdjünk a hiányzó értékekkel?
  • Eldobjuk a teljes rekordot például
    osztályozáskor pont az osztálycímke hiányzik
    nem jó megoldás, ha attrbútumonként más a
    nullértékek hányada, és túl sok rekordot érint
  • Kézzel kitöltjük a hiányzó értékeket idoigényes
    nincs erre eroforrás
  • Automatikusan töltjük ki, de hogyan?
  • bevezetünk egy Ismeretlen globális konstanst,
    ezzel egy új osztály is keletkezhet!
  • Az attribútum átlagával, várható értékével
    pótoljuk
  • Csak az ugyanabba az osztályba eso mintának az
    átlagát vesszük ez már okosabb
  • A legvalószínubb értéket vesszük amit döntési
    fával, vagy Bayes-képlettel következtetünk ki

65
Zajos adatok
  • Zaj a mért változóra vonatkozó véletlen hiba
    vagy szóródás
  • Mitol pontatlan egy attribútumérték?
  • hibás az adatgeneráló berendezés
  • adatbevitelkor rossz adat került be
  • adatátvitelkor sérült az adat
  • technológiai hiányosság (nem is lehet pontosabban
    mérni)
  • elnevezési inkonzisztencia (a hossz nevu
    változóról nem tudjuk, hogy méterben vagy lábban
    kell megadni az értéket)
  • További adattisztítást igénylo adatproblémák
  • dupla rekordok
  • nem teljes rekordok
  • inkonzisztens adatok

66
Mit kezdjünk a zajos adatokkal?
  • Kategorizálás (Binning) például intervallumokra
    osztás
  • az adatokat (például egyenlo gyakoriságú)
    partíciókba (bin) soroljuk
  • a partícióba tartozó értékek helyett vehetjük a
    partíció átlagát, mediánját, valamelyik
    végpontját, ezzel simítjuk az adatokat
  • Regresszió
  • egy sima regressziós függvényt illesztünk az
    adatokra
  • Klaszterezés (Clustering)
  • a hasonló (közeli) objektumokat klaszterekbe
    soroljuk
  • a kiugró értékeket (kis elemszámú vagy mindentol
    távoli klasztereket) eldobjuk
  • Kiugró adatok detektálása félautomata módon
  • lehetséges, gyanús értékek keresése
    algoritmussal, és átadása a felhasználónak, hogy
    o döntsön

67
Diszkretizálás, kategórizálás (Binning)
  • Egyenlo széles particionálás
  • A tartományt N egyenlo hosszú intervallumra
    osztjuk egyenletes rácsfelosztás
  • Ha az attribútum értékek maximuma A, minimuma B,
    akkor az intervallumok hossza W (B A)/N.
  • Egyszeru, de a szélsoséges adatokra érzékeny (sok
    üres intervallum lesz)
  • A torzított, hibás adatokra is érzékeny
  • Egyenlo gyakoriságú particionálás
  • A tartományt N intervallumra osztjuk úgy, hogy
    mindegyikbe ugyanannyi minta jusson
  • jól skálázható
  • számokra egyszeru, de kategóriaváltozókra
    trükközni kell, számokkal kódolhatunk, de
    vigyázni kell, közeli számok nem biztos, hogy
    közeli kategóriát jelentenek

68
Adatsimítás kategorizálással (Binning)
  • Az árak rendezve (dollárban) 4, 8, 9, 15, 21,
    21, 24, 25, 26, 28, 29, 34
  • Egyenlo gyakoriságú intervallumok
  • - Bin 1 4, 8, 9, 15
  • - Bin 2 21, 21, 24, 25
  • - Bin 3 26, 28, 29, 34
  • Simítás az átlaggal
  • - Bin 1 9, 9, 9, 9
  • - Bin 2 23, 23, 23, 23
  • - Bin 3 29, 29, 29, 29
  • Simítás a végpontokkal (amelyikhez közelebb
    van)
  • - Bin 1 4, 4, 4, 15
  • - Bin 2 21, 21, 25, 25
  • - Bin 3 26, 26, 26, 34

69
Regresszió
  • Az együtthatók becslésére alkalmazott eljárások
  • a legkisebb négyzetek módszere (Ordinary Least
    Squares, OLS)
  • Minimalizáljuk a hibák
    négyzetének összegét
  • az általánosított legkisebb négyzetek módszere
    (Generalized Least Squares , GLS)
  • az általánosított momentumok módszere
    (Generalized Method of Moments, GMM)
  • a legnagyobb valószínuség módszere (Maximum
    Likelihood Estimation, ML)

70
Lineáris regresszió
  • Az optimalizálandó függvény
  • a és b szerint deriválva
  • Kifejezve b-t és a-t

71
Klaszterezés
  • Csoportok képzése távolságok alapján (jövedelem,
    kor, gyakori látogató) kiugró értékek, amelyek
    egyelemu csoportok

72
Az adattisztítás mint folyamat
  • Észre kell venni a szokatlan adatokat
  • Használjunk metaadatokat, leírókat (tartomány,
    értékkészlet, függoségek, eloszlások), amivel
    összehasonlíthatók a minták
  • Ellenorizzük a többértéku mezoket (field
    overloading)
  • Ellenorizzük a szabályokat (egyediség, egymás
    utániság, nullértékek tiltása)
  • Használjunk kész rendszereket, szótárakat
  • Adatfehérítés (Data scrubbing) szakértoi
    tudásbázisok bevetése (irányítószámok,
    helyesírási szótárak)
  • Adatellenorzés (Data auditing) adatelemzéssel
    keressük meg a kapcsolatokat, szabályokat és az
    azokat megsérto eseteket (például klaszterezünk,
    korrelációkat számolunk)
  • Az adatok betöltése, egyesítése (migrálása és
    integrálása)
  • Migráló eszközök betöltés elott/után
    transzformálhatunk is
  • ETL (Extraction/Transformation/Loading) eszközök
    az adatgyujto, transzformáló, betölto folyamatot
    grafikus felületen tervezhetjük meg, hajthatjuk
    végre
  • Az elobbi két folyamatot általában ugyanazzal az
    eszközzel hajthatjuk végre
  • a folyamat lehet egyaránt iteratív és interaktív
    is

73
Adatok elofeldolgozása
  • Az adatok általános jellemzése
  • Az adatok alapveto statisztikai jellemzoi
  • Az adatok hasonlóságának mérése
  • Adattisztítás
  • Adatok integrálása, átalakítása
  • Adatredukció

74
Adatintegráció
  • Mikor kell egyesíteni az adatokat
  • több adatforrásból származó adatokat akarunk
    egyesítve tárolni
  • Közös séma tervezése A.cust-id ? B.cust-
  • ugyanazt a mezot másképpen neveztük a két
    táblában
  • Egyedazonosítási probléma (Entity identification
    problem)
  • Két adatforrásban reprezentált egyedek valójában
    ugyanazt a valóságos egyedet reprezentálják csak
    másképpen, például, Bill Clinton William
    Clinton
  • Az észlelt adatkonfliktusokat fel kell oldani
    (resolution)
  • Miért reprezentáljuk másképp, más
    attribútumértékekkel ugyanazt az egyedet?
  • Például a mértékegység más, vagy egy térbeli
    adatot más koordinátarendszerben
    (polárkoordinátákkal) adunk meg

75
Hogy kezeljük azt a redundanciát, amit az
adategyesítés okoz?
  • Egyesítéskor gyakran többszörös példányok,
    attribútumok keletkeznek
  • Azonos objektumok ugyanazt az attribútumot vagy
    objektumot másképp neveztünk el a két
    adatbázisban
  • Származtatott adatok egyik helyen megadjuk
    (T1.Adó), a másik helyen kiszámoljuk (T2.Adó)
    ugyanazt az értéket
  • A redundáns attribútumokat korrelációanalízissel
    lehet felderíteni
  • Ha csökkentjük vagy elkerüljük a redundanciát,
    akkor jöbb minoségu lesz az adatbányászat
    eredménye és ráadásul gyorsabb is.

76
Korrelációanalízis (Numerikus adatokon)
  • Korrelációs együttható (Pearsons együttható)
    kovariancia osztva a szórások szorzatával
  • A mintából becsülhetjük
  • a korrelációs együtthatót
  • Ugyanez kifejezheto a mintára vonatkozó z-érték,
    az átlag és a szórás segítségével is
  • Minél nagyobb az r abszolút értéke, annál jobban
    korreláltak.
  • Ha r gt 0, akkor a két változó pozitívan
    korrelált, azaz egyszerre no vagy csökken az
    értékük.
  • Ha r 0, akkor linárisan függetlenek.
  • Ha r lt 0, akkor a két változó negatívan
    korrelált, azaz egymáshoz képest ellentétesen no
    vagy csökken az értékük.

77
A korreláció lineáris kapcsolatot mér!
  • Ha a korrelációs 0, attól még nem biztos, hogy
    függetlenek (kivéve, ha normális eloszlásúak a
    változók.)
  • Korrelálatlan, de nem független diszkrét változók

78
Korreláció megfigyelése a pontdiagramon
A korrelációs együttható -1 és 1 között.
79
Korrelációanalízis (kategórikus adatok esetén)
  • ?2 (chi-square) teszt a megfigyelt és várható
    (elméleti függetlenség alapján számolt)
    gyakoriságok alapján
  • A statisztika szabadságfoka (n-1)(m-1), ahol n,m
    a felveheto kategóriák száma
  • Minél nagyobb a ?2 értéke, annál szorosabb a két
    változó kapcsolata
  • A korrelációs nem jelent okozati kapcsolatot
  • a kórházak száma és az ellopott kocsi száma
    általában erosen korrelált
  • magyarázat mindketto a lakosság számával
    korrelált

80
Egy példa
  • ?2 statisztika értéke
  • Ez eros korrelációt jelent.

Sakkozik Nem sakkozik Sorösszeg
Bridzzsel 250(90) 200(360) 450
Nem bridzzsel 50(210) 1000(840) 1050
Oszlopösszeg 300 1200 1500
81
Adattranszformálás
  • Az attribútum régi értékeit egy függvény alapján
    újakra cseréljük
  • Különbözo módszerek
  • Simítás az ugrálásokat, zajokat eltávolítjuk az
    adatokból
  • Aggregálás Összesítünk, adatkockákat készítünk
  • Általánosítás Fogalmi hierarchiában egy magasabb
    szinttel helyettesítünk
  • Normalizálás átskálázzuk, hogy egy adott kisebb
    tartományba essenek az értékek
  • min-max normalizálás
  • z-score normalizálás
  • Új attribútumok készítése
  • számított attribútumok jövedelemadókulcsadó

82
A normalizálások
  • Min-max normalizálás new_minA, new_maxA
  • Például 12,000, 98,000 intervallumot a 0.0,
    1.0-re képezzük.
  • Ekkor 73,000 képe
  • Z-score normalizálás (µ átlag, s szórás)
  • Például ha µ 54,000, s 16,000, akkor
  • Decimális normalizálás (Például 3422 helyett
    3000)

ahol j a legkisebb egész, melyre Max(?) lt 1
83
Adatok elofeldolgozása
  • Az adatok általános jellemzése
  • Az adatok alapveto statisztikai jellemzoi
  • Az adatok hasonlóságának mérése
  • Adattisztítás
  • Adatok integrálása, átalakítása
  • Adatredukció

84
Adatcsökkento stratégiák
  • Miért van szükség adatredukcióra?
  • Egy adatbázis adattárház sok terabájtos lehet
  • Ha a teljes adathalmaz elemeznénk, akkor az
    adatbányászó algoritmusok nagyon sokáig (napokig)
    is tarthatnának
  • Mit jelent az adatredukció Olyan kisebb méretu
    reprezentálását keressük az adatoknak, amelyek
    statisztikai viselkedése hasonló a teljes
    adathalmazra, és a redukált halmazon elvégzett
    elemzések eredménye hasonló, mint amilyet a
    teljes halmazra kapnánk
  • Stratégiák
  • Dimenziócsökkentés nem fontos attribútumok
    eldobása
  • A lehetséges értékek számának (Numerosity)
    csökkentése
  • adatkockák aggregációk
  • adattömörítés
  • regresszió
  • diszkretizálás és fogalmi hierarchiák használata

85
Dimenzócsökkentés
  • A dimenziók átka
  • ha no a dimenziószám, akkor egyre ritkábbak
    lesznek az adatok
  • ezáltal a suruségek, távolságok használata
    értelmetlenné válhat
  • exponenciális gyorsan no a részterek száma
  • Dimenziócsökkentés
  • elkerüljük a dimenziók átkát
  • a lényegtelen attribútumokat elhagyjuk, csökken a
    zaj
  • az adatbányászat ido és tárigénye kisebb lesz
  • könnyebben vizualizálható
  • Dimenziócsökkento technikák
  • Fokomponens analízis (Principal component
    analysis PCA)
  • Szingulárisérték-dekompozíció (Singular value
    decomposition SVD)
  • Felügyelt és nem lineáris technikák (például
    lényeges attribútumok keresésére - feature
    selection)

86
Fokomponens analízis Principal Component
Analysis (PCA)
  • Olyan ortonormált, kisebb dimenziójú
    koordinátarendszert keresünk, amely az adatok
    szórását a leheto legjobban magyarázza (ez egy
    optimalizálási feladat)
  • A koordinátarendszert a kovarianciamátrix
    sajátvektorai fogják megadni

87
Fokomponens analízis Principal Component
Analysis (PCA)
  • Ha az x1, x2 két dimenzió helyett csak y1
    dimenziót használjuk, akkor a hiba csak ?2-vel
    növekszik

88
A fokomponens analízis lépései
  • Adott N adatvektor (n-dimeziós), keressük azt a k
    n ortogonális vektort (fokomponenst), amelyek
    legjobban reprezentálják az adatokat
  • Normalizáljunk, hogy minden adat ugyanabba az
    intervallumba essen
  • Kiszámítjuk a k ortonormált sajátvektort, a
    fokomponenseket
  • Minden inputvektor a k fokomponens lineáris
    kombinációja
  • A fokomponenseket sajátértékek szerint csökkeno
    sorrendbe rendezzük
  • Elhagyjuk a túl kicsi sajátértéku
    fokomponenseket, mert ezek a szórásnak csak kis
    részét magyarázzák
  • Csak numerikus adatokra muködik

89
Lényeges attribútumhalmaz kiválasztása
  • Ez is csökkenti a dimenziók számát
  • Redundáns attribútumok
  • például az áru Ára és ÁFA értéke
  • Lényegtelen attribútumok
  • a feladat számára nem fontos, például leíró
    információt tartalmazó attribútumok
  • Ha a Adattárház jegyet akarjuk megbecsülni, akkor
    nem fontos, hogy a hallgatónak milyen
    nyelvvizsgája van

90
Heurisztikák a lényeges attribútumhalmaz
keresésére
  • Lehetséges halmazok száma 2d , ha az
    attribútumok száma d
  • Heurisztikák
  • Kiválasztjuk a legszignifikánsabb attribútumot
    (feltéve, hogy az attribútumok függetlenek)
  • Fentrol lefele Mindig a legszignifikánsabb
    attribútumot választjuk a maradékból
  • Lentrol felfele Mindig kidobjuk a legkevésbé
    szignifikáns attribútumot
  • Kombinálva
  • Visszalépést is megengedve

91
Új attribútumhalmaz kiválasztása
  • Az adatok fontos információit hatékonyabban
    akarjuk reprezentálni
  • Elhagyunk attribútumokat
  • csak az elemzéshez szükségeseket tartjuk meg
  • Új térbe transzformáljuk az adatokat (például
    adatredukció során)
  • például Fourier-transzformáció, wavelet
    transzformáció
  • Attribútum készítése
  • attribútumok kombinálása
  • diszkretizálás

92
Új térbe transzformálás
  • Fourier-transzformáció
  • Wavelet-transzformáció
  • Például a négyszögjel

2 szinuszhullám
Frekvencia
2 szinuszhullám Zaj
93
Számosság (Numerosity) csökkentése
  • Kevesebb értékkel akarjuk ugyanazt reprezentálni
  • Paraméteres módszerek (például regresszió)
  • Feltesszük, hogy az adatok valamilyen
    paraméterekkel leírható modell alapján
    keletkeznek, megbecsüljük a paramétereket, és az
    adatokat eldobhatjuk, kivéve a kiugró adatokat
  • Például Log-lineáris model az együttes
    eloszlást a hatások szorzataként tételezzük fel
  • Nem-paraméteres módszerek
  • Nem keresünk modellt
  • hisztogram, klaszterezés, mintavételezés

94
Regresszió
  • Lineáris regresszió egyenest illesztünk
  • Y w X b
  • Legkisebb négyzetek módszerével minimalizáljuk a
    hibát
  • Többváltozós regresszió az Y vektort több
    attribútumváltozó lineáris kombinációjaként (aX
    formában) keressük
  • Y b0 b1 X1 b2 X2.

95
Regresszió és Log-Lineáris modell
  • Log-lineáris modell diszkrét többdimenziós
    eloszlást approximálunk vele, például p(a, b, c,
    d) ?ab ?ac?ad ?bcd

96
Wavelet transzformáció
  • Diszkrét wavelet transzformáció (DWT) egyszeru
    függvények súlyozott összegeként közelítjük a
    függvényt, így elég a súlyok sorozatát ismerni
  • ilyen egyszeru függvények pl
  • Felhasználási terület lineáris jelfeldolgozás,
    multirezolúciós felbontások
  • Ezzel tömörebb formában approximálunk elég a
    súlyok közül a legerosebb komponensekhez
    tartozókat tárolni
  • A diszkrét Fourier-transzformációhoz hasonló, de
    annál jobb (veszteséges) tömörítést jelent

97
Wavelet transzformáció
  • Módszer
  • Legyen L hossz 2 hatvány
  • Minden transzformáció két függvénybol áll
  • simításból, és különbségbol
  • Rekurzívan alkalmazzuk, fele akkora adathalmazra

98
Wavelet transzformáció
  • Két dimenzióban és kétféle szurést (high, low)
    használva

99
DWT képtömörítés (jpeg, png)
  • Kép
  • Low Pass High Pass
  • Low Pass High Pass
  • Low Pass High Pass

100
Adatkockák és az aggregálás
  • Az adatkockák legkisebb egysége az alap kuboid
    (ebben szerepelnek az aggregált értékek)
  • ebben általában egyedek összesített adatai
    található
  • például ügyfele telefonhívásainak összesítése
    (száma, összes ido)
  • Az adatkockákban az összesítés több szintu lehet
  • Például városok szerint, hónapok szerint
  • Az ilyen további összesítések tovább csökkentik a
    vizsgálandó adatok méretét
  • Melyik összesítési szint lesz megfelelo?
  • ami a legkisebb méretu, de még elégséges a
    feladat megoldásához
  • Az olyan lekérdezéseket, amelyekben aggregálás
    szerepel, próbáljuk az adatkockák adataival
    kiszámolni.

101
Adattömörítés
  • Sztringek tömörítése
  • jól kidolgozott elméletek és hatékony
    algoritmusok léteznek erre
  • Általában veszteségmentesség is garantálható
  • Ahhoz, hogy muveleteket végezzünk vissza kell
    elobb állítni az eredetit
  • Kép, hang és film tömörítése
  • Általában veszteséges a tömörítés, fokozatos
    finomítás
  • Nehéz egy részt az egész visszaállítása nélkül
    eloállítani

102
Az adattömörítés sémája
Eredeti adatok
Tömörített adatok
Veszteségmentes
Az eredeti adatok közelítése
Veszteséges
103
A hisztogram is adatredukciónak tekintheto
  • Az adatokat kosarakba osztjuk és tároljuk a
    kosarak átlagát, az elemek összegét, stb.
    kosaranként
  • Partíciós szabályok a felosztásra
  • egyenlo széles intervallumok
  • egyenlo gyakoriságú intervallumok
  • V-optimális legkisebb a hisztogram szórás (a
    kosarakba eso elemek szórását megszorozzuk a
    kosarak elemszámával és összeadjuk)
  • MaxDiff rendezzük az elemeket és ott vágunk,
    ahol egymás mellett legnagyobbak (k-1 vágás) a
    különbség

1,1,4,5,5,7,9, 14,16,18, 27,30,30,32
104
A klaszterezés mint adatredukció
  • Az adatokat például hasonlóság alapján
    klaszterekbe osztjuk és az adatok helyett a
    klasztereket reprezentáló értékeket, például
    középpontjukat és átmérojüket tároljuk
  • Elég hatékony, ha az adatok nem egyenletes
    szétkentek a térben
  • A hierarchikus klaszterezés olyan, mint a
    többdimenziós indexfák (például R-fák)
  • Nagyon sokféle klaszterezo eljárás létezik,
    például különböznek abban, hogy konvex, konkáv,
    vagy tetszoleges alakú csoportokat ismernek fel.

105
A mintavételezés mint adatredukció
  • Az N elemu adathalmazt egy kisebb, s elemu
    mintával reprezentáljuk
  • Ha az adatbányászó algoritmus az adatok számában
    szublináris - o(n), akkor a mintán futtatva
    hatékonyabb a feldolgozás
  • Alapelv legyen a minta reprezentatív
  • Egy véletlen minta általában nem jó, ha nagyon
    eltér az eloszlás az egyenletestol
  • Többször veszünk mintát vagy egy-egy részbol
    különbözo valószínuséggel (többrétegu
    mintavételezés)
  • A minta nem biztos, hogy kevesebb
    adatbázisblokkban helyezkedik el, így nem biztos,
    hogy az I/O blokkmuveletek száma csökken

106
A mintavételezések típusai
  • Véletlen (egyenletes) mintavételezés
  • bármelyik elemet egyenlo valószínuséggel
    választunk ki
  • ez visszatevés nélküli mintavétel, azaz a
    kiválasztott objektumot eltávolítjuk a
    populációból
  • Visszatevéses mintavételezés
  • a kiválasztott objektumot nem távolítjuk el a
    populációból
  • Rétegzett mintavételezés
  • Az adatokat partíciókba osztjuk és minden
    partícióból arányosan sok mintát választunk,
  • például minden megyébol a megyék népességével
    arányos számú ember a megyék szerinti eloszlást
    jól tükrözi

107
Visszatevés nélküli vagy visszatevéses
mintavételezés
(visszatevés nélkül)
visszatevéssel
108
Klaszterezett (rétegzett) mintavétel
Rétegzett mintavétel
Az adatok klaszterei
109
A diszkretizálás mint adatredukció
  • Háromféle attribútum
  • Nominális elnevezések (sztringek) rendezés
    nélkül (színek, foglalkozások, stb)
  • Ordinális rendezheto, ragsorolható elnevezések,
    katonai rangok, beosztások
  • Folytonos végtelen számhalmaz (valós, egész)
  • Diszkretizálás
  • a folytonos attribútumok tartományát
    intervallumokra osztjuk
  • osztályozásoknál is szükség lehet rá, mivel egyes
    osztályozó módszerek csak nominális
    attribútumokra muködnek
  • csökken a méret a diszkretizálással

110
Diszkretizálás és fogalmi hierarchiák
  • Diszkretizálás
  • besoroljuk a folytonos attribútum értékeit
    intervallumokba
  • a megfelelo intervallum címkéjét használjuk az
    adatértékek helyett (csökken a különbözo értékek
    száma)
  • lehet felügyelt (supervised) vagy felügyelet
    nélküli (unsupervised)
  • lehet hasító (fentrol lefele) vagy összevonó
    (lentrol felfele)
  • A fogalmi hierarchiák
  • az adatok értékét (például a vásárlók korát)
    rekurzívan egyre magasabb szintu fogalommal
    helyettesítjük (például fiatal, középkorú, idos)

111
Diszkretizálás és fogalmi hierarchiák generálása
  • Tipikus módszerek (mindegyik rekurzívan is
    alkalmazható)
  • Kategórizálás (Binning)
  • Top-down módszer, felügyelet nélküli
  • Hisztogram alapú
  • Top-down módszer, felügyelet nélküli
  • Klaszterezés
  • vagy top-down vagy bottom-up módszer, felügyelet
    nélküli
  • Entrópia alapú diszkretizálás top-down módszer,
    felügyelt
  • Intervallumok egyesítése ?2 elemzéssel bottom-up
    módszer, felügyelet nélküli
  • Szegmentálás természetes partícionálással
    top-down módszer, felügyelet nélküli

112
Entrópia alapú diszkretizálás
  • Ha egy S halmazt S1 és S2 partícióra bontunk úgy,
    hogy T vágással, akkor a partícionálással kapott
    információ értéke
  • Az entrópia értéke a bizonytalanságot méri. Ha
    egy elem m osztály valamelyikébe eshet, akkor S1
    entrópiája
  • ahol pi annak a valószínusége, hogy egy véletlen
    S1-beli elem az i osztályba tartozik
  • Bináris diszkretizálás során azt a T-t
    választjuk, amelyre az I(S,T) minimális
  • A vágásokat egy megállási feltétel teljesüléséig
    folytatjuk rekurzívan
  • Az ilyen vágásokkal fokozatosan javítjuk az
    osztályozás pontosságát

113
Az entrópia néhány tulajdonsága
A bináris (Bernoulli) eloszlás entrópiafüggvénye
114
Az entrópia néhány tulajdonsága
115
Diszkretizálás osztálycímkékkel
  • Entrópia alapú (bináris vágás helyett k-részre)

3 - 3 kategória x és y értékekre
5 - 5 kategória x és y értékekre
116
Diszkretizálás osztálycímkék nélkül
Az adatok
egyenlo nagyságú intervallumok
Egyenlo gyakoriságú
K-átlag
117
Intervallumösszevonás ?2 elemzéssel
  • Összevonáson alapul
  • Összevonás a szomszédos intervallumok közül a
    legjobb párt összevonjuk egy nagyobb
    intervallumba majd rekurzívan folytatjuk
  • ChiMerge algoritmus
  • Kezdetben A numerikus értékei mind külön
    intervallumok
  • ?2 tesztet csinálunk minden szomszédos
    intervallumra
  • Amelyik párra legkisebb a ?2 érték, azt
    összevonjuk
  • A megállási feltétel lehet
  • szignifikancia szint
  • korlát a maximális intervallum hosszára

118
Szegmentálás heurisztikával
  • Egy egyszeru 3-4-5 szabállyal nagyjából egyforma
    intervallumokra szegmentálhatjuk az értékeket.
  • Ha 3, 6, 7 vagy 9 különbözo érték szerepel a
    legnagyobb helyi értékben, akkor 3 egyenlo (7
    esetén 2-3-2 arányú) intervallumra osztjuk az
    intervallumot
  • Ha 2, 4 vagy 8 különbözo érték szerepel a
    legnagyobb helyi értékben, akkor 4 egyenlo részre
    osztjuk az intervallumot
  • Ha 1, 5 vagy 10 különbözo értéke szerepel a
    legnagyobb helyi értékben, akkor 5 egyenlo részre
    osztjuk az intervallumot.

119
Példa a 3-4-5 szabályra
(-400 -5,000)
Step 4
120
Fogalmi hierarchia generálása
  • Szakértok, felhasználók adnak meg egy részben
    rendezést séma szinten az attribútumokon
  • utca lt város lt régió lt ország
  • Explicit adatcsoportosítással is megadhatunk
    hierarchiát
  • Budapest, Érd, Dabas lt Közép-Magyarország
  • Nem minden attribútum összehasonlítható
  • Automatikusan is generálható hierarchia a
    különbözo elemek számának vizsgálatával
  • utca, város, régió, ország
  • például város ?? utca többértéku függoség teljesül

121
Automatikus fogalmi hierarchia generálása
  • Az legyen a hierarchiában magasabban, aminek
    kevesebb különbözo értéke van

122
References
  • D. P. Ballou and G. K. Tayi. Enhancing data
    quality in data warehouse environments.
    Communications of ACM, 4273-78, 1999
  • W. Cleveland, Visualizing Data, Hobart Press,
    1993
  • T. Dasu and T. Johnson. Exploratory Data Mining
    and Data Cleaning. John Wiley, 2003
  • T. Dasu, T. Johnson, S. Muthukrishnan, V.
    Shkapenyuk. Mining Database Structure Or, How to
    Build a Data Quality Browser. SIGMOD02
  • U. Fayyad, G. Grinstein, and A. Wierse.
    Information Visualization in Data Mining and
    Knowledge Discovery, Morgan Kaufmann, 2001
  • H. V. Jagadish et al., Special Issue on Data
    Reduction Techniques. Bulletin of the Technical
    Committee on Data Engineering, 20(4), Dec. 1997
  • D. Pyle. Data Preparation for Data Mining. Morgan
    Kaufmann, 1999
  • E. Rahm and H. H. Do. Data Cleaning Problems and
    Current Approaches. IEEE Bulletin of the
    Technical Committee on Data Engineering. Vol.23,
    No.4
  • V. Raman and J. Hellerstein. Potters Wheel An
    Interactive Framework for Data Cleaning and
    Transformation, VLDB2001
  • T. Redman. Data Quality Management and
    Technology. Bantam Books, 1992
  • E. R. Tufte. The Visual Display of Quantitative
    Information, 2nd ed., Graphics Press, 2001
  • R. Wang, V. Storey, and C. Firth. A framework for
    analysis of data quality research. IEEE Trans.
    Knowledge and Data Engineering, 7623-640, 1995
Write a Comment
User Comments (0)
About PowerShow.com