Title: Az adatok
1Adatok elofeldolgozása
- Az adatok általános jellemzése
- Az adatok alapveto statisztikai jellemzoi
- Az adatok hasonlóságának mérése
- Adattisztítás
- Adatok integrálása, átalakítása
- Adatredukció
2Milyen típusú adathalmazokkal dolgozunk?
- Rekord
- Relációs adatbázis rekordjai
- Adatmátrixok, például numerikus mátrix, együttes
gyakoriságot megadó (crosstabs) mátrix - Dokumentumok szövegek, weboldalak kulcsszó-
(term) gyakorisági vektor - Tranzakciós adatok
- Gráfok
- Weboldalak gráfja (WWW)
- Közösségi hálók
- Molekulaszerkezetek
- Rendezett adatok
- Földrajzi adatok térképek
- Idosorok
- Szekvenciák vásárlási sorozatok
- Genetikus sorozatok
3A strukturált adatok legfontosabb jellemzoi
- Többdimenziós adatok
- Nagyon nagy lehet a dimenzió, akár több ezer is
(például dokumentum/kulcsszó mátrix) - Ezt hívják a dimenzió átkának (Curse of
dimensionality). - Oracle-ben csak 1000 oszlopos lehet egy tábla!
- Ritkaság
- Például a bitmap indexben nagyon sok a 0
- Felbontás
- A mintázat függhet a mértékegységtol, skálától
- Hasonlóság
- Valamilyen távolságmérték
4Az attribútumok típusa
- Szöveges (Nominal)
- foglalkozás, személyi azonosító, szemszín,
irányítószám - Rendezett (Ordinal)
- rangok (tisztek rangja, beosztási fokozatok),
osztályzatok, magasság magas, közepes, alacsony - Bináris
- orvosi teszt (pozitív vagy negatív)
- Intervallum (Interval) /- muveletek
értelmezhetok - dátum, elégedettségi mutató (1-10)
- Skálafüggo (Ratio), azaz az egységhez
arányosítjuk konstanssal szorzás értelmezheto - homérséklet Kelvin fokban, hossz centiméterben,
ido órában, darabszám
5Diszkrét vagy folytonos attribútumok
- Diszkrét attribútum
- Véges vagy megszámlálhatóan végtelen lehetséges
érték - irányítószám, foglalkozás, egy dokumentum szavai
- gyakran egész számokkal reprezentálják
- ilyen a bináris attribútum is
- Folytonos attribútum
- nem megszámlálható halmazból veheti fel az
értéket - valós számok homérséklet, magasság, súly
- valójában a valós számokat csak véges sok
számjeggyel ábrázoljuk - tipikusan lebegopontos változóval reprezentáljuk
6Adatok elofeldolgozása
- Az adatok általános jellemzése
- Az adatok alapveto statisztikai jellemzoi
- Az adatok hasonlóságának mérése
- Adattisztítás
- Adatok integrálása, átalakítása
- Adatredukció
7Leíró jellemzok eloállítása
- Motiváció
- Legyen egy gyors áttekintésünk az adatok
viselkedésérol, tendenciájáról,
elhelyezkedésérol, átlagokról, szóródásukról - Az adatok szóródására, eloszlására jellemzo
statisztikák - medián, max, min, kvantilisek (quantiles),
kiugrások (outliers), szórás (variance), etc. - Numerikus dimenziók rendezett számhalmazoknak
felelnek meg - az adatok szóródása függ a pontosság fokától,
azaz hány tizedesjeggyel reprezentáljuk az
adatokat - a minta jellemezheto a kvantiliseket ábrázoló
Boxplot diagrammal - Többdimenziós szóródás
- visszavezetjük a dimenziók szóródására
- a Boxplot diagramokat 3D-ben ábrázoljuk
(xi,yi,Boxplot(z))
8Mennyire központ körüliek az adatok?
- Átlag (Mean)
- súlyozott átlag
- levágott (Trimmed mean) átlag elhagyjuk a
legnagyobb, legkisebb értékeket - Medián (Median)
- A középso mintaelem, vagy a két középso mintaelem
átlaga, ha páratlan, illetve páros számú adat
van. ( 2. kvartilis) - A medián az a µ érték, ahol az eloszlásfüggvény
1/2 F(µ)1/2 - Módusz (Mode)
- A leggyakrabban eloforduló mintaelem vagy elemek
- több ilyen is lehet unimodális, bimodális.
trimodális
9 Szimmetrikus vagy ferde adatok
- A medián, átlag és módusz elhelyezkedése
szimmetrikus, pozitív és negatív ferdeségu adatok
esetén.
szimmetrikus
pozitív ferdeség
negatív ferdeség
10A szóródás jellemzése
- Kvartilisek (negyedelok), kiugró adatok és
boxplotok segítségével - Kvartilis Q1 (25-ik percentilis, azaz a minta
25-a kisebb ennél), Q3 (a 75-ik percentilis,
azaz a minta 75-a kisebb ennél) - Belso kvartilis terjedelem (Inter-quartile
range) IQR Q3 Q1 - 5-számos jellemzés (Five number summary) min,
Q1, M, Q3, max - Doboz diagram (Boxplot) a doboz a végei, illetve
a közepe a kvartilisek, a dobozon kívüli minták
közül a távoliak a kiugró adatok - Kiugró elem (Outlier) (1.5xIQR) Q3 nál
nagyobb, vagy Q1-(1.5xIQR) nél kisebb - Szórásnégyzet (Variance), szórás (standard
deviation) (minta s, populáció s) - Szórásnégyzet (Variance) (skálázható algebrai
formulával számolható ki) - Szórás (Standard deviation) a variancia
négyzetgyöke
11 Doboz (Boxplot) diagram
- Az eloszlásra jellemzo 5 érték
- Minimum, Q1, M, Q3, Maximum
- A doboz (Boxplot)
- A mintát a doboz reprezentálja
- A doboz magassága IQR
- A medián kettéosztja a dobozt
- Arra ferdül az eloszlás, amelyik féldoboz nagyobb
- A doboz karjai (Whiskers) két vonal a Minimumig,
illetve a Maximumig
12Doboz (Boxplot) diagram
13Doboz (Boxplot) diagram értelmezése
Harang alakú Egyenletes
Jobbra ferdül
143D Boxplot diagram
A Profit eloszlását jellemezzük rögzített
bevétel és költség esetén
15A normális eloszlás tulajdonságai
- A suruségfüggvény harang alakú
- Az adatok 68-a esik a µs, µs intervallumba,
- ahol µ a várható érték, s a szórás
- Az adatok 95-a esik a µ2s, µ2s intervallumba
- Az adatok 99.7-a esik a µ3s, µ3s
intervallumba
16További hasznos grafikus megjelenítések
- Boxplot 5 számmal jellemzi az eloszlást
- Hisztogram x az értékeknek, az y a
gyakoriságoknak felel meg - Kvantilis diagram (xi ,fi ) párok,
- ahol a minta 100xfi - a ? xi
- Kvantilis-kvantilis (q-q) diagram két eloszlás
kvantilis értékeit hasonlítja össze - Pontdiagram (Scatter plot) 2D-ben vagy 3D-ben
ponttal jelölünk minden mintaelemet - Regressziós görbe (Loess - local regression) egy
sima görbét illesztünk a pontdiagram adatpontjaira
17Hisztogram
- A doboz diagramnál jobban jellemzi az eloszlást
- Gyakorisági hisztogram
- Egydimenziós eloszláshoz használható
- A téglalap magassága az adott osztályba eso
minták számával egyenlo
18A hisztogram többet árul el az eloszlásról, mint
a doboz diagram
- A két eloszlás doboza megegyezik
- Mind az 5 nevezetes értékük ugyanaz min, Q1,
medián, Q3, max - Az egyik egy egycsúcsú eloszlás, a másik egy
kétcsúcsú eloszlás.
19Kvantilis diagram (Quantile Plot)
- Az összes adat megjelenítése helyett az
eloszlásfüggvényt közelítjük a tapasztalati
eloszlásfüggvénnyel. - A kvantilis diagram a tapasztalati
eloszlásfüggvény inverze, készítése elott
rendezzük az adatokat - (xi , fi ) azt jelenti, hogy az adatok 100fi-a
kisebb vagy egyenlo xi értékénél
20Kvantilis-Kvantilis (Q-Q) diagram
- Két eloszlásfüggvényt hasonlítunk össze úgy, hogy
a megegyezo kvantilis pároknak megfelelo pontokat
ábrázoljuk - Megegyezo eloszlás esetén a pontok az yx
tengelyen lesznek
(Q3,Q3)
(Q2,Q2)
(Q1,Q1)
21Pontdiagram (Scatter plot)
- Kétdimenziós adatokat vagy két dimenziós
vetületet ábrázoljuk - Az adatok viselkedését jól lehet látni, például
hol alakulnak ki csoportok, mi a tendencia, hol
vannak szélsoséges adatok
22Lokális regressziós görbe (Loess Curve)
- Egy sima (általában lineáris vagy kis fokú
polinom) görbét illesztünk a pontokra a
környezetük alapján - Két paraméterrel hangoljuk
- a simítási paraméter mondja meg, hogy mennyi ()
közeli pontot használjunk fel (speciális esete a
Mozgó Átlag) - a második paraméter a polinom foka
23Pozitív és negatív korreláció
a regressziós egyenes meredeksége negatív
a regressziós egyenes meredeksége pozitív
- Az adatok kettévághatók egy pozitívan és egy
negatívan korrelált ponthalmazra
24 Korrelálatlan adatok
25Vizualizációs módszerek
- Mit nyújt egy jó ábrázolás?
- Egyszeru grafikai elemekre (egyenes, kör, gömb,
kocka, stb.) képezik le az adatokat - Nagy adathalmazok jellemzoit kiemelik
- Könnyebben találhatunk mintákat, szabályosságot
vagy szabálytalanságot, trendet, összefüggéseket
az adatok között - megtalálhatjuk az adathalmaz lényeges részét,
ezáltal redukáljuk a feladatot kevesebb adatra - A kiszámított modellt ábrázolva látjuk, hogy
mennyire jó a modell, mennyire illeszkednek rá az
adatok - Tipikus módszerek
- Geometrikai technikák
- Ikonizált technikák
- Hierarchikus technikák
26Direkt adatvizualizáció
Az örvénylést megtekeredo szalagként ábrázoljuk
27Geometriai technikák
- Az adatokon geometriai transzformációt, vetítést
végzünk - Tipikus módszerek
- 3D-s tájképek
- Projekciók
- A többdimenziós adatoknak mely vetületei,
dimenzió a lényegesek? - Az összes kétdimenzió pontdiagramból mátrix
készítése - Metszet készítése
- Hiperszeletelés (Hyperslice) többdimenziós
függvények - vizualizációja a megfelelo kétváltozós
függvények ábrázolásával - Párhuzamos koordináták használata (Parallel
coordinates)
28Pontdiagram mátrix
Used by permission of M. Ward, Worcester
Polytechnic Institute
- A k-dimenziós adatokból C(k, 2) (k2 ? k)/2
pontdiagram készítheto
293D tájképek
Újságcikkek témák szerinti eloszlása
Used by permission of B. Wright, Visible
Decisions Inc.
- Az adatokat (mesterséges módon) 2D-ben
reprezentáljuk és például az együttes gyakoriság
lesz a pontok magassága - Az azonos magasságú szintek azonos színuek
30Párhuzamos koordináták (Parallel Coordinates)
- k párhuzamos egyenes felel meg a k attribútumnak
- Minden k-dimenziós pontot egy töröttvonallal
reprezentálunk az i-ik egyenesen az i-ik
koordinátát, ami az i-ik attribútumnak megfelelo
minimum, maximum tartományba esik - Ahány elemi a minta, annyi poligont kapunk
313 db (piros, kék, zöld) 3D adathalmaz ábrázolása
párhuzamos koordinátákkal
32Ikonizált technikák
- Az értékeket az ikonok valamilyen jellemzoje
fejezi ki - Tipikus módszerek
- Chernoff arcok
- Vonalrajzok (Stick Figures)
- Formák (Shape Coding)
- Színek
- Csempeoszlop (TileBars) Dokumentumok részeiben a
keresett szó hányszor fordul elo
33Chernoff arcok
- Több dimenziót tudunk 2D-ben ábrázolni, például x
legyen a szemöldök meredeksége, y a szem
nagysága, z az orr hossza, stb. - Az ábrán 10 jellemzos arcokat látunk
34Vonalrajzok (Stick Figures)
Népszámlálási adatok a nem és az iskolázottság
eloszlása a kor és jövedelem függvényében
used by permission of G. Grinstein, University of
Massachusettes at Lowell
35Csempeoszlop (TileBars)
36Hierarchikus technikák
- A teret hierachikus partíciókra osztjuk fel.
- Tipikus módszerek
- Dimenzió beágyazása (Dimensional Stacking)
- Világ a világban (Worlds-within-Worlds)
- Fatérkép (Treemap)
- Kúpfák (Cone Trees)
- Infokocka (InfoCube)
37Dimenziók beágyazása(Dimensional Stacking)
- Az n-dimenziós teret 2D részterekre
particionáljuk, és ezeket egymásba ágyazzuk - Minél beljebb van 2 attribútum, annál kevésbé
lényegesek (az elso attribútum a legfontosabb) - Alacsony számosságú rendezett (ordinal)
attribútumokra használható
38Dimenziók beágyazása
Used by permission of M. Ward, Worcester
Polytechnic Institute
A földrajzi koordinátákon (x,y) belül a
kibányászott érc vastartalma (z) és amilyen
mélyrol felhozták (w).
39Fatérkép (Tree-Map)
- A teret felbontjuk tartományokra a kiválasztott
attribútum alapján - A tartomány nagysága az attribútum értékét fejezi
ki - A tartományt tovább bontjuk egy másik attribútum
alapján. - Színekkel a felbontásban nem szereplo
attribútumok értékét fejezhetjük ki.
MSR Netscan Image
40Egy fájlrendszer fatérképe
41Adatok elofeldolgozása
- Az adatok általános jellemzése
- Az adatok alapveto statisztikai jellemzoi
- Az adatok hasonlóságának mérése
- Adattisztítás
- Adatok integrálása, átalakítása
- Adatredukció
42Hasonlóság (Similarity) és különbözoség
(Dissimilarity)
- Hasonlóság
- egy szám, ami megmondja mennyire hasonló a két
objektum - minél nagyobb, annál jobban hasonlóak
- a hasonlósági mérték általában 0,1-beli szám
- Különbözoség (eltérés, távolság)
- mennyire különbözo a két objektum
- minél nagyobb, annál jobban eltérnek
- általában 0 jelenti, hogy teljesen hasonlók
- felso korlát nem mindig van
- Közelségen (Proximity) hasonlóságot vagy
különbözoséget értünk
43Adatmátrix és különbözoségi mátrix
- Adatmátrix
- n darab p dimenziós objektum
- n x p
- Különbözoségi mátrix
- minden objektumpár különbözosége szerepel benne
- háromszög mátrix
- n x n
44Példa távolság mátrixra
Data Matrix
Távolság (különbözoség) mátrix Euklideszi
távolság esetén
45Minkowski-távolság
- Minkowski távolság
- ahol i (xi1, xi2, , xip) és j (xj1, xj2, ,
xjp) két p-dimenziós objektum, q a távolság
rendje. - Távolság szokásos tulajdonságai
- d(i, j) gt 0 ha i ? j, és d(i, i) 0 (Potitív
definit) - d(i, j) d(j, i) (Szimmetria)
- d(i, j) ? d(i, k) d(k, j) (Háromszög-egyenlotle
nség) - Ha a távolság kielégíti mindhármat, akkot metrika.
46A Minkowski-távolság speciális esetei
- q 1 Manhattan-távolság (L1 norma)
- például Hamming-távolság eltéro bitek száma
- q 2 (L2 norma) Euklideszi-távolság
- q ? ?. szuprémum-távolság (Lmax norma, L?
norma). - A komponensek maximális eltérése
- Súlyozott összeg is használható, ha nem egyformán
fontosak a dimenziók
47Példa Minkowski-távolságra
Távolság mátrix
48Intervallum típusú változók
- Standardizáljuk az adatokat
- Az f-ik komponensben kiszámoljuk az átlagos
abszolút eltérést - ahol
- Kiszámítjuk az i-ik objektum standardizált
z-értékét (z-score). - Az abszolút eltérés kevésbé érzékeny a kiugró
értékekre, mint a szórás - A standardizált objektumoknak vesszük a
Minkowski-távolságát
49Bináris változók
- Kontingencia-táblával
- jellemezzük az együttes eloszlást
- Szimmetrikus bináris változók távolsága
- Aszimmetrikus bináris változók távolsága
- Jaccard-együttható (hasonlósági mérték
aszimetrikus bináris változókra)
- A Jaccard-együttható ugyanazt adja, mint a
koherencia
50Bináris változók eltérése
- (név,nem,lázas,köhög,teszt1,teszt2,teszt3)
- a nem szimmetrikus (egyformán fontos, hogy férfi
vagy no) - a többi változó aszimmetrikus
- Kódoljuk Y és P értéket 1-gyel, N értéket 0-val
51Szöveges (Nominal) változók
- A bináris általánosítása, például felveheto
értékek piros, sárga, kék, zöld (4 érték) - 2. módszer Egyszeru egyezés
- m az egyezések száma, p a változók száma
- 2. módszer bittérkép index készítésével
visszavezetjük bináris változókra - minden felveheto értéknek egy bináris változót
feleltetünk meg
52Rendezett (Ordinal) változók
- Lehet diszkrét vagy folytonos is
- Nem az érték, hanem a sorrend számít, például
rangfokozat - Visszavezetjük intervallum típusúra
- xif helyett a rendezés szerinti sorszámát
vesszük - normáljuk, hogy a rangok 0, 1-be essenek
- az így kapott intervallum változók eltérését
vesszük
53Skálafüggo (Ratio-Scaled) változók
- Skálafüggo (Ratio-scaled) nem lináris a skála,
például exponenciális ( Ae Bt vagy Ae -Bt ) - Módszerek
- intervallum típusnak tekintve nem jó (a skála
torzít) - logaritmikus transzformációval visszavezetjük
lineáris skálára - yif log(xif)
- folytonos rendezett adatoknak tekintjük oket,
ahol a rang intervallum típusú
54Kevert típusú változók
- 6 féle típust határoztunk meg
- szimmetrikus bináris, aszimmetrikus bináris,
nominális, ordinális, intervallum és skálafüggo - A megfelelo típusok eltérésének súlyozott összege
- f bináris vagy nominális
- dij(f) 0 ha xif xjf , dij(f) 1 különben
- f intervallum típusú normalizált távolság
- f ordinális vagy skálafüggo
- vegyük az rif rangot
- a zif értéket intervallum típusúnak tekintjük
55Vektorokra értelmezett koszinusz hasonlóság
- Vektor objektumok dokumentumok kulcsszavai,
géntulajdonságok egy génchip esetén - Alkalmazási terület információ keresés
(information retrieval), biológia - d1 és d2 vektorok esetén
- cos(d1, d2) (d1 ? d2) /d1
d2 , - ahol ? a skalárszorzat, d a d hossza
- Például
- d1 3 2 0 5 0 0 0 2 0 0
- d2 1 0 0 0 0 0 0 1 0 2
- d1?d2 31200050000000210002
5 - d1 (33220055000000220000)0
.5(42)0.5 6.481 - d2 (11000000000000110022)
0.5(6) 0.5 2.245 - cos( d1, d2 ) .3150
56Adatok elofeldolgozása
- Az adatok általános jellemzése
- Az adatok alapveto statisztikai jellemzoi
- Az adatok hasonlóságának mérése
- Adattisztítás
- Adatok integrálása, átalakítása
- Adatredukció
57Az elofeldolgozás fo feladatai
- Adatok tisztítása
- Hiányzó értékek pótlása, hibás, zajos értékek
kijavítása (simítása), kiugró esetek keresése
eltávolítása, inkonzisztenciák feloldása - Adatok integrálása
- Több adatbázis, adatkocka, fájl adatainak közös
sémába töltjük - Adatok transzformálása
- Szükség esetén normalizálása, összesítése
- Adatok redukálása (mintavételezés)
- Olyan kisebb mintát keresünk, amely a teljes
populációs statisztikai tulajdonságait magán
hordozza - Diszkretizálunk folytonos függvény helyett
néhány helyen felvett értékét tekintjük vagy
számokat osztályokba sorolunk
58Az adattisztítás
- Rossz adatokból jó eredményt nem lehet kapni!
- Jó döntést csak jó adatok alapján lehet hozni
- a hiányzó, vagy duplán tárolt adatok hibás,
félrevezeto statisztikákat okozhatnak - Az adattárház építésének elso számú feladata az
adattisztítás - Az adattárház építés részei (ETL)
- az adatok összegyujtése az adatforrásokból (data
Extraction) - az adatok tisztítása és transzformálása (cleaning
and Transform) - a transzformált adatok betöltése az adattárházba
(Load) - Az adattisztítás feladatai
- hiányzó értékek kitöltése
- kiugró esetek összegyujtése, zajos adatok
simítása, - inkonzisztenciát okozó hibák javítása
- az integrációból adódó többszörös elofordulások
eltávolítása
59Milyen a piszkos adat?
- Nem teljes hiányoznak attribútumok, értékek vagy
csak összesített adatok állnak rendelkezésre - foglalkozás "" (hiányzó adat)
- zajos zajos, hibás, vagy kiugró értéket
tartalmaz - fizetés-10 (hibás érték)
- inkonzisztens összefüggéseket megsérti,
ellentmondásos a kódolása, névhasználat, - Kor42 de születés2000.01.01.
- Egyik helyen az osztályzat 1,2,3 másik helyen A,
B, C - ellenmondásosak a duplázott rekordok
60Miért keletkeznek piszkos adatok?
- Honnan származnak a nem teljes adatok?
- Az adatgyujtéskor kimarad, például eltéro
adattípusok miatt - Más volt az elképzelés az adatgyujtéskor, mint a
késobbi adatelemzéskor, hiányoznak az elemzéshez
szükséges adatok. - Emberi/hardver/szoftver problémák
- Honnan jöhetnek zajos, hibás adatok?
- Hibás az adatgyujto méroeszköt
- Az adatbevitel során emberi vagy szoftveres hibák
- Adatátvitel közben sérülnek az adatok
- Mitol lesznek inkonzisztens adataink?
- Különbözo adatforrásokból jönnek az adatok
- Megsérthetünk például funkcionális függoségeket
(ha módosítás során nincs ellenorzés) - A megegyezo rekordokból csak egyet akarunk
megtartani
61Az adatminoséget több szempont alapján mérhetjük
(többdimenziós mérték)
- A legfontosabb mértékek
- Pontosság (Accuracy) - például méroeszközöbol
származó adatok hány jegyre pontosak - Teljesség (Completeness) például nullértékek
száma - Konzisztencia (Consistency) megsértett
szabályok száma, vagy legbovebb konzisztens
részhalmaz mérete - Idoszeruség (Timeliness) mennyire frissek az
adatok (legjobb lenne az online) - Hihetoség (Believability) mennyire bízunk mi,
vagy szakértok (0,1) a bevitt adatokban
62Az adatminoséget több szempont alapján mérhetjük
(többdimenziós mérték)
- További mértékek
- Hozzáadott érték (Value added) például az értékek
alapján kap egy jelzot, hogy átlagos, átlagon
felüli vagy aluli - Értelmezhetoség (Interpretability)
- Elérhetoség (Accessibility)
- Az adatminoség
- szoftverekkel mérheto
63Hiányzó adatok
- Nem mindig adják meg az összes adatot
- Például a vásárlók jövedelmét, vagy a gmail-es
felhasználók telefonszámát nem töltik ki - Miért van hiányzó adat
- Hibás a méromuszer
- Törölték a nem konzisztens adatokat
- nem volt kötelezoen kitöltendo
- adatgyujtéskor még nem tudtuk, hogy fontos lesz
késobb - az adatváltozás nem volt naplózva, elvesztek a
régi értékek - Mi van, ha mégis szükségünk lenne arra, hogy
milyen érték hiányzik valójában?
64Mit kezdjünk a hiányzó értékekkel?
- Eldobjuk a teljes rekordot például
osztályozáskor pont az osztálycímke hiányzik
nem jó megoldás, ha attrbútumonként más a
nullértékek hányada, és túl sok rekordot érint - Kézzel kitöltjük a hiányzó értékeket idoigényes
nincs erre eroforrás - Automatikusan töltjük ki, de hogyan?
- bevezetünk egy Ismeretlen globális konstanst,
ezzel egy új osztály is keletkezhet! - Az attribútum átlagával, várható értékével
pótoljuk - Csak az ugyanabba az osztályba eso mintának az
átlagát vesszük ez már okosabb - A legvalószínubb értéket vesszük amit döntési
fával, vagy Bayes-képlettel következtetünk ki
65Zajos adatok
- Zaj a mért változóra vonatkozó véletlen hiba
vagy szóródás - Mitol pontatlan egy attribútumérték?
- hibás az adatgeneráló berendezés
- adatbevitelkor rossz adat került be
- adatátvitelkor sérült az adat
- technológiai hiányosság (nem is lehet pontosabban
mérni) - elnevezési inkonzisztencia (a hossz nevu
változóról nem tudjuk, hogy méterben vagy lábban
kell megadni az értéket) - További adattisztítást igénylo adatproblémák
- dupla rekordok
- nem teljes rekordok
- inkonzisztens adatok
66Mit kezdjünk a zajos adatokkal?
- Kategorizálás (Binning) például intervallumokra
osztás - az adatokat (például egyenlo gyakoriságú)
partíciókba (bin) soroljuk - a partícióba tartozó értékek helyett vehetjük a
partíció átlagát, mediánját, valamelyik
végpontját, ezzel simítjuk az adatokat - Regresszió
- egy sima regressziós függvényt illesztünk az
adatokra - Klaszterezés (Clustering)
- a hasonló (közeli) objektumokat klaszterekbe
soroljuk - a kiugró értékeket (kis elemszámú vagy mindentol
távoli klasztereket) eldobjuk - Kiugró adatok detektálása félautomata módon
- lehetséges, gyanús értékek keresése
algoritmussal, és átadása a felhasználónak, hogy
o döntsön
67Diszkretizálás, kategórizálás (Binning)
- Egyenlo széles particionálás
- A tartományt N egyenlo hosszú intervallumra
osztjuk egyenletes rácsfelosztás - Ha az attribútum értékek maximuma A, minimuma B,
akkor az intervallumok hossza W (B A)/N. - Egyszeru, de a szélsoséges adatokra érzékeny (sok
üres intervallum lesz) - A torzított, hibás adatokra is érzékeny
- Egyenlo gyakoriságú particionálás
- A tartományt N intervallumra osztjuk úgy, hogy
mindegyikbe ugyanannyi minta jusson - jól skálázható
- számokra egyszeru, de kategóriaváltozókra
trükközni kell, számokkal kódolhatunk, de
vigyázni kell, közeli számok nem biztos, hogy
közeli kategóriát jelentenek
68Adatsimítás kategorizálással (Binning)
- Az árak rendezve (dollárban) 4, 8, 9, 15, 21,
21, 24, 25, 26, 28, 29, 34 - Egyenlo gyakoriságú intervallumok
- - Bin 1 4, 8, 9, 15
- - Bin 2 21, 21, 24, 25
- - Bin 3 26, 28, 29, 34
- Simítás az átlaggal
- - Bin 1 9, 9, 9, 9
- - Bin 2 23, 23, 23, 23
- - Bin 3 29, 29, 29, 29
- Simítás a végpontokkal (amelyikhez közelebb
van) - - Bin 1 4, 4, 4, 15
- - Bin 2 21, 21, 25, 25
- - Bin 3 26, 26, 26, 34
69Regresszió
- Az együtthatók becslésére alkalmazott eljárások
- a legkisebb négyzetek módszere (Ordinary Least
Squares, OLS) - Minimalizáljuk a hibák
négyzetének összegét - az általánosított legkisebb négyzetek módszere
(Generalized Least Squares , GLS) - az általánosított momentumok módszere
(Generalized Method of Moments, GMM) - a legnagyobb valószínuség módszere (Maximum
Likelihood Estimation, ML)
70Lineáris regresszió
- Az optimalizálandó függvény
- a és b szerint deriválva
- Kifejezve b-t és a-t
71Klaszterezés
- Csoportok képzése távolságok alapján (jövedelem,
kor, gyakori látogató) kiugró értékek, amelyek
egyelemu csoportok
72Az adattisztítás mint folyamat
- Észre kell venni a szokatlan adatokat
- Használjunk metaadatokat, leírókat (tartomány,
értékkészlet, függoségek, eloszlások), amivel
összehasonlíthatók a minták - Ellenorizzük a többértéku mezoket (field
overloading) - Ellenorizzük a szabályokat (egyediség, egymás
utániság, nullértékek tiltása) - Használjunk kész rendszereket, szótárakat
- Adatfehérítés (Data scrubbing) szakértoi
tudásbázisok bevetése (irányítószámok,
helyesírási szótárak) - Adatellenorzés (Data auditing) adatelemzéssel
keressük meg a kapcsolatokat, szabályokat és az
azokat megsérto eseteket (például klaszterezünk,
korrelációkat számolunk) - Az adatok betöltése, egyesítése (migrálása és
integrálása) - Migráló eszközök betöltés elott/után
transzformálhatunk is - ETL (Extraction/Transformation/Loading) eszközök
az adatgyujto, transzformáló, betölto folyamatot
grafikus felületen tervezhetjük meg, hajthatjuk
végre - Az elobbi két folyamatot általában ugyanazzal az
eszközzel hajthatjuk végre - a folyamat lehet egyaránt iteratív és interaktív
is
73Adatok elofeldolgozása
- Az adatok általános jellemzése
- Az adatok alapveto statisztikai jellemzoi
- Az adatok hasonlóságának mérése
- Adattisztítás
- Adatok integrálása, átalakítása
- Adatredukció
74Adatintegráció
- Mikor kell egyesíteni az adatokat
- több adatforrásból származó adatokat akarunk
egyesítve tárolni - Közös séma tervezése A.cust-id ? B.cust-
- ugyanazt a mezot másképpen neveztük a két
táblában - Egyedazonosítási probléma (Entity identification
problem) - Két adatforrásban reprezentált egyedek valójában
ugyanazt a valóságos egyedet reprezentálják csak
másképpen, például, Bill Clinton William
Clinton - Az észlelt adatkonfliktusokat fel kell oldani
(resolution) - Miért reprezentáljuk másképp, más
attribútumértékekkel ugyanazt az egyedet? - Például a mértékegység más, vagy egy térbeli
adatot más koordinátarendszerben
(polárkoordinátákkal) adunk meg
75Hogy kezeljük azt a redundanciát, amit az
adategyesítés okoz?
- Egyesítéskor gyakran többszörös példányok,
attribútumok keletkeznek - Azonos objektumok ugyanazt az attribútumot vagy
objektumot másképp neveztünk el a két
adatbázisban - Származtatott adatok egyik helyen megadjuk
(T1.Adó), a másik helyen kiszámoljuk (T2.Adó)
ugyanazt az értéket - A redundáns attribútumokat korrelációanalízissel
lehet felderíteni - Ha csökkentjük vagy elkerüljük a redundanciát,
akkor jöbb minoségu lesz az adatbányászat
eredménye és ráadásul gyorsabb is.
76Korrelációanalízis (Numerikus adatokon)
- Korrelációs együttható (Pearsons együttható)
kovariancia osztva a szórások szorzatával - A mintából becsülhetjük
- a korrelációs együtthatót
- Ugyanez kifejezheto a mintára vonatkozó z-érték,
az átlag és a szórás segítségével is - Minél nagyobb az r abszolút értéke, annál jobban
korreláltak. - Ha r gt 0, akkor a két változó pozitívan
korrelált, azaz egyszerre no vagy csökken az
értékük. - Ha r 0, akkor linárisan függetlenek.
- Ha r lt 0, akkor a két változó negatívan
korrelált, azaz egymáshoz képest ellentétesen no
vagy csökken az értékük.
77A korreláció lineáris kapcsolatot mér!
- Ha a korrelációs 0, attól még nem biztos, hogy
függetlenek (kivéve, ha normális eloszlásúak a
változók.) - Korrelálatlan, de nem független diszkrét változók
78Korreláció megfigyelése a pontdiagramon
A korrelációs együttható -1 és 1 között.
79Korrelációanalízis (kategórikus adatok esetén)
- ?2 (chi-square) teszt a megfigyelt és várható
(elméleti függetlenség alapján számolt)
gyakoriságok alapján - A statisztika szabadságfoka (n-1)(m-1), ahol n,m
a felveheto kategóriák száma - Minél nagyobb a ?2 értéke, annál szorosabb a két
változó kapcsolata - A korrelációs nem jelent okozati kapcsolatot
- a kórházak száma és az ellopott kocsi száma
általában erosen korrelált - magyarázat mindketto a lakosság számával
korrelált
80Egy példa
- ?2 statisztika értéke
- Ez eros korrelációt jelent.
Sakkozik Nem sakkozik Sorösszeg
Bridzzsel 250(90) 200(360) 450
Nem bridzzsel 50(210) 1000(840) 1050
Oszlopösszeg 300 1200 1500
81Adattranszformálás
- Az attribútum régi értékeit egy függvény alapján
újakra cseréljük - Különbözo módszerek
- Simítás az ugrálásokat, zajokat eltávolítjuk az
adatokból - Aggregálás Összesítünk, adatkockákat készítünk
- Általánosítás Fogalmi hierarchiában egy magasabb
szinttel helyettesítünk - Normalizálás átskálázzuk, hogy egy adott kisebb
tartományba essenek az értékek - min-max normalizálás
- z-score normalizálás
- Új attribútumok készítése
- számított attribútumok jövedelemadókulcsadó
82A normalizálások
- Min-max normalizálás new_minA, new_maxA
- Például 12,000, 98,000 intervallumot a 0.0,
1.0-re képezzük. - Ekkor 73,000 képe
- Z-score normalizálás (µ átlag, s szórás)
- Például ha µ 54,000, s 16,000, akkor
- Decimális normalizálás (Például 3422 helyett
3000)
ahol j a legkisebb egész, melyre Max(?) lt 1
83Adatok elofeldolgozása
- Az adatok általános jellemzése
- Az adatok alapveto statisztikai jellemzoi
- Az adatok hasonlóságának mérése
- Adattisztítás
- Adatok integrálása, átalakítása
- Adatredukció
84Adatcsökkento stratégiák
- Miért van szükség adatredukcióra?
- Egy adatbázis adattárház sok terabájtos lehet
- Ha a teljes adathalmaz elemeznénk, akkor az
adatbányászó algoritmusok nagyon sokáig (napokig)
is tarthatnának - Mit jelent az adatredukció Olyan kisebb méretu
reprezentálását keressük az adatoknak, amelyek
statisztikai viselkedése hasonló a teljes
adathalmazra, és a redukált halmazon elvégzett
elemzések eredménye hasonló, mint amilyet a
teljes halmazra kapnánk - Stratégiák
- Dimenziócsökkentés nem fontos attribútumok
eldobása - A lehetséges értékek számának (Numerosity)
csökkentése - adatkockák aggregációk
- adattömörítés
- regresszió
- diszkretizálás és fogalmi hierarchiák használata
85Dimenzócsökkentés
- A dimenziók átka
- ha no a dimenziószám, akkor egyre ritkábbak
lesznek az adatok - ezáltal a suruségek, távolságok használata
értelmetlenné válhat - exponenciális gyorsan no a részterek száma
- Dimenziócsökkentés
- elkerüljük a dimenziók átkát
- a lényegtelen attribútumokat elhagyjuk, csökken a
zaj - az adatbányászat ido és tárigénye kisebb lesz
- könnyebben vizualizálható
- Dimenziócsökkento technikák
- Fokomponens analízis (Principal component
analysis PCA) - Szingulárisérték-dekompozíció (Singular value
decomposition SVD) - Felügyelt és nem lineáris technikák (például
lényeges attribútumok keresésére - feature
selection)
86Fokomponens analízis Principal Component
Analysis (PCA)
- Olyan ortonormált, kisebb dimenziójú
koordinátarendszert keresünk, amely az adatok
szórását a leheto legjobban magyarázza (ez egy
optimalizálási feladat) - A koordinátarendszert a kovarianciamátrix
sajátvektorai fogják megadni
87Fokomponens analízis Principal Component
Analysis (PCA)
- Ha az x1, x2 két dimenzió helyett csak y1
dimenziót használjuk, akkor a hiba csak ?2-vel
növekszik
88A fokomponens analízis lépései
- Adott N adatvektor (n-dimeziós), keressük azt a k
n ortogonális vektort (fokomponenst), amelyek
legjobban reprezentálják az adatokat - Normalizáljunk, hogy minden adat ugyanabba az
intervallumba essen - Kiszámítjuk a k ortonormált sajátvektort, a
fokomponenseket - Minden inputvektor a k fokomponens lineáris
kombinációja - A fokomponenseket sajátértékek szerint csökkeno
sorrendbe rendezzük - Elhagyjuk a túl kicsi sajátértéku
fokomponenseket, mert ezek a szórásnak csak kis
részét magyarázzák - Csak numerikus adatokra muködik
89Lényeges attribútumhalmaz kiválasztása
- Ez is csökkenti a dimenziók számát
- Redundáns attribútumok
- például az áru Ára és ÁFA értéke
- Lényegtelen attribútumok
- a feladat számára nem fontos, például leíró
információt tartalmazó attribútumok - Ha a Adattárház jegyet akarjuk megbecsülni, akkor
nem fontos, hogy a hallgatónak milyen
nyelvvizsgája van
90Heurisztikák a lényeges attribútumhalmaz
keresésére
- Lehetséges halmazok száma 2d , ha az
attribútumok száma d - Heurisztikák
- Kiválasztjuk a legszignifikánsabb attribútumot
(feltéve, hogy az attribútumok függetlenek) - Fentrol lefele Mindig a legszignifikánsabb
attribútumot választjuk a maradékból - Lentrol felfele Mindig kidobjuk a legkevésbé
szignifikáns attribútumot - Kombinálva
- Visszalépést is megengedve
91Új attribútumhalmaz kiválasztása
- Az adatok fontos információit hatékonyabban
akarjuk reprezentálni - Elhagyunk attribútumokat
- csak az elemzéshez szükségeseket tartjuk meg
- Új térbe transzformáljuk az adatokat (például
adatredukció során) - például Fourier-transzformáció, wavelet
transzformáció - Attribútum készítése
- attribútumok kombinálása
- diszkretizálás
92Új térbe transzformálás
- Fourier-transzformáció
- Wavelet-transzformáció
- Például a négyszögjel
2 szinuszhullám
Frekvencia
2 szinuszhullám Zaj
93Számosság (Numerosity) csökkentése
- Kevesebb értékkel akarjuk ugyanazt reprezentálni
- Paraméteres módszerek (például regresszió)
- Feltesszük, hogy az adatok valamilyen
paraméterekkel leírható modell alapján
keletkeznek, megbecsüljük a paramétereket, és az
adatokat eldobhatjuk, kivéve a kiugró adatokat - Például Log-lineáris model az együttes
eloszlást a hatások szorzataként tételezzük fel - Nem-paraméteres módszerek
- Nem keresünk modellt
- hisztogram, klaszterezés, mintavételezés
94Regresszió
- Lineáris regresszió egyenest illesztünk
- Y w X b
- Legkisebb négyzetek módszerével minimalizáljuk a
hibát - Többváltozós regresszió az Y vektort több
attribútumváltozó lineáris kombinációjaként (aX
formában) keressük - Y b0 b1 X1 b2 X2.
95Regresszió és Log-Lineáris modell
- Log-lineáris modell diszkrét többdimenziós
eloszlást approximálunk vele, például p(a, b, c,
d) ?ab ?ac?ad ?bcd
96Wavelet transzformáció
- Diszkrét wavelet transzformáció (DWT) egyszeru
függvények súlyozott összegeként közelítjük a
függvényt, így elég a súlyok sorozatát ismerni - ilyen egyszeru függvények pl
- Felhasználási terület lineáris jelfeldolgozás,
multirezolúciós felbontások - Ezzel tömörebb formában approximálunk elég a
súlyok közül a legerosebb komponensekhez
tartozókat tárolni - A diszkrét Fourier-transzformációhoz hasonló, de
annál jobb (veszteséges) tömörítést jelent
97Wavelet transzformáció
- Módszer
- Legyen L hossz 2 hatvány
- Minden transzformáció két függvénybol áll
- simításból, és különbségbol
- Rekurzívan alkalmazzuk, fele akkora adathalmazra
98Wavelet transzformáció
- Két dimenzióban és kétféle szurést (high, low)
használva
99DWT képtömörítés (jpeg, png)
- Kép
- Low Pass High Pass
- Low Pass High Pass
- Low Pass High Pass
100Adatkockák és az aggregálás
- Az adatkockák legkisebb egysége az alap kuboid
(ebben szerepelnek az aggregált értékek) - ebben általában egyedek összesített adatai
található - például ügyfele telefonhívásainak összesítése
(száma, összes ido) - Az adatkockákban az összesítés több szintu lehet
- Például városok szerint, hónapok szerint
- Az ilyen további összesítések tovább csökkentik a
vizsgálandó adatok méretét - Melyik összesítési szint lesz megfelelo?
- ami a legkisebb méretu, de még elégséges a
feladat megoldásához - Az olyan lekérdezéseket, amelyekben aggregálás
szerepel, próbáljuk az adatkockák adataival
kiszámolni.
101Adattömörítés
- Sztringek tömörítése
- jól kidolgozott elméletek és hatékony
algoritmusok léteznek erre - Általában veszteségmentesség is garantálható
- Ahhoz, hogy muveleteket végezzünk vissza kell
elobb állítni az eredetit - Kép, hang és film tömörítése
- Általában veszteséges a tömörítés, fokozatos
finomítás - Nehéz egy részt az egész visszaállítása nélkül
eloállítani
102Az adattömörítés sémája
Eredeti adatok
Tömörített adatok
Veszteségmentes
Az eredeti adatok közelítése
Veszteséges
103A hisztogram is adatredukciónak tekintheto
- Az adatokat kosarakba osztjuk és tároljuk a
kosarak átlagát, az elemek összegét, stb.
kosaranként - Partíciós szabályok a felosztásra
- egyenlo széles intervallumok
- egyenlo gyakoriságú intervallumok
- V-optimális legkisebb a hisztogram szórás (a
kosarakba eso elemek szórását megszorozzuk a
kosarak elemszámával és összeadjuk) - MaxDiff rendezzük az elemeket és ott vágunk,
ahol egymás mellett legnagyobbak (k-1 vágás) a
különbség
1,1,4,5,5,7,9, 14,16,18, 27,30,30,32
104A klaszterezés mint adatredukció
- Az adatokat például hasonlóság alapján
klaszterekbe osztjuk és az adatok helyett a
klasztereket reprezentáló értékeket, például
középpontjukat és átmérojüket tároljuk - Elég hatékony, ha az adatok nem egyenletes
szétkentek a térben - A hierarchikus klaszterezés olyan, mint a
többdimenziós indexfák (például R-fák)
- Nagyon sokféle klaszterezo eljárás létezik,
például különböznek abban, hogy konvex, konkáv,
vagy tetszoleges alakú csoportokat ismernek fel.
105A mintavételezés mint adatredukció
- Az N elemu adathalmazt egy kisebb, s elemu
mintával reprezentáljuk - Ha az adatbányászó algoritmus az adatok számában
szublináris - o(n), akkor a mintán futtatva
hatékonyabb a feldolgozás - Alapelv legyen a minta reprezentatív
- Egy véletlen minta általában nem jó, ha nagyon
eltér az eloszlás az egyenletestol - Többször veszünk mintát vagy egy-egy részbol
különbözo valószínuséggel (többrétegu
mintavételezés) - A minta nem biztos, hogy kevesebb
adatbázisblokkban helyezkedik el, így nem biztos,
hogy az I/O blokkmuveletek száma csökken
106A mintavételezések típusai
- Véletlen (egyenletes) mintavételezés
- bármelyik elemet egyenlo valószínuséggel
választunk ki - ez visszatevés nélküli mintavétel, azaz a
kiválasztott objektumot eltávolítjuk a
populációból - Visszatevéses mintavételezés
- a kiválasztott objektumot nem távolítjuk el a
populációból - Rétegzett mintavételezés
- Az adatokat partíciókba osztjuk és minden
partícióból arányosan sok mintát választunk, - például minden megyébol a megyék népességével
arányos számú ember a megyék szerinti eloszlást
jól tükrözi
107Visszatevés nélküli vagy visszatevéses
mintavételezés
(visszatevés nélkül)
visszatevéssel
108Klaszterezett (rétegzett) mintavétel
Rétegzett mintavétel
Az adatok klaszterei
109A diszkretizálás mint adatredukció
- Háromféle attribútum
- Nominális elnevezések (sztringek) rendezés
nélkül (színek, foglalkozások, stb) - Ordinális rendezheto, ragsorolható elnevezések,
katonai rangok, beosztások - Folytonos végtelen számhalmaz (valós, egész)
- Diszkretizálás
- a folytonos attribútumok tartományát
intervallumokra osztjuk - osztályozásoknál is szükség lehet rá, mivel egyes
osztályozó módszerek csak nominális
attribútumokra muködnek - csökken a méret a diszkretizálással
110Diszkretizálás és fogalmi hierarchiák
- Diszkretizálás
- besoroljuk a folytonos attribútum értékeit
intervallumokba - a megfelelo intervallum címkéjét használjuk az
adatértékek helyett (csökken a különbözo értékek
száma) - lehet felügyelt (supervised) vagy felügyelet
nélküli (unsupervised) - lehet hasító (fentrol lefele) vagy összevonó
(lentrol felfele) - A fogalmi hierarchiák
- az adatok értékét (például a vásárlók korát)
rekurzívan egyre magasabb szintu fogalommal
helyettesítjük (például fiatal, középkorú, idos)
111Diszkretizálás és fogalmi hierarchiák generálása
- Tipikus módszerek (mindegyik rekurzívan is
alkalmazható) - Kategórizálás (Binning)
- Top-down módszer, felügyelet nélküli
- Hisztogram alapú
- Top-down módszer, felügyelet nélküli
- Klaszterezés
- vagy top-down vagy bottom-up módszer, felügyelet
nélküli - Entrópia alapú diszkretizálás top-down módszer,
felügyelt - Intervallumok egyesítése ?2 elemzéssel bottom-up
módszer, felügyelet nélküli - Szegmentálás természetes partícionálással
top-down módszer, felügyelet nélküli
112Entrópia alapú diszkretizálás
- Ha egy S halmazt S1 és S2 partícióra bontunk úgy,
hogy T vágással, akkor a partícionálással kapott
információ értéke - Az entrópia értéke a bizonytalanságot méri. Ha
egy elem m osztály valamelyikébe eshet, akkor S1
entrópiája - ahol pi annak a valószínusége, hogy egy véletlen
S1-beli elem az i osztályba tartozik - Bináris diszkretizálás során azt a T-t
választjuk, amelyre az I(S,T) minimális - A vágásokat egy megállási feltétel teljesüléséig
folytatjuk rekurzívan - Az ilyen vágásokkal fokozatosan javítjuk az
osztályozás pontosságát
113Az entrópia néhány tulajdonsága
A bináris (Bernoulli) eloszlás entrópiafüggvénye
114Az entrópia néhány tulajdonsága
115Diszkretizálás osztálycímkékkel
- Entrópia alapú (bináris vágás helyett k-részre)
3 - 3 kategória x és y értékekre
5 - 5 kategória x és y értékekre
116Diszkretizálás osztálycímkék nélkül
Az adatok
egyenlo nagyságú intervallumok
Egyenlo gyakoriságú
K-átlag
117Intervallumösszevonás ?2 elemzéssel
- Összevonáson alapul
- Összevonás a szomszédos intervallumok közül a
legjobb párt összevonjuk egy nagyobb
intervallumba majd rekurzívan folytatjuk - ChiMerge algoritmus
- Kezdetben A numerikus értékei mind külön
intervallumok - ?2 tesztet csinálunk minden szomszédos
intervallumra - Amelyik párra legkisebb a ?2 érték, azt
összevonjuk - A megállási feltétel lehet
- szignifikancia szint
- korlát a maximális intervallum hosszára
118Szegmentálás heurisztikával
- Egy egyszeru 3-4-5 szabállyal nagyjából egyforma
intervallumokra szegmentálhatjuk az értékeket. - Ha 3, 6, 7 vagy 9 különbözo érték szerepel a
legnagyobb helyi értékben, akkor 3 egyenlo (7
esetén 2-3-2 arányú) intervallumra osztjuk az
intervallumot - Ha 2, 4 vagy 8 különbözo érték szerepel a
legnagyobb helyi értékben, akkor 4 egyenlo részre
osztjuk az intervallumot - Ha 1, 5 vagy 10 különbözo értéke szerepel a
legnagyobb helyi értékben, akkor 5 egyenlo részre
osztjuk az intervallumot.
119Példa a 3-4-5 szabályra
(-400 -5,000)
Step 4
120Fogalmi hierarchia generálása
- Szakértok, felhasználók adnak meg egy részben
rendezést séma szinten az attribútumokon - utca lt város lt régió lt ország
- Explicit adatcsoportosítással is megadhatunk
hierarchiát - Budapest, Érd, Dabas lt Közép-Magyarország
- Nem minden attribútum összehasonlítható
- Automatikusan is generálható hierarchia a
különbözo elemek számának vizsgálatával - utca, város, régió, ország
- például város ?? utca többértéku függoség teljesül
121Automatikus fogalmi hierarchia generálása
- Az legyen a hierarchiában magasabban, aminek
kevesebb különbözo értéke van
122References
- D. P. Ballou and G. K. Tayi. Enhancing data
quality in data warehouse environments.
Communications of ACM, 4273-78, 1999 - W. Cleveland, Visualizing Data, Hobart Press,
1993 - T. Dasu and T. Johnson. Exploratory Data Mining
and Data Cleaning. John Wiley, 2003 - T. Dasu, T. Johnson, S. Muthukrishnan, V.
Shkapenyuk. Mining Database Structure Or, How to
Build a Data Quality Browser. SIGMOD02 - U. Fayyad, G. Grinstein, and A. Wierse.
Information Visualization in Data Mining and
Knowledge Discovery, Morgan Kaufmann, 2001 - H. V. Jagadish et al., Special Issue on Data
Reduction Techniques. Bulletin of the Technical
Committee on Data Engineering, 20(4), Dec. 1997 - D. Pyle. Data Preparation for Data Mining. Morgan
Kaufmann, 1999 - E. Rahm and H. H. Do. Data Cleaning Problems and
Current Approaches. IEEE Bulletin of the
Technical Committee on Data Engineering. Vol.23,
No.4 - V. Raman and J. Hellerstein. Potters Wheel An
Interactive Framework for Data Cleaning and
Transformation, VLDB2001 - T. Redman. Data Quality Management and
Technology. Bantam Books, 1992 - E. R. Tufte. The Visual Display of Quantitative
Information, 2nd ed., Graphics Press, 2001 - R. Wang, V. Storey, and C. Firth. A framework for
analysis of data quality research. IEEE Trans.
Knowledge and Data Engineering, 7623-640, 1995