Title: Veri Madenciligi Giris
1Veri MadenciligiGiris
- Yrd. Doç. Dr. Nilgün GÜLER BAYAZIT
2Gereksinimler buluslarin kaynagidir
- Veri Patlamasi
- Son yillarda ölçüm cihazlarinin artmasina paralel
olarak veri sayisi ve türleri artmaktadir. Veri
toplama araçlari ve veri tabani
teknolojilerindeki gelismeler, bilgi depolarinda
çok miktarda bilginin depolanmasini ve
çözümlenmesini gerektirmektedir. - Veri içinde bogulmaktayiz ama bilgi açligi
içindeyiz! - Çözüm Veri ambarlari ve Veri madenciligi
- Data warehousing ve on-line analytical processing
- Büyük veri tabanlardaki veri içinden ilgi çekici
bilgi aranmasi (rules, regularities, patterns,
constraints)
3Niçin Veri Madenciligi?
- Hizla artan veri kayitlari (GB/saat).
- Otomatik istasyonlar,
- Uydu ve uzaktan algilama sistemleri,
- Teleskopla uzay taramalari,
- Gen teknolojisindeki gelismeler,
- Bilimsel hesaplamalar, benzetimler, modeller
- Geleneksel eski tekniklerin ham verileri islemede
yetersiz kalmasi. - Veri madenciligi bilim insanlarina yardim eder.
- Veri siniflandirmasi ve gruplandirilmasi,
- Hipotezler olusturma ve karar verme,
4- Çok fazla verinin depolanmasi(veri
ambariwarehouse) - Web veri, e-ticaret,
- Büyük marketler, holdingler,
- Bankalar, kredi kartlari,
- Etkin ve ucuz bilgisayarlarin hizla gelisimi,
- Rekabet ve gücün önem arz etmesi,
- Asgari maliyetle azami kalitede müsteri
hizmetleri, - Müsteri memnuniyeti,
5Veri tabani teknolojisinin gelisimi
- 1960s
- Data collection, database creation, IMS and
network DBMS - 1970s
- Relational data model, relational DBMS
implementation - 1980s
- RDBMS, advanced data models (extended-relational,
OO, deductive, etc.) - Application-oriented DBMS (spatial, scientific,
engineering, etc.) - 1990s
- Data mining, data warehousing, multimedia
databases, and Web databases - 2000s
- Stream data management and mining
- Data mining with a variety of applications
- Web technology and global information systems
6Veri Madenciligi Nedir?
- Veri Madenciligi (veriden bilgi kesfi)
- (knowledge discovery from data-KDD)
- Büyük veri kaynaklarindan yararli ve ilginç
bilgiyi bulmak - Bulunan bilgi gizli, önemli, önceden bilinmeyen
ve yararli olmalidir - Alternatif isimler
- Knowledge discovery (mining) in databases (KDD),
knowledge extraction, data/pattern analysis, data
archeology, data dredging, information
harvesting, business intelligence, etc. - Uyari Sorgulama(Query), Uzman sistemler ya da
basit istatistik yöntemler veri madenciligi
degildir.
7Veri Madenciligi Nedir? (2)
- Teoride veri madenciligi bilgi kesfi isleminin
asamalarindan biridir. - Pratikte veri madenciligi ve bilgi kesfi es
anlamli olarak kullanilir. - Veri madenciligi teknikleri veriyi belli bir
modele uydurur. - veri içindeki örüntüleri bulur
- örüntü veri içindeki herhangi bir yapi
8Data Mining A KDD Process
Bilgi
- Veri madenciligi
- Bilgi kesfinin
- temel tasi
Model Degerlendirme
Veri Madenciligi
Kullanim amaçli Veri
Seçim
Veri Ambari
Ver Temizleme
Veri Bütünlestirme
Databases
9Veri Nedir?
- Sayilar, metinler, sesler, görüntülerdir,
- Rasat parkinda kayit cihazinda depolananlardir,
- Otomasyonda ögrenci kayitlaridir,
- Karar vermeye yarayan soyut simge dizileridir,
- .
10Veritabani Nedir?
- Birbiriyle iliskili verilerin toplanmasi,
depolanmasidir, - Belli bir amaç için verilerin toplanmasi ve
tasarimidir, - Sistematik erisim imkani olan, yönetilebilir,
güncellenebilir, tasinabilir, birbirleri arasinda
tanimli iliskiler bulunabilen verilerdir, - .
- Veritabaninin büyüklügü ve
- karmasikligi degisebilir,
11Bilgi Nedir?
- Ögrenerek, deneyerek, arastirarak elde edilen her
türlü sonuçlardir, - Önceden belirlenen bir dizi sistematik kural ve
isleyise uygun bir biçimde elde edilen
verilerdir, - Sosyal varlik olan insanlar arasindaki iletisim
sirasinda paylasilan, aktarilan ve yeniden
sekillendirilen tecrübelerdir, - Belirli bir durum, sorun, iliski, teori veya
kurala ait verilerdir, - Içinde yasadigimiz dünyayi ve olaylari yorumlamak
ve yönetmek için uyguladigimiz bir dizi anlayis,
kavrayis ve genellemeler ile bize güçlü bir
kavrayis ve bakis açisi kazandiran her türlü
zihni faaliyettir, - Sosyal olaylarda karsimiza çikan eylem ve
olaylari anlamamiza yardim eden isaret ve
kodlamalardir,
12Bilgi Nedir?
- Kurumlar terabyte büyüklügünde veri depolarina
sahiptirler - Bunlarin çok azini amaçlarina uygun
çözümleyebiliyorlar
??? Verilerimizin ne kadarini bilgiye
dönüstürebiliyoruz ???
Incelenecek veri araligi
Toplam Bilgi deposu TB
1995 yilindan itibaren depolanan veri
Çözümlenen veri degisimi
13Data Mining A KDD Process
Bilgi
- Veri madenciligi
- Bilgi kesfinin
- temel tasi
Model Degerlendirme
Veri Madenciligi
Kullanim amaçli Veri
Seçim
Veri Ambari
Ver Temizleme
Veri Bütünlestirme
Databases
14Bilgi Kesfinin Asamalari
- Uygulama alanini inceleme
- Konuyla ilgili bilgi ve uygulama amaçlari
- Amaca uygun veri kümesi olusturma Veri seçme
- Veri ayiklama ve önisleme (Islemin 60lik
kismi) - Veri azaltma ve veri dönüsümü
- incelemede gerekli boyutlari (özellikleri)
seçme, boyutlar arasi iliskiyi belirleme, boyut
azaltma, - Veri madenciligi teknigi seçme
- Siniflandirma, egri uydurma, baginti kurallari,
demetleme - Veri madenciligi algoritmasini seçme
- Model degerlendirme ve bilgi sunumu
- Bulunan bilginin yorumlanmasi
- Bulunan bilginin kullanilmasi
15Veritabani vs.Veri Madenciligi
- Sorgulama
- Tanimli
- SQL
- Veri
- Canli veri
- Çikis
- Belirli
- verinin bir alt kümesi
-
- Sorgulama
- Tam tanimli degil
- yaygin sorgulama dili yok
- Veri
- Üzerinde islem yapilmayan veri
- Çikis
- Belirli degil
- verinin bir alt kümesi
16Sorgulama Örnekleri
- Veritabani uygulamasi
- Soyadi Gündüz olan kredi karti sahiplerini bul.
- Bir ayda 2000 YTLden fazla harcama yapan kredi
karti sahiplerini bul. - DVD satin alan tüm müsterileri bul.
- Veri madenciligi uygulamasi
- Riski az olan tüm kredi karti basvurularini bul
(siniflandirma) - Harcama aliskanligi benzer olan kredi karti
sahiplerini bul (kümeleme) - DVD birlikte sikça satin alinan ürünü bul
(iliskilendirme kurallari)
17Bilgi Kesfi Örnek web kayitlari
- web sitesinin yapisini inceleme
- verileri seçme tarih araligini belirleme
- veri ayiklama, önisleme gereksiz kayitlari
silme - veri azaltma, veri dönüsümü kullanici
oturumlari belirleme - veri madenciligi teknigi seçme kümeleme
- veri madenciligi algoritmasi seçme k-ortalama,
EM, DBSCAN... - Model degerlendirme/yorumlama degisik
kullanici gruplari için sikça izlenen yolu bulma - Uygulama alanlari öneri modelleri,
kisisellestirme, ön bellege alma
18Veri madenciligi ve Is Zekasi
Increasing potential to support business decisions
End User
Making Decisions
Business Analyst
Data Presentation
Visualization Techniques
Data Mining
Data Analyst
Information Discovery
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
DBA
Data Sources
Paper, Files, Information Providers, Database
Systems, OLTP
19Tipik Veri Madenciligi Sistem Mimarisi
Graphical user interface
Pattern evaluation
Data mining engine
Knowledge-base
Database or data warehouse server
Filtering
Data cleaning data integration
Data Warehouse
Databases
20Veri madenciligi Kullanilan Veri Türleri
- Relational database
- Data warehouse
- Transactional database
- Gelismis veri tabanlari and bilgi Amabari
- Object-relational database
- Spatial and temporal data
- Time-series data
- Stream data
- Multimedia database
- Heterogeneous and legacy database
- Text databases WWW
21Veri Madenciliginin Uygulama Alanlari
- Veritabani analizi ve karar verme destegi
- Pazar arastirmasi
- Hedef Pazar, müsteriler arasi benzerliklerin
saptanmasi, sepet analizi, çapraz pazar
incelemesi - Risk analizi
- Kalite kontrolu, rekabet analizi, öngörü
- Sahtekarliklarin saptanmasi
- Diger Uygulamalar
- Belgeler arasi benzerlik (haber kümeleri,
e-posta) - Sorgulama sonuçlari
22Pazar Arastirmasi (1)
- Veri madenciligi uygulamalari için veri kaynagi
- Kredi karti hareketleri, üyelik kartlari,
ucuzluk kuponlari, pazar anketleri - Hedef pazarlar bulma
- Benzer özellikler gösteren müsterilerin
bulunmasi benzer gelir gruplari, ilgi alanlari,
harcama aliskanliklari - Müsterilerin davranislarinda zaman içindeki
degisiklik - Tek kisilik banka hesabinin ortak hesaba
çevrilmesievlilik - Çapraz pazar incelemesi
- Ürün satislari arasindaki iliskiyi bulma
23Pazar Arastirmasi (2)
- Müsteri profili
- Hangi özellikteki müsterilerin hangi ürünleri
aldiklari (kümeleme veya siniflandirma) - Müsterilerin ihtiyaçlarini belirleme
- Farkli müsterilerin o anki ilgisine yönelik
ürünü bulma - Yeni müsterileri hangi faktörlerin etkiledigini
bulma
24Sahtekarlik Incelemesi
- Sigorta, bankacilik,telekominikasyon alanlarinda
- Geçmis veri kullanilarak sahtekarlikyapanlar
için bir model olusturma ve benzer davranis
gösterenleri belirleme - Örnek
- Araba sigortasi
- Saglik Sigortasi
- Kredi karti basvurusu
25Risk Analizi
- Finans planlamasi ve bilanço degerlendirmesi
- nakit para akisi incelemesi ve kestirimi
- talep incelemesi
- zaman serileri incelemesi
- Kaynak planlamasi
- kaynaklarin incelenmesi ve uygun olarak
dagitilmasi - Rekabet
- rakipleri ve pazar egilimlerini takip etme
- müsterileri siniflara ayirma ve fiyat
politikasi belirleme
26Bütün Bulunan Örüntüler Önemli mi?
- Verimadenciligi binlerce örüntü
yaratabilir.Bunlarin hepsi önemli degildir - Insan merkezli, Query tabanli v.b.
- Bulunan örüntünün önemli olmasi için
- insanlar tarafindan kolayca anlasilabilir
- test(sinama) verisi veya yeni veriler üzerinde
belli oranda geçerli - yararli ve kullanilabilir
- yeni
- nesnel / öznel Ilginçlik metrikler
- nesnel istatistikve örüntünün yapisina bagli
örndestek(support), güven(confidence) - öznel kullanicinin data üzerindeki inanisina
bagli örnyenilik, beklenmediklik
27Bütün önemli örüntüler Bulunabilirmi?
- Bütün önemli örüntülerin bulunmasi Bütünlük
- Veri Madenciliginde önemli bütün örüntüler
bulunabilir mi? - Heuristic vs. Ayrintili arama
- Association vs. classification vs. clustering
- Sadece önemli örüntünün aranmasi optimizasyon
problemi - Veri madenciligi sistemi Sadece önemli örüntüleri
bulunabilir mi? - Yaklasim
- Bütün örüntüler bulunduktan sonra önemsiz
olanlarin ayiklanmasi - Sadece önemli örüntülerin yaratilmasimining
query optimization
28Veri Madenciligi Farkli Disiplinlerin Birlesimi
Veri Tabani Teknolojisi
Istatistik
Veri Madenciligi
Makina Ögrenmesi
Görsellestirme Teknikleri
Algoritmalar
Diger Disiplinler
29Veri Madenciligi Algoritmalari
- amaç veriyi belli bir modele uydurmak
- tanimlayici
- En iyi müsterilerim kimler?
- Hangi ürünler birlikte satiliyor?
- Hangi müsteri gruplarinin alisveris
aliskanliklari benzer? - kestirime dayali
- Kredi basvuralarini risk gruplarina ayirma
- Sirketle çalismayi birakacak müsterileri
öngörme - Borsa tahmini
- seçim veriye uyan en iyi modeli seçmek için
kullanilan kriter - arama veri üzerinde arama yapmak için
kullanilan teknik
30Veri Madenciligi Modelleri
31Veri Madenciligi Islevleri
- Siniflandirma Veriyi önceden belirlenmis
siniflardan birine dahil eder. - Egiticili ögrenme
- Örüntü tanima
- Kestirim
- Egri uydurma Veriyi gerçel degerli bir
fonksiyona dönüstürür. - Zaman serileri inceleme Zaman içinde degisen
verinin degerini öngörür.
32Veri Madenciligi Islevleri
- Kümeleme Benzer verileri ayni grupta toplama
- Egiticisiz ögrenme
- Özetleme Veriyi altgruplara ayirir. Her
altgrubu temsil edecek özellikler bulur. - Genellestirme
- Nitelendirme
- Iliskilendirme kurallari
- Veriler arasindaki iliskiyi belirler
- Sirali diziler Veri içinde sirali örüntüler
bulmak için kullanilir.
33Örnek Siniflandirma
34Siniflama
categorical
categorical
continuous
class
Single, Divorced
MarSt
Married
Refund
NO
No
Yes
TaxInc
lt 80K
gt 80K
YES
NO
35ÖrnekKümeleme
- Doküman Kümeleme
- Amaç
- Döküman içinde geçen terimlere göre ayni
konudaki dokümanlari gruplama - Yaklasim
- Her doküman içinde sik geçen terimleri bul. Bu
terimlerden ve agirliklarindan yararlanarak bir
benzerlik ölçütü gelistir. Bu ölçüte göre
demetleme yap - Kullanimi
- Yeni bir dokümanin hangi dokümanlarla benzer
oldugu terimlere göre arama yapildiginda bu
terimleri içeren dokümanlari bulma
36ÖrnekIliskilendirme Kurallari
37Veri Madenciliginde Temel Sorunlar(1)
- Veri madenciligi yöntemi
- Farkli tipte veriler üzerinde çalisabilme
(örnweb, bio, stream v.b.) - Farkli seviyelerde kullanici ile etkilesim
halinde olabilme - Uygulama ortami bilgisini kullanabilme
- Veri madenciligi ile elde edilen sonucu
anlasilir sekilde sunabilme - Gürültülü ve eksik veri ile çalisabilme (ve iyi
sonuç verebilme) - Degisen veya eklenen verileri kolayca
kullanabilme - Örüntü degerlendirme önemli örüntüleri bulma
38Veri Madenciliginde Temel Sorunlar(2)
- Basarim ve ölçeklenebilirlik
- Kullanabilirlik ve ölçeklenebilirlik
- Zaman karmasikligi ve yer karmasikligi kabul
edilebilir - Örnekleme yapabilme
- Paralel ve dagitik yöntemler
- Artimli veri madenciligi
- Parçala ve çöz
39Veri Madenciliginde Temel Sorunlar(3)
- Kullanici Arabirimi
- Görüntüleme
- Sonucun anlasilabilir ve yorumlanabilir hale
getirilmesi - Bilginin sunulmasi
- Etkilesim
- Veri madenciligi ile elde edilen bilginin
kullanilmasi - Veri madenciligi yöntemine müdahele etmek
- Veri madenciligi yönteminin sonucuna müdahele
etmek
40Veri Madenciliginde Temel Sorunlar(4)
- Gizlilik ve sosyal haklar
- Kisilere ait verilerin toplanarak, kisilerden
habersiz ve izinsiz olarak kullanilmasi - Veri madenciligi yöntemleri ile bulunan
sonuçlarin izinsiz olarak açiklanmasi
(/paylasilmasi) - Gizlilik ve veri madenciligi politikalarinin
düzenlenmesi
41Uyari
- Veri madenciligi yöntemleri bilinçsiz olarak
- kullanilmamali
- Veri madenciligi yöntemleri geçmis olaylara
bakarak örüntüler bulur Gelecekteki olaylar
geçmistekilerle ayni degildir - Iliskiler her zaman nedenleri açiklamaz
- David Heckermanin verdigi örnek (1997)
- hamburger, hot-dog, barbecue sauce
42(No Transcript)
43A Brief History of Data Mining Society
- 1989 IJCAI Workshop on Knowledge Discovery in
Databases (Piatetsky-Shapiro) - Knowledge Discovery in Databases (G.
Piatetsky-Shapiro and W. Frawley, 1991) - 1991-1994 Workshops on Knowledge Discovery in
Databases - Advances in Knowledge Discovery and Data Mining
(U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and
R. Uthurusamy, 1996) - 1995-1998 International Conferences on Knowledge
Discovery in Databases and Data Mining
(KDD95-98) - Journal of Data Mining and Knowledge Discovery
(1997) - 1998 ACM SIGKDD, SIGKDD1999-2001 conferences,
and SIGKDD Explorations - More conferences on data mining
- PAKDD (1997), PKDD (1997), SIAM-Data Mining
(2001), (IEEE) ICDM (2001), etc.
44Recommended Reference Books
- R. Agrawal, J. Han, and H. Mannila, Readings in
Data Mining A Database Perspective, Morgan
Kaufmann (in preparation) - U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and
R. Uthurusamy. Advances in Knowledge Discovery
and Data Mining. AAAI/MIT Press, 1996 - U. Fayyad, G. Grinstein, and A. Wierse,
Information Visualization in Data Mining and
Knowledge Discovery, Morgan Kaufmann, 2001 - J. Han and M. Kamber. Data Mining Concepts and
Techniques. Morgan Kaufmann, 2001 - D. J. Hand, H. Mannila, and P. Smyth, Principles
of Data Mining, MIT Press, 2001 - T. Hastie, R. Tibshirani, and J. Friedman, The
Elements of Statistical Learning Data Mining,
Inference, and Prediction, Springer-Verlag, 2001 - T. M. Mitchell, Machine Learning, McGraw Hill,
1997 - G. Piatetsky-Shapiro and W. J. Frawley. Knowledge
Discovery in Databases. AAAI/MIT Press, 1991 - S. M. Weiss and N. Indurkhya, Predictive Data
Mining, Morgan Kaufmann, 1998 - I. H. Witten and E. Frank, Data Mining
Practical Machine Learning Tools and Techniques
with Java Implementations, Morgan Kaufmann, 2001