Veri Madenciligi Giris - PowerPoint PPT Presentation

1 / 44
About This Presentation
Title:

Veri Madenciligi Giris

Description:

Veri Madencili i Giri Yrd. Do . Dr. Nilg n G LER BAYAZIT Gereksinimler bulu lar n kayna d r Veri Patlamas Son y llarda l m cihazlar n n ... – PowerPoint PPT presentation

Number of Views:494
Avg rating:3.0/5.0
Slides: 45
Provided by: jiaw196
Category:

less

Transcript and Presenter's Notes

Title: Veri Madenciligi Giris


1
Veri MadenciligiGiris
  • Yrd. Doç. Dr. Nilgün GÜLER BAYAZIT

2
Gereksinimler buluslarin kaynagidir
  • Veri Patlamasi
  • Son yillarda ölçüm cihazlarinin artmasina paralel
    olarak veri sayisi ve türleri artmaktadir. Veri
    toplama araçlari ve veri tabani
    teknolojilerindeki gelismeler, bilgi depolarinda
    çok miktarda bilginin depolanmasini ve
    çözümlenmesini gerektirmektedir.
  • Veri içinde bogulmaktayiz ama bilgi açligi
    içindeyiz!
  • Çözüm Veri ambarlari ve Veri madenciligi
  • Data warehousing ve on-line analytical processing
  • Büyük veri tabanlardaki veri içinden ilgi çekici
    bilgi aranmasi (rules, regularities, patterns,
    constraints)

3
Niçin Veri Madenciligi?
  • Hizla artan veri kayitlari (GB/saat).
  • Otomatik istasyonlar,
  • Uydu ve uzaktan algilama sistemleri,
  • Teleskopla uzay taramalari,
  • Gen teknolojisindeki gelismeler,
  • Bilimsel hesaplamalar, benzetimler, modeller
  • Geleneksel eski tekniklerin ham verileri islemede
    yetersiz kalmasi.
  • Veri madenciligi bilim insanlarina yardim eder.
  • Veri siniflandirmasi ve gruplandirilmasi,
  • Hipotezler olusturma ve karar verme,

4
  • Çok fazla verinin depolanmasi(veri
    ambariwarehouse)
  • Web veri, e-ticaret,
  • Büyük marketler, holdingler,
  • Bankalar, kredi kartlari,
  • Etkin ve ucuz bilgisayarlarin hizla gelisimi,
  • Rekabet ve gücün önem arz etmesi,
  • Asgari maliyetle azami kalitede müsteri
    hizmetleri,
  • Müsteri memnuniyeti,

5
Veri tabani teknolojisinin gelisimi
  • 1960s
  • Data collection, database creation, IMS and
    network DBMS
  • 1970s
  • Relational data model, relational DBMS
    implementation
  • 1980s
  • RDBMS, advanced data models (extended-relational,
    OO, deductive, etc.)
  • Application-oriented DBMS (spatial, scientific,
    engineering, etc.)
  • 1990s
  • Data mining, data warehousing, multimedia
    databases, and Web databases
  • 2000s
  • Stream data management and mining
  • Data mining with a variety of applications
  • Web technology and global information systems

6
Veri Madenciligi Nedir?
  • Veri Madenciligi (veriden bilgi kesfi)
  • (knowledge discovery from data-KDD)
  • Büyük veri kaynaklarindan yararli ve ilginç
    bilgiyi bulmak
  • Bulunan bilgi gizli, önemli, önceden bilinmeyen
    ve yararli olmalidir
  • Alternatif isimler
  • Knowledge discovery (mining) in databases (KDD),
    knowledge extraction, data/pattern analysis, data
    archeology, data dredging, information
    harvesting, business intelligence, etc.
  • Uyari Sorgulama(Query), Uzman sistemler ya da
    basit istatistik yöntemler veri madenciligi
    degildir.

7
Veri Madenciligi Nedir? (2)
  • Teoride veri madenciligi bilgi kesfi isleminin
    asamalarindan biridir.
  • Pratikte veri madenciligi ve bilgi kesfi es
    anlamli olarak kullanilir.
  • Veri madenciligi teknikleri veriyi belli bir
    modele uydurur.
  • veri içindeki örüntüleri bulur
  • örüntü veri içindeki herhangi bir yapi

8
Data Mining A KDD Process
Bilgi
  • Veri madenciligi
  • Bilgi kesfinin
  • temel tasi

Model Degerlendirme
Veri Madenciligi
Kullanim amaçli Veri
Seçim
Veri Ambari
Ver Temizleme
Veri Bütünlestirme
Databases
9
Veri Nedir?
  • Sayilar, metinler, sesler, görüntülerdir,
  • Rasat parkinda kayit cihazinda depolananlardir,
  • Otomasyonda ögrenci kayitlaridir,
  • Karar vermeye yarayan soyut simge dizileridir,
  • .

10
Veritabani Nedir?
  • Birbiriyle iliskili verilerin toplanmasi,
    depolanmasidir,
  • Belli bir amaç için verilerin toplanmasi ve
    tasarimidir,
  • Sistematik erisim imkani olan, yönetilebilir,
    güncellenebilir, tasinabilir, birbirleri arasinda
    tanimli iliskiler bulunabilen verilerdir,
  • .
  • Veritabaninin büyüklügü ve
  • karmasikligi degisebilir,

11
Bilgi Nedir?
  • Ögrenerek, deneyerek, arastirarak elde edilen her
    türlü sonuçlardir,
  • Önceden belirlenen bir dizi sistematik kural ve
    isleyise uygun bir biçimde elde edilen
    verilerdir,
  • Sosyal varlik olan insanlar arasindaki iletisim
    sirasinda paylasilan, aktarilan ve yeniden
    sekillendirilen tecrübelerdir,
  • Belirli bir durum, sorun, iliski, teori veya
    kurala ait verilerdir,
  • Içinde yasadigimiz dünyayi ve olaylari yorumlamak
    ve yönetmek için uyguladigimiz bir dizi anlayis,
    kavrayis ve genellemeler ile bize güçlü bir
    kavrayis ve bakis açisi kazandiran her türlü
    zihni faaliyettir,
  • Sosyal olaylarda karsimiza çikan eylem ve
    olaylari anlamamiza yardim eden isaret ve
    kodlamalardir,

12
Bilgi Nedir?
  • Kurumlar terabyte büyüklügünde veri depolarina
    sahiptirler
  • Bunlarin çok azini amaçlarina uygun
    çözümleyebiliyorlar

??? Verilerimizin ne kadarini bilgiye
dönüstürebiliyoruz ???
Incelenecek veri araligi
Toplam Bilgi deposu TB
1995 yilindan itibaren depolanan veri
Çözümlenen veri degisimi
13
Data Mining A KDD Process
Bilgi
  • Veri madenciligi
  • Bilgi kesfinin
  • temel tasi

Model Degerlendirme
Veri Madenciligi
Kullanim amaçli Veri
Seçim
Veri Ambari
Ver Temizleme
Veri Bütünlestirme
Databases
14
Bilgi Kesfinin Asamalari
  • Uygulama alanini inceleme
  • Konuyla ilgili bilgi ve uygulama amaçlari
  • Amaca uygun veri kümesi olusturma Veri seçme
  • Veri ayiklama ve önisleme (Islemin 60lik
    kismi)
  • Veri azaltma ve veri dönüsümü
  • incelemede gerekli boyutlari (özellikleri)
    seçme, boyutlar arasi iliskiyi belirleme, boyut
    azaltma,
  • Veri madenciligi teknigi seçme
  • Siniflandirma, egri uydurma, baginti kurallari,
    demetleme
  • Veri madenciligi algoritmasini seçme
  • Model degerlendirme ve bilgi sunumu
  • Bulunan bilginin yorumlanmasi
  • Bulunan bilginin kullanilmasi

15
Veritabani vs.Veri Madenciligi
  • Sorgulama
  • Tanimli
  • SQL
  • Veri
  • Canli veri
  • Çikis
  • Belirli
  • verinin bir alt kümesi
  • Sorgulama
  • Tam tanimli degil
  • yaygin sorgulama dili yok
  • Veri
  • Üzerinde islem yapilmayan veri
  • Çikis
  • Belirli degil
  • verinin bir alt kümesi

16
Sorgulama Örnekleri
  • Veritabani uygulamasi
  • Soyadi Gündüz olan kredi karti sahiplerini bul.
  • Bir ayda 2000 YTLden fazla harcama yapan kredi
    karti sahiplerini bul.
  • DVD satin alan tüm müsterileri bul.
  • Veri madenciligi uygulamasi
  • Riski az olan tüm kredi karti basvurularini bul
    (siniflandirma)
  • Harcama aliskanligi benzer olan kredi karti
    sahiplerini bul (kümeleme)
  • DVD birlikte sikça satin alinan ürünü bul
    (iliskilendirme kurallari)

17
Bilgi Kesfi Örnek web kayitlari
  • web sitesinin yapisini inceleme
  • verileri seçme tarih araligini belirleme
  • veri ayiklama, önisleme gereksiz kayitlari
    silme
  • veri azaltma, veri dönüsümü kullanici
    oturumlari belirleme
  • veri madenciligi teknigi seçme kümeleme
  • veri madenciligi algoritmasi seçme k-ortalama,
    EM, DBSCAN...
  • Model degerlendirme/yorumlama degisik
    kullanici gruplari için sikça izlenen yolu bulma
  • Uygulama alanlari öneri modelleri,
    kisisellestirme, ön bellege alma

18
Veri madenciligi ve Is Zekasi
Increasing potential to support business decisions
End User
Making Decisions
Business Analyst
Data Presentation
Visualization Techniques
Data Mining
Data Analyst
Information Discovery
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
DBA
Data Sources
Paper, Files, Information Providers, Database
Systems, OLTP
19
Tipik Veri Madenciligi Sistem Mimarisi
Graphical user interface
Pattern evaluation
Data mining engine
Knowledge-base
Database or data warehouse server
Filtering
Data cleaning data integration
Data Warehouse
Databases
20
Veri madenciligi Kullanilan Veri Türleri
  • Relational database
  • Data warehouse
  • Transactional database
  • Gelismis veri tabanlari and bilgi Amabari
  • Object-relational database
  • Spatial and temporal data
  • Time-series data
  • Stream data
  • Multimedia database
  • Heterogeneous and legacy database
  • Text databases WWW

21
Veri Madenciliginin Uygulama Alanlari
  • Veritabani analizi ve karar verme destegi
  • Pazar arastirmasi
  • Hedef Pazar, müsteriler arasi benzerliklerin
    saptanmasi, sepet analizi, çapraz pazar
    incelemesi
  • Risk analizi
  • Kalite kontrolu, rekabet analizi, öngörü
  • Sahtekarliklarin saptanmasi
  • Diger Uygulamalar
  • Belgeler arasi benzerlik (haber kümeleri,
    e-posta)
  • Sorgulama sonuçlari

22
Pazar Arastirmasi (1)
  • Veri madenciligi uygulamalari için veri kaynagi
  • Kredi karti hareketleri, üyelik kartlari,
    ucuzluk kuponlari, pazar anketleri
  • Hedef pazarlar bulma
  • Benzer özellikler gösteren müsterilerin
    bulunmasi benzer gelir gruplari, ilgi alanlari,
    harcama aliskanliklari
  • Müsterilerin davranislarinda zaman içindeki
    degisiklik
  • Tek kisilik banka hesabinin ortak hesaba
    çevrilmesievlilik
  • Çapraz pazar incelemesi
  • Ürün satislari arasindaki iliskiyi bulma

23
Pazar Arastirmasi (2)
  • Müsteri profili
  • Hangi özellikteki müsterilerin hangi ürünleri
    aldiklari (kümeleme veya siniflandirma)
  • Müsterilerin ihtiyaçlarini belirleme
  • Farkli müsterilerin o anki ilgisine yönelik
    ürünü bulma
  • Yeni müsterileri hangi faktörlerin etkiledigini
    bulma

24
Sahtekarlik Incelemesi
  • Sigorta, bankacilik,telekominikasyon alanlarinda
  • Geçmis veri kullanilarak sahtekarlikyapanlar
    için bir model olusturma ve benzer davranis
    gösterenleri belirleme
  • Örnek
  • Araba sigortasi
  • Saglik Sigortasi
  • Kredi karti basvurusu

25
Risk Analizi
  • Finans planlamasi ve bilanço degerlendirmesi
  • nakit para akisi incelemesi ve kestirimi
  • talep incelemesi
  • zaman serileri incelemesi
  • Kaynak planlamasi
  • kaynaklarin incelenmesi ve uygun olarak
    dagitilmasi
  • Rekabet
  • rakipleri ve pazar egilimlerini takip etme
  • müsterileri siniflara ayirma ve fiyat
    politikasi belirleme

26
Bütün Bulunan Örüntüler Önemli mi?
  • Verimadenciligi binlerce örüntü
    yaratabilir.Bunlarin hepsi önemli degildir
  • Insan merkezli, Query tabanli v.b.
  • Bulunan örüntünün önemli olmasi için
  • insanlar tarafindan kolayca anlasilabilir
  • test(sinama) verisi veya yeni veriler üzerinde
    belli oranda geçerli
  • yararli ve kullanilabilir
  • yeni
  • nesnel / öznel Ilginçlik metrikler
  • nesnel istatistikve örüntünün yapisina bagli
    örndestek(support), güven(confidence)
  • öznel kullanicinin data üzerindeki inanisina
    bagli örnyenilik, beklenmediklik

27
Bütün önemli örüntüler Bulunabilirmi?
  • Bütün önemli örüntülerin bulunmasi Bütünlük
  • Veri Madenciliginde önemli bütün örüntüler
    bulunabilir mi?
  • Heuristic vs. Ayrintili arama
  • Association vs. classification vs. clustering
  • Sadece önemli örüntünün aranmasi optimizasyon
    problemi
  • Veri madenciligi sistemi Sadece önemli örüntüleri
    bulunabilir mi?
  • Yaklasim
  • Bütün örüntüler bulunduktan sonra önemsiz
    olanlarin ayiklanmasi
  • Sadece önemli örüntülerin yaratilmasimining
    query optimization

28
Veri Madenciligi Farkli Disiplinlerin Birlesimi
Veri Tabani Teknolojisi
Istatistik
Veri Madenciligi
Makina Ögrenmesi
Görsellestirme Teknikleri
Algoritmalar
Diger Disiplinler
29
Veri Madenciligi Algoritmalari
  • amaç veriyi belli bir modele uydurmak
  • tanimlayici
  • En iyi müsterilerim kimler?
  • Hangi ürünler birlikte satiliyor?
  • Hangi müsteri gruplarinin alisveris
    aliskanliklari benzer?
  • kestirime dayali
  • Kredi basvuralarini risk gruplarina ayirma
  • Sirketle çalismayi birakacak müsterileri
    öngörme
  • Borsa tahmini
  • seçim veriye uyan en iyi modeli seçmek için
    kullanilan kriter
  • arama veri üzerinde arama yapmak için
    kullanilan teknik

30
Veri Madenciligi Modelleri
31
Veri Madenciligi Islevleri
  • Siniflandirma Veriyi önceden belirlenmis
    siniflardan birine dahil eder.
  • Egiticili ögrenme
  • Örüntü tanima
  • Kestirim
  • Egri uydurma Veriyi gerçel degerli bir
    fonksiyona dönüstürür.
  • Zaman serileri inceleme Zaman içinde degisen
    verinin degerini öngörür.

32
Veri Madenciligi Islevleri
  • Kümeleme Benzer verileri ayni grupta toplama
  • Egiticisiz ögrenme
  • Özetleme Veriyi altgruplara ayirir. Her
    altgrubu temsil edecek özellikler bulur.
  • Genellestirme
  • Nitelendirme
  • Iliskilendirme kurallari
  • Veriler arasindaki iliskiyi belirler
  • Sirali diziler Veri içinde sirali örüntüler
    bulmak için kullanilir.

33
Örnek Siniflandirma
34
Siniflama
categorical
categorical
continuous
class
Single, Divorced
MarSt
Married
Refund
NO
No
Yes
TaxInc
lt 80K
gt 80K
YES
NO
35
ÖrnekKümeleme
  • Doküman Kümeleme
  • Amaç
  • Döküman içinde geçen terimlere göre ayni
    konudaki dokümanlari gruplama
  • Yaklasim
  • Her doküman içinde sik geçen terimleri bul. Bu
    terimlerden ve agirliklarindan yararlanarak bir
    benzerlik ölçütü gelistir. Bu ölçüte göre
    demetleme yap
  • Kullanimi
  • Yeni bir dokümanin hangi dokümanlarla benzer
    oldugu terimlere göre arama yapildiginda bu
    terimleri içeren dokümanlari bulma

36
ÖrnekIliskilendirme Kurallari
37
Veri Madenciliginde Temel Sorunlar(1)
  • Veri madenciligi yöntemi
  • Farkli tipte veriler üzerinde çalisabilme
    (örnweb, bio, stream v.b.)
  • Farkli seviyelerde kullanici ile etkilesim
    halinde olabilme
  • Uygulama ortami bilgisini kullanabilme
  • Veri madenciligi ile elde edilen sonucu
    anlasilir sekilde sunabilme
  • Gürültülü ve eksik veri ile çalisabilme (ve iyi
    sonuç verebilme)
  • Degisen veya eklenen verileri kolayca
    kullanabilme
  • Örüntü degerlendirme önemli örüntüleri bulma

38
Veri Madenciliginde Temel Sorunlar(2)
  • Basarim ve ölçeklenebilirlik
  • Kullanabilirlik ve ölçeklenebilirlik
  • Zaman karmasikligi ve yer karmasikligi kabul
    edilebilir
  • Örnekleme yapabilme
  • Paralel ve dagitik yöntemler
  • Artimli veri madenciligi
  • Parçala ve çöz

39
Veri Madenciliginde Temel Sorunlar(3)
  • Kullanici Arabirimi
  • Görüntüleme
  • Sonucun anlasilabilir ve yorumlanabilir hale
    getirilmesi
  • Bilginin sunulmasi
  • Etkilesim
  • Veri madenciligi ile elde edilen bilginin
    kullanilmasi
  • Veri madenciligi yöntemine müdahele etmek
  • Veri madenciligi yönteminin sonucuna müdahele
    etmek

40
Veri Madenciliginde Temel Sorunlar(4)
  • Gizlilik ve sosyal haklar
  • Kisilere ait verilerin toplanarak, kisilerden
    habersiz ve izinsiz olarak kullanilmasi
  • Veri madenciligi yöntemleri ile bulunan
    sonuçlarin izinsiz olarak açiklanmasi
    (/paylasilmasi)
  • Gizlilik ve veri madenciligi politikalarinin
    düzenlenmesi

41
Uyari
  • Veri madenciligi yöntemleri bilinçsiz olarak
  • kullanilmamali
  • Veri madenciligi yöntemleri geçmis olaylara
    bakarak örüntüler bulur Gelecekteki olaylar
    geçmistekilerle ayni degildir
  • Iliskiler her zaman nedenleri açiklamaz
  • David Heckermanin verdigi örnek (1997)
  • hamburger, hot-dog, barbecue sauce

42
(No Transcript)
43
A Brief History of Data Mining Society
  • 1989 IJCAI Workshop on Knowledge Discovery in
    Databases (Piatetsky-Shapiro)
  • Knowledge Discovery in Databases (G.
    Piatetsky-Shapiro and W. Frawley, 1991)
  • 1991-1994 Workshops on Knowledge Discovery in
    Databases
  • Advances in Knowledge Discovery and Data Mining
    (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and
    R. Uthurusamy, 1996)
  • 1995-1998 International Conferences on Knowledge
    Discovery in Databases and Data Mining
    (KDD95-98)
  • Journal of Data Mining and Knowledge Discovery
    (1997)
  • 1998 ACM SIGKDD, SIGKDD1999-2001 conferences,
    and SIGKDD Explorations
  • More conferences on data mining
  • PAKDD (1997), PKDD (1997), SIAM-Data Mining
    (2001), (IEEE) ICDM (2001), etc.

44
Recommended Reference Books
  • R. Agrawal, J. Han, and H. Mannila, Readings in
    Data Mining A Database Perspective, Morgan
    Kaufmann (in preparation)
  • U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and
    R. Uthurusamy. Advances in Knowledge Discovery
    and Data Mining. AAAI/MIT Press, 1996
  • U. Fayyad, G. Grinstein, and A. Wierse,
    Information Visualization in Data Mining and
    Knowledge Discovery, Morgan Kaufmann, 2001
  • J. Han and M. Kamber. Data Mining Concepts and
    Techniques. Morgan Kaufmann, 2001
  • D. J. Hand, H. Mannila, and P. Smyth, Principles
    of Data Mining, MIT Press, 2001
  • T. Hastie, R. Tibshirani, and J. Friedman, The
    Elements of Statistical Learning Data Mining,
    Inference, and Prediction, Springer-Verlag, 2001
  • T. M. Mitchell, Machine Learning, McGraw Hill,
    1997
  • G. Piatetsky-Shapiro and W. J. Frawley. Knowledge
    Discovery in Databases. AAAI/MIT Press, 1991
  • S. M. Weiss and N. Indurkhya, Predictive Data
    Mining, Morgan Kaufmann, 1998
  • I. H. Witten and E. Frank, Data Mining
    Practical Machine Learning Tools and Techniques
    with Java Implementations, Morgan Kaufmann, 2001
Write a Comment
User Comments (0)
About PowerShow.com