Title: Systemy Uczace sie
1Systemy Uczace sie studium porównawcze
- Marek Kozlowski
- M.Kozlowski_at_stud.elka.pw.edu.pl
2Pielgrzymem byc ?
- To nie droga jest trudnoscia to trudnosci sa
droga
3Plan prezentacji
- Systemy uczace wprowadzenie
- Definicja
- Motywacja do badan
- Zastosowania
- Systemy uczace w teorii taksonomia
- Klasyczne kryteria nowe kryteria
- Systemy uczace w praktyce IDS
- Testowanie algorytmów
- Doskonalenie dzialania systemów uczacych
- Data preprocessing
- Hybrydowe rozwiazania
4Wszyscy sie uczymy ?
-
- Uczac sie zdobywamy takie umiejetnosci jak
mówienie, czytanie, programowanie, kierowanie
samochodem czy plywanie. - Uczymy sie szacowac wiek ludzi na podstawie ich
wygladu, nastrój na podstawie wyrazu twarzy i
gestykulacji. - Uogólniamy nasze obserwacje i odkrywamy
zaleznosci miedzy nimi. - Podejmujemy próby i popelniamy bledy, korygowane
przez krytycznych instruktorów lub przez nas
samych - Cale nasze doswiadczenie jest przetkane uczeniem
sie. - Caloksztalt naszych cech psychicznych i
intelektualnych - jest wynikiem niezliczonej liczby przeplatajacych
sie - procesów uczenia.
5Budowanie definicji uczenia sie
- Podstawowe elementy uczenia sie
- zmiana np. zmiana parametrów, zmiana
reprezentacji wiedzy itd.. - poprawa zwiekszenie skutecznosci, sprawnosci
systemu w wypelnianiu jego funkcji. Zakladamy
przy tym, iz dla kazdego systemu istnieje
mozliwosc oceny jakosci jego dzialania. - autonomicznosc system, który sie uczy sam
zmienia sie na lepsze (a nie jest zmieniany przez
kogos lub cos na zewnatrz niego) - doswiadczenie obserwacje lub otrzymywane
informacje zwiazane z jego funkcjami, których
poprawa sprawnosci wykonywania jest zewnetrznym
znamieniem uczenia sie.
6Definicja systemu uczacego sie
- System uczacy sie to taki system, w którym na
podstawie doswiadczen zachodza autonomiczne
zmiany prowadzace do poprawy jakosci jego
dzialania. - Definicja powyzsza jest nieostra (trudno dokonac
oceny autonomicznosci zmian a jeszcze gorzej z
rozstrzyganiem czy nastapily na podstawie
doswiadczen), co jednak nie tyle swiadczy o
mankamentach definicji co raczej o naturalnej
nieostrosci pojecia uczenia sie.
7Motywacja do uczenia sie
- Powody, dla których badania nad systemami
uczacymi sie - maja sens i sa godne zainteresowania
- dla naprawde zlozonych zadan trudno jest
sformulowac wprost ustalone, pelne algorytmy ich
rozwiazywania (niedeterminizm i zmiennosc
srodowiska dzialania programu). - inteligentne systemy w wielu zastosowaniach
powinny byc w maksymalnym stopniu autonomiczne. - zbiory dostepnych danych, pochodzacych z
pomiarów, obserwacji itp. sa zbyt duze i
skomplikowane aby wyszukiwac w nich zaleznosci w
sposób niezautomatyzowany.
8Kryteria porównawcze systemów uczacych sie
- Metoda reprezentacji wiedzy lub umiejetnosci
- Sposób uzywania wiedzy lub umiejetnosci
- Zródlo i postac informacji trenujacej
- Mechanizm nabywania i doskonalenia wiedzy lub
umiejetnosci
9Reprezentacja wiedzy
- Metoda reprezentacji wiedzy czesto wynika z
algorytmu uczenia, - który wybieramy. Wsród najczesciej stosowanych sa
drzewa - decyzyjne, reguly, formuly logiki predykatów,
rozklady - prawdopodobienstw i automaty skonczone.
- Czesto stosowane jest tez tradycyjne rozróznienie
na reprezentacje - Symboliczne - struktury, przechowujace
informacje o charakterze symbolicznym, czyli
zorganizowane w pewien sposób napisy, którym
mozna przypisac interpretacje. - Taka reprezentacja jest czytelna dla
czlowieka. - Subsymboliczne sa to zbiory liczb lub lancuchy
binarne, które lacznie reprezentuja pewna wiedze,
lecz wiedza ta nie moze byc bezposrednio wyrazona
w postaci zrozumialej dla czlowieka.
10Sposób uzywania wiedzy
- Sposób uzywania wiedzy jest na ogól determinowany
przez - metode reprezentacji wiedzy i cel, czyli stojace
przed systemem - zadanie.
- Do najbardziej typowych zadan naleza
- Klasyfikacja ustalenie przynaleznosci obiektów
do kategorii - Aproksymacja odwzorowanie obiektów na zbiór
liczb rzeczywistych - Grupowanie samodzielne tworzenie kategorii w
oparciu o podobienstwo - Do mniej typowych naleza
- Sekwencyjne podejmowanie decyzji
- Modelowanie srodowiska
- Przedstawienie zebranej wiedzy w czytelny dla
uzytkownika sposób
11Informacja trenujaca
- Klasyczny podzial
- Uczenie z nadzorem uczen otrzymuje informacje
okreslajaca pozadane odpowiedzi dla pewnego
zbioru wektorów wejsciowych jako przyklady
zachowania jakie sie od niego oczekuje - Uczenie sie bez nadzoru instruktazowa
informacja trenujaca nie jest dostepna, podawane
sa jedynie wektory wejsciowe i uczen ma sie
nauczyc wlasciwych odpowiedzi wylacznie
obserwujac ich sekwencje.
12Informacje trenujaca cd
- Inny typy uczenia
- Uczenie sie na podstawie zapytan informacja
trenujaca tez pochodzi od nauczyciela, ale ma
postac jedynie odpowiedzi na jawnie zadane
pytanie. Nauczyciel jest tylko wyrocznia. - Uczenie sie przez eksperymentowanie uczen
gromadzi doswiadczenie eksperymentujac ze swoim
srodowiskiem - uczenie ze wzmocnieniem informacje trenujaca ma
w tym przypadku charakter nie instruktazowy, ale
wartosciujacy (mówi jak dobre lub zle jest jego
dotychczasowe dzialanie)
13Mechanizm nabywania wiedzy
- Mechanizm, zgodnie z którym dokonuje sie
nabywania lub - doskonalenia wiedzy, jest najczesciej wyznaczany
jednoznacznie - przez metode reprezentacji wiedzy oraz postac
informacji - trenujacej.
- Indukcja uogólnianie jednostkowej informacji
trenujacej w celu uzyskania ogólnej wiedzy - Dedukcja - dojscie do okreslonego wniosku na
podstawie wczesniej okreslonego zbioru
prawdziwych przeslanek - EBL explanation based learning informacja
trenujaca nie jest uogólniana, ale sluzy do
konkretyzacji wiedzy wrodzonej - Analogical reasoning
14Przyklad indukcji
15Uczenie przez wyjasnianie
16Fundamenty Machine Learning
- Teoria prawdopodobienstwa aparat do analizy
algorytmów uczenia, podstawa mechanizmów
wnioskowania probabilistycznego - Teoria informacji decyduje o wyborze hipotezy,
na problem indukcyjnego uczenia sie patrzymy jak
na problem odpowiedniego kodowania informacji
trenujacej - Logika formalna podstawa wielu symbolicznych
metod reprezentacji wiedzy, bezposrednie
zastosowanie w EBL i indukcyjnym programowaniu
logicznym - Statystyka wykorzystywanie narzedzi
statystycznych do analizy danych trenujacych i
wyciagania wniosków przydatnych w procesie
uczenia (charakteryzowanie bledów, testy
statystycznej wiarygodnosci hipotez)
17Fundamenty Machine Learning
- Teoria sterowania sterowanie adaptacyjne (nie
znamy modelu sterowanego obiektu, dopuszcza sie
jego zmiennosc w czasie), pewne wyniki teorii
sterowania inspiruja badania nad systemami
uczacymi( uczenie ze wzmocnieniem) - Psychologia korzenie psychologiczne ma uczenie
ze wzmocnieniem (wartosciujaca informacja
trenujaca przypomina badania nad uczeniem sie
zwierzat) - Neurofizjologia subsymboliczne systemy uczace
sie (sieci neuronowe)
18Zastosowania systemów uczacych sie
- Odkrycia w bazach danych (Data Minning)
najczestsze rozwiazanie to komunikacja z
relacyjna baza i poszukiwanie w przechowywanych
rekordach zaleznosci. Np. ocena wiarygodnosci
klientów w bankach, diagnostyka medyczna. - Inteligentne sterowanie uczenie sie modelu
zachowania sterowanego obiektu, który jest
nastepnie uzywany do znalezienia strategii
sterowania - Robotyka adaptacyjnosc pozwalajaca na
przezwyciezenie takich problemów jak zlozonosc,
niepewnosc i zmiennosc srodowiska. Np. roboty
przemyslowe, eksploracyjne. - Inzynieria oprogramowania konstruowanie
inteligentnych interfejsów uzytkownika
programowanie przez demonstracje, szacowania
czasochlonnosci i zasobów, diagnostyka bledów
oprogramowania
19Zastosowania systemów uczacych cd
- Wykrywanie naduzyc program uczacy sie, który na
podstawie analizy historycznych danych
dotyczacych dobrych i zlych autoryzacji/transakcji
okresli pewne cechy pozwalajace na maksymalnie
wiarygodne ich odróznienie np. wlamania w
sieciach wewnetrznych, rozmowy na cudzy rachunek,
transakcje na rachunkach bankowych. - Klasyfikowanie dokumentów oraz innych zasobów
sieci WWW zautomatyzowane metody klasyfikacji i
filtrowania - Nawigacja w srodowisku biurowym ruchome roboty
pozwalajace na sprawne poruszanie sie po
wielopietrowych budynkach z sieciami korytarzy.
20Przyklady praktycznych rozwiazan
- Odkrywanie wiedzy w bazach danych indukcyjne
uczenie sie pojec - Problemy automatycznego sterowania (modele
sterowania obiektu, reprezentowanie strategii
sterowania) aproksymatory funkcji - Optymalizacja rozwiazywania zlozonych problemów
(planowanie zlozonych operacji dla inteligentnych
robotów, szeregowanie zadan w procesach
produkcyjnych) EBL - Oprogramowanie sterujace ruchomym robotem w celu
bezkolizyjnego poruszania w zamknietych
przestrzeniach uczenie ze wzmocnieniem
21IDS intrusion detection systems
- Systemy wykrywania wlaman mechanizm
nadzorowania bezpieczenstwa pozwalajacy na
wykrywanie nieautoryzowanych dostepów do systemów
lub sieci. IDS jest zdolny do wykrywania
wszystkich typów wrogiego ruchu sieciowego i
uzycia komputerów. - Przyklady wykrywanych naduzyc
- Ataki sieciowe na roznego rodzaju podatne uslugi
- Data-driven attacks wirus zakodowany w
niewinnie wygladajacych danych - Host-based attacks privilege escalation,
nieautoryzowane logowania - Malware trojany, dialery, backdoor i wiele
innych
22Podzial IDS
- Misuse Detection Systems wykrywanie oparte o
sygnatury ataków - Anomaly Detection Systems wykrywanie oparte o
indentyfikacje odchylen od normalnego dzialania - Compound Detection Systems systemy hybrydowe
- Ontology Detection Systems wykorzystanie
silnych ontologii zamiast prostych taksonomii
23Podzial IDS Misuse Detection
- Misuse Detection wykrywanie wlaman oparte na
predefiniowanym zbiorze sygnatur ataków. - Przegladajac wyspecyfikowane wzorce naduzyc
system porównuje nadchodzace pakiety lub
sekwencje komend do sygnatur znanych ataków. - Wiedza wbudowana o ataku jest konfrontowana ze
sladami jakie zostawia intruz w systemie. - Wzorce ataków sa najczesciej przechowywane w
odpowiednio pogrupowanych zbiorach regul, lub w
postaci diagramów przejsc.
24Misuse Detection - cd
- Zalety
- Wysoka skutecznosc wykrywania znanych ataków
- Rozpoczyna ochrone zaraz po zainstalowaniu
- Wada
- Klopoty z sygnaturami obejmujacymi wiele pakietów
- Koniecznosc stalego updatowania bazy sygnatur
- Kazdy atak, a nawet jego specjalizacja wymaga
odpowiedniego wzorca w bazie
25Podzial IDS Anomaly Detection
- Anomaly Detection najpierw tworzy bazowy profil
normalnej systemowej lub sieciowej aktywnosci.
Nastepnie kazde dzialanie odbiegajace istotnie od
profilu traktuje jako mozliwe wlamanie. - Zalety
- Mozliwosc wykrywania wewnetrznych naduzyc
- System oparty na pelnej personalizacji profili,
tym samym brak wspólnych slabych punktów - Zdolnosc do wykrywania dotad nieznanych ataków
- Wady wystepowanie fazy tworzenia normalnego
profilu, wysoki wspólczynnik false alarms
26Anomaly detection cd.
- Mozna wyróznic dwie fazy
- Treningu formulowanie normalnego profilu
- Testowania weryfikacja nauczonego profilu z
naplywajacymi danymi - Efekty dzialania Anomaly Detection
- Intrusive but not anomalous FalseNegatives
- Not intrusive but anomalous FalsePositives
- Not intrusive and not anomalous TrueNegative
- Intrusive and anomalous - TruePositive
27Podzial IDS Compound Detection
- Compound Detection jest polaczeniem techniki
sygnaturowej z wykrywaniem anomalii. - Hybrydowosc przejawia sie w mechanizmie
decyzyjnym, który bazuje na analizie normalnego
zachowania systemu i jednoczesnym badaniu znanych
wzorców wlaman. - Anomaly detection pomaga w wykrywaniu nowych,
nieznanych ataków, podczas gdy misuse detection
wykrywa znane naduzycia, oraz próby zlego
wytrenowania systemu. - Zalety
- znacznie redukuje liczbe false alarms (FP)
- rosnie automatycznie tez liczba positive alarms
(TP)
28Podzial IDS Ontology detection
- Ontologia jest to katalog typów rzeczy, które
zaklada sie, ze istnieja w rozwazanej domenie D z
perspektywy osoby, która uzywa jezyka L do opisu
D Sowa, 2000. - Ontologia dostarcza zbioru termów i relacji, przy
pomocy których mozna zamodelowac dziedzine dla
ktorej budujemu IDS aplikacje. - Wyrazanie IDS w kontekscie pojec zrozumialych dla
zwyklego uzytkownika wieksza intuicyjnosc - Tworzenie IDS staje sie prostsze z wiedzy
zawartej w ontologii dziedziny mozna wyprowadzic
niskopoziomowe wlasciwosci - Inteligentne wnioskowanie wykorzystanie relacji
miedzy obiektami na bazie struktury ontologii
29KDD Cup 99
- W 1998 DARPA(Defense Advanced Research Projects
Agency) zlecila MIT Lincoln Labs opracowanie
programu oceny wykrywania wlaman - Lincoln Labs stworzyl srodowisko, które przez 9
tygodni zbieralo surowe dane TCP z lokalnej sieci
symulujace U.S. Air Force LAN, która poddana byla
wielkiej ilosci ataków - Surowe dane treningowe 6GB skompresowanych
binarnych danych TCP 7 mln polaczeniowych
rekordów - Polaczenie jest sekwencja TCP pakietów
zaczynajacych sie i konczacych w scisle
okreslonych momentach czasu (pomiedzy którymi
dane przeplywaja do i z zródlowego adresu IP do
docelowego adresu)
30KDD Cup 99 cd
- Polaczenia jest reprezentowane za pomoca rekordów
polaczeniowych, gdzie kazdy jest etykietowany
jako normalny lub atak (z podaniem okreslonego
typu ataku) - Kazdy polaczeniowy rekord sklada sie z okolo 100
bajtów - Ataki sa zaliczane do jednej z 4 kategorii DOS
(denial of service), R2L (unauthorized access
from remote machine), U2R (unauthorized access to
local superuser) i Probing (próbkowanie/skanowanie
portów) - Dane testowe nie pochodza z tego samego rozkladu
probabilistycznego jak dane treningowe
zawieraja specyficzne ataki, których nie ma w
danych treningowych
31KDD Cup 99 rekord polaczeniowy
- W celu rozróznienia polaczen normalnych od
naduzyc zostaly zdefiniowane wysokopoziomowe
cechy - Cechy typu same host badaja tylko polaczenia
z ostatnich 2 sekund, które maja ten sam docelowy
host jak aktualne polaczenie - Cechy typu same service badaja tylko
polaczenia z ostatnich 2 sekund, które maja ta
sama usluge co aktualne polaczenie - Cechy oparte na hoscie w oparciu o okno 100
polaczen do tego samego adresu - Cechy oparte na wiedzy ekspertów (content
features) podejrzewane zachowania w porcjach
danych np. number of failed login attempts - Przykladowy rekord
- 0,tcp,http,SF,334,1684,0,0,0,0,0,1,0,0,0,0,0,0,0,0
,0,0,1,9,0.00,0.00,0.00,1.00,0.00,0.33,0,0,0.00,0.
00,0.00,0.00,0.00,0.00,normal
32Eksperyment praktyczny
- Wybralem 3 klasyczne algorytmy uczenia Naive
Bayes, Bayesian Net, ID3 (C.4.5) - Zbiór danych testowych KDD Cup 99
- Rola preprocessingu w uczeniu feature selection
- Dokladnosc klasyfikacji vs szybkosc dzialania
- Hybrydowosc pomiedzy algorytmami
33Stosowane algorytmy uczenia
- ID3 drzewa decyzyjne
- w kazdym wezle umieszczony jeden atrybut,
- kazda krawedz jest etykietowana jedna z mozliwych
wartosci atrybutu rodzica, - lisciem jest wartosc ze zbioru kategorii
- Naive Bayes
-
- Bayesian Net skierowany acykliczny graf, w
którym wierzcholki reprezentuja zdarzenia, a luki
zwiazki przyczynowe pomiedzy zdarzeniami
34Preprocessing - Feature reduction
- Metody redukcji cech polegaja na ograniczaniu
zbioru atrybutów do najbardziej istotnych w
procesie klasyfikacji - Filter uniwersalne metody oparte na
specyficznych metrykach do oceny i wyboru cech
np. CorrelationFS, ConsistancyFS - Wrapper ocenia jakosc atrybutów uzywajac
konkretnego algorytmu ML (tak otrzymany zbiór
cech jest szyty pod dany alg.uczenia np. ID3)
35Feature reduction
- Correlation Based Feature Evaluator algorytm
dokonujacy oceny jakosci kolejnych podzbiorów
cech uzywajacy heurystyki oceny korelacji miedzy
cechami oraz kategoria. Wysokie noty sa
przypisywane do zbiorów, które charakteryzuja sie
wysokim skorelowaniem z kategoria a niska
wewnetrzna korelacja. - Do generowania podzbiorów cech mozna uzywac wielu
algorytmów przeszukiwania np genetic search,
random, race search, best first czy greedy. - Uzywam Best first search tworzy nowe zbiory
bazujac na dodawaniu lub usuwaniu cech. Zdolnosc
do nawracania aby odkrywac nowe mozliwosci, gdy
obecna sciezka nie daje zadnej poprawy.
36Feature reduction
- Zastosowanie CFS forward best first search
zoptymalizowalo zbiór cech z 41 do 17. - Mniejsza liczba cech to szybsza realizacja budowy
modelu i jego uzycia do klasyfikacji. - Z drugiej strony takie dosc znaczne ograniczenie
zbioru atrybutów musi wplywac na dokladnosc
klasyfikacji?
37Dokladnosc klasyfikacji
38Szybkosc klasyfikacji
39Szybkosc budowania modelu
40Hybrydowe rozwiazania
- Scalanie algorytmów uczenia w ramach tej samej
techniki uczenia np. Naive Bayes ID3 indukcje
regul - Podejscie wagowe wagami sa indywidualne srednie
dokladnosci klasyfikacji specyficznych zbiorów
przykladów - Scalanie róznych technik uczenia indukcja
dedukcja
41Dziekuje za uwage -gt
-
-
- Przeciez i ja ziemi tyle mam,Ile jej stopa ma
pokrywa,Dopókad ide!... -
- C.Norwid Pielgrzym