Title: Por
1Porównywanie sekwencji bialkowychz
wykorzystaniem metodyewolucyjno-progresywnej
- Pawel Kupis
- Jacek Mandziuk
2Biologiczna geneza problemu
- bialko (polipeptyd)
- polimer liniowy aminokwasowy
- monomery aminokwasy
- 20 rodzajów aminokwasów
- pierwszorzedowa struktura protein
- sekwencja bialkowa
- kolejnosc aminokwasów
- polaryzacja (kierunek czytania sekwencji)
3Biologiczna geneza problemu
- przyklad
- HBA_HUMAN (prefix ludzkiej hemoblobiny)
- VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLS
HGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFK
LLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
4Porównywanie sekwencji
- problem
- trudno wyznaczyc kryterium porównywania
- pomysl
- ilosc identycznych pozycji w sekwencjach o
identycznej dlugosci - rozwiazanie
- uliniowienie sekwencji
5Uliniowienie sekwencji
- uliniowienie sekwencji (ang. sequence alignment)
- warunki
- n-ty wiersza po usunieciu znaków - daje n-ta
sekwencje - dlugosc wszystkich wierszy uliniowienia jest
jednakowa - zadna kolumna uliniowienia nie zawiera tylko
znaków -
CA-GCUUAUCGCUUAG AAUGCAU-UGACG--G
6Uliniowienie wielu sekwencji
- MSA (ang. multiple sequence alignment)
- warunki
- n-ty wiersza po usunieciu znaków - daje n-ta
sekwencje - dlugosc wszystkich wierszy uliniowienia jest
jednakowa - zadna kolumna uliniowienia nie zawiera tylko
znaków - - takie same jak dla uliniwienia dwóch sekwencji
LGB2_LUPLU VPQ--NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDA
TLKNLGSVHVSK-GVADAHFPV MYG_PHYCA
EAEMKASEDLKKHGVTVLTALGAILKKKG--HHEAELKPLAQS---HATK
HKIPIKYLEF GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVAS
MD--DTEKMSMKLRDLSGKHAKSFQVDPQYFKV HBB_HUMAN
PDAVMGNPKVKAHGKKVLGAFSDGLAHLD--NLKGTFATLSEL---HCDK
LHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHH
LD--NLKGTFAALSEL---HCDKLHVDPENFRL HBA_HUMAN
-----GSAQVKGHGKKVADALTNAVAHVD--DMPNALSALSDL---HAHK
LRVDPVNFKL HBA_HORSE -----GSAQVKAHGKKVGDALTLAVGH
LD--DLPGALSNLSDL---HAHKLRVDPVNFKL
. . . . .
.
7Metoda ewolucyjno-progresywna
- metoda 2-etapowa
- etap 1. - ewolucyjny
- dopasowywanie kolumn calkowicie identycznych
- znajdowanie optymalnego tzw. wstepnego
uliniowienia - etap wykonywany rekurencyjnie
- etap 2. - progresywny
- uliniowienie obszarów miedzy kolumnami
zidentyfikowanymi w etapie 1.
8Etap ewolucyjny
- dopasowywanie kolumn calkowicie identycznych,
przyklad - wszystkie mozliwe kolumny zgodne
9Etap ewolucyjny
- blok kolumn identycznych
- kolumny tworza blok jesli we wszystkich wierszach
róznica w indeksach wynosi jeden (wiekszy indeks
mniejszy indeks) - blok moze miec dowolna dlugosc
- w szczególnosci pojedyncza kolumna równiez mozna
traktowac jako blok
10Etap ewolucyjny
- wstepne uliniowienie
- szereg bloków spelniajacy nastepujace warunki
- dowolny indeks moze wystapic w wierszu tylko raz
- w kazdym wierszu indeksy sa w porzadku rosnacym
- powyzsze warunki gwarantuja, ze na podstawie
wstepnego uliniowienia mozna zbudowac pelne
uliniowienie (zachowujac ustalone kolumny
identyczne)
11Etap ewolucyjny
- kolumny szkodliwe
- intuicyjnie mozemy okreslic taka kolumne jako
laczaca zbyt odlegle czesci róznych sekwencji - kolumna taka, uniemozliwia bardzo czesto lepsze
dopasowanie innych kolumn identycznych
12Etap ewolucyjny
- bliskie optymalnemu uliniowienie z wymuszeniem
uzgodnienia kolumny symboli T - uliniowienie tych samych sekwencji bez
uzgadnianie symboli T
13Etap ewolucyjny
- zadania algorytmu ewolucyjnego
- znalezienie optymalnego wstepnego uliniowienia
- budowa populacji startowej
- czas budowy musi byc kontrolowalny
- wprowadzenie to populacji startowej
reprezentatywnego podzbioru mozliwych kolumn
identycznych - uzycie wszystkich (z wszystkich czesci sekwencji)
symboli z sekwencji - unikanie szkodliwych kolumn
- ew. pózniejsza ich eliminacja
14Budowa populacji startowej
- metode charakteryzuja dwa podstawowe parametry
- cmax górny limit (w przyblizeniu) ilosci
zidentyfikowanych kolumn identycznych - w szerokosc tzw. okna przeszukiwania
- symbole tworzace kolumne identyczna nie moga
pochodzic z dowolnych czesci sekwencji - kazdy symbol pochodzi z aktywnego okna
przeszukiwania danej sekwencji
15Budowa populacji startowej
- wzgledna dlugosc okna przeszukiwania (w stosunku
do dl. sekwencji) jest taka sama dla wszystkich
sekwencji - analogicznie wzgledna pozycja srodka okna
(wzgledem poczatku sekwencji) - z kazdego okna, losowo, wybierany jest jeden
symbol - jesli wszystkie symbole sa identyczne, tworzona
jest kolumna identyczna - nie jest sprawdzana unikalnosc kolumny
- czynnosc jest wykonywana razy dla
kazdego symbolu (okna szerokosci jednego
symbolu) wyróznionej sekwencji - gdzie m dl. wyróznionej sekwencji (np.
najkrótszej)
16Budowa populacji startowej
- zbieranie informacji (tworzenie wstepnych
uliniowien)
A zbiór kolumn identycznych (porzadek
odnajdywania) P populacja startowa, poczatkowo
pusta cp nominalny rozmiar populacji startowej
17Algorytm ewolucyjny
- populacja startowa (cmax4000, w0.04)
- cp (ma n) / 10, ma sr. dl. sekwencji, n
ilosc sekwencji - cp gt 100 oraz cp lt 400
- tylko jeden operator genetyczny - krzyzowanie
18Algorytm ewolucyjny
- krzyzowanie
- jednopunktowe
- losowe punkty ciecia (mozliwe przed pierwszym i
za ostatnim blokiem) - punkt ciecia nigdy nie rozdziela bloku
- po wymianie informacji sprawdzana jest mozliwosc
zlaczenia bloków sasiadujacych z punktem ciecia - lepszy z potomków musi byc lepszy od obojga
rodziców - domyslne prawdopodobienstwo krzyzowania 0.4
19Algorytm ewolucyjny
- funkcja przystosowaniacol(p) ilosc kolumn
identycznych w osobniku plenmin(p) minimalna
dlugosc uliniowienia powstalego na podstawie
uliniowienia wstepnego reprezentowanego przez
osobnika pa wykladnik okreslajacy istotnosc
karania na powstawanie nadmiernie dlugich
uliniowien (20)
20Algorytm ewolucyjny
- jesli i-ty blok wstepnego uliniowienia p
oznaczymy jako bito funkcja lenmin(p)
wyraza sie wzorem
21Algorytm ewolucyjny
- warunki stopu
- przystosowanie najlepszego osobnika nie zmienilo
sie od 40 generacji - osiagnieto limit 1000 generacji
- wywolania rekurencyjne dla obszarów miedzy
blokami (w najlepszym z osobników) - koniec rekurencji
- alg. ewolucyjny nie znalazl zadnej kolumny
identycznej - minimalna odleglosc miedzy danymi blokami jest lt
20
22Algorytm progresywny
- uruchamiany dla obszarów miedzy blokami
zidentyfikowanymi przez alg. ewolucyjny - implementacja zblizona do ClustalW
- drzewo filogenetyczne budowane metoda
neighbor-joining (z ukorzenianiem metoda
mid-point rooting)
23Algorytm progresywny
- uliniawianie par metoda Myersa-Millera
- przystosowanie do uliniawiania uliniowien
- przystosowanie do afinicznej kary za wprowadzane
przerwy - kara k(w) GOP wGEP, w dl. Wprowadzonej
przerwy - kary za wprowadzanie przerw zalezne od pozycji w
sekwencji (funkcyjny opis parametrów kary
afinicznej) - stosowanie macierzy substytucji (automatyczny
dobór w zaleznosci do odleglosci sekwencji w
drzewie filogenetycznym)
24Testy
- Na podstawie referencyjnych baz
BAliBASEbazy udostepniaja zarówno testowe
zestawy sekwencji, jak i gotowe uliniowienia
tych zestawów
25Ocena uliniowienia
- miara SPS (Sum-of-Pair Score)
, N - ilosc sekwencji, n - dlugosc
uliniowienia danej pary sekwencji, m - ilosc
przerw w uliniowieniu pary sekwencji - miara CS (Column Score)
- ilosc kolumn identycznych w stosunku do dl.
uliniowienia - wszystkie wyniki podawane sa jako sredni stosunek
miar w odniesieniu do rezultatów dla uliniowien
z bazy referencyjnej
26Wyniki
27Wyniki
28Koniec
Dziekuje za uwage