Por - PowerPoint PPT Presentation

About This Presentation
Title:

Por

Description:

Title: Slajd 1 Author: pkupis Last modified by: Pawe Kupis Created Date: 11/12/2004 9:32:32 AM Document presentation format: Pokaz na ekranie Company – PowerPoint PPT presentation

Number of Views:62
Avg rating:3.0/5.0
Slides: 29
Provided by: pku9
Category:
Tags: etap | por

less

Transcript and Presenter's Notes

Title: Por


1
Porównywanie sekwencji bialkowychz
wykorzystaniem metodyewolucyjno-progresywnej
  • Pawel Kupis
  • Jacek Mandziuk

2
Biologiczna geneza problemu
  • bialko (polipeptyd)
  • polimer liniowy aminokwasowy
  • monomery aminokwasy
  • 20 rodzajów aminokwasów
  • pierwszorzedowa struktura protein
  • sekwencja bialkowa
  • kolejnosc aminokwasów
  • polaryzacja (kierunek czytania sekwencji)

3
Biologiczna geneza problemu
  • przyklad
  • HBA_HUMAN (prefix ludzkiej hemoblobiny)
  • VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLS
    HGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFK
    LLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

4
Porównywanie sekwencji
  • problem
  • trudno wyznaczyc kryterium porównywania
  • pomysl
  • ilosc identycznych pozycji w sekwencjach o
    identycznej dlugosci
  • rozwiazanie
  • uliniowienie sekwencji

5
Uliniowienie sekwencji
  • uliniowienie sekwencji (ang. sequence alignment)
  • warunki
  • n-ty wiersza po usunieciu znaków - daje n-ta
    sekwencje
  • dlugosc wszystkich wierszy uliniowienia jest
    jednakowa
  • zadna kolumna uliniowienia nie zawiera tylko
    znaków -

CA-GCUUAUCGCUUAG AAUGCAU-UGACG--G
6
Uliniowienie wielu sekwencji
  • MSA (ang. multiple sequence alignment)
  • warunki
  • n-ty wiersza po usunieciu znaków - daje n-ta
    sekwencje
  • dlugosc wszystkich wierszy uliniowienia jest
    jednakowa
  • zadna kolumna uliniowienia nie zawiera tylko
    znaków -
  • takie same jak dla uliniwienia dwóch sekwencji

LGB2_LUPLU VPQ--NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDA
TLKNLGSVHVSK-GVADAHFPV MYG_PHYCA
EAEMKASEDLKKHGVTVLTALGAILKKKG--HHEAELKPLAQS---HATK
HKIPIKYLEF GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVAS
MD--DTEKMSMKLRDLSGKHAKSFQVDPQYFKV HBB_HUMAN
PDAVMGNPKVKAHGKKVLGAFSDGLAHLD--NLKGTFATLSEL---HCDK
LHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHH
LD--NLKGTFAALSEL---HCDKLHVDPENFRL HBA_HUMAN
-----GSAQVKGHGKKVADALTNAVAHVD--DMPNALSALSDL---HAHK
LRVDPVNFKL HBA_HORSE -----GSAQVKAHGKKVGDALTLAVGH
LD--DLPGALSNLSDL---HAHKLRVDPVNFKL
. . . . .
.
7
Metoda ewolucyjno-progresywna
  • metoda 2-etapowa
  • etap 1. - ewolucyjny
  • dopasowywanie kolumn calkowicie identycznych
  • znajdowanie optymalnego tzw. wstepnego
    uliniowienia
  • etap wykonywany rekurencyjnie
  • etap 2. - progresywny
  • uliniowienie obszarów miedzy kolumnami
    zidentyfikowanymi w etapie 1.

8
Etap ewolucyjny
  • dopasowywanie kolumn calkowicie identycznych,
    przyklad
  • wszystkie mozliwe kolumny zgodne

9
Etap ewolucyjny
  • blok kolumn identycznych
  • kolumny tworza blok jesli we wszystkich wierszach
    róznica w indeksach wynosi jeden (wiekszy indeks
    mniejszy indeks)
  • blok moze miec dowolna dlugosc
  • w szczególnosci pojedyncza kolumna równiez mozna
    traktowac jako blok

10
Etap ewolucyjny
  • wstepne uliniowienie
  • szereg bloków spelniajacy nastepujace warunki
  • dowolny indeks moze wystapic w wierszu tylko raz
  • w kazdym wierszu indeksy sa w porzadku rosnacym
  • powyzsze warunki gwarantuja, ze na podstawie
    wstepnego uliniowienia mozna zbudowac pelne
    uliniowienie (zachowujac ustalone kolumny
    identyczne)

11
Etap ewolucyjny
  • kolumny szkodliwe
  • intuicyjnie mozemy okreslic taka kolumne jako
    laczaca zbyt odlegle czesci róznych sekwencji
  • kolumna taka, uniemozliwia bardzo czesto lepsze
    dopasowanie innych kolumn identycznych

12
Etap ewolucyjny
  • bliskie optymalnemu uliniowienie z wymuszeniem
    uzgodnienia kolumny symboli T
  • uliniowienie tych samych sekwencji bez
    uzgadnianie symboli T

13
Etap ewolucyjny
  • zadania algorytmu ewolucyjnego
  • znalezienie optymalnego wstepnego uliniowienia
  • budowa populacji startowej
  • czas budowy musi byc kontrolowalny
  • wprowadzenie to populacji startowej
    reprezentatywnego podzbioru mozliwych kolumn
    identycznych
  • uzycie wszystkich (z wszystkich czesci sekwencji)
    symboli z sekwencji
  • unikanie szkodliwych kolumn
  • ew. pózniejsza ich eliminacja

14
Budowa populacji startowej
  • metode charakteryzuja dwa podstawowe parametry
  • cmax górny limit (w przyblizeniu) ilosci
    zidentyfikowanych kolumn identycznych
  • w szerokosc tzw. okna przeszukiwania
  • symbole tworzace kolumne identyczna nie moga
    pochodzic z dowolnych czesci sekwencji
  • kazdy symbol pochodzi z aktywnego okna
    przeszukiwania danej sekwencji

15
Budowa populacji startowej
  • wzgledna dlugosc okna przeszukiwania (w stosunku
    do dl. sekwencji) jest taka sama dla wszystkich
    sekwencji
  • analogicznie wzgledna pozycja srodka okna
    (wzgledem poczatku sekwencji)
  • z kazdego okna, losowo, wybierany jest jeden
    symbol
  • jesli wszystkie symbole sa identyczne, tworzona
    jest kolumna identyczna
  • nie jest sprawdzana unikalnosc kolumny
  • czynnosc jest wykonywana razy dla
    kazdego symbolu (okna szerokosci jednego
    symbolu) wyróznionej sekwencji
  • gdzie m dl. wyróznionej sekwencji (np.
    najkrótszej)

16
Budowa populacji startowej
  • zbieranie informacji (tworzenie wstepnych
    uliniowien)

A zbiór kolumn identycznych (porzadek
odnajdywania) P populacja startowa, poczatkowo
pusta cp nominalny rozmiar populacji startowej
17
Algorytm ewolucyjny
  • populacja startowa (cmax4000, w0.04)
  • cp (ma n) / 10, ma sr. dl. sekwencji, n
    ilosc sekwencji
  • cp gt 100 oraz cp lt 400
  • tylko jeden operator genetyczny - krzyzowanie

18
Algorytm ewolucyjny
  • krzyzowanie
  • jednopunktowe
  • losowe punkty ciecia (mozliwe przed pierwszym i
    za ostatnim blokiem)
  • punkt ciecia nigdy nie rozdziela bloku
  • po wymianie informacji sprawdzana jest mozliwosc
    zlaczenia bloków sasiadujacych z punktem ciecia
  • lepszy z potomków musi byc lepszy od obojga
    rodziców
  • domyslne prawdopodobienstwo krzyzowania 0.4

19
Algorytm ewolucyjny
  • funkcja przystosowaniacol(p) ilosc kolumn
    identycznych w osobniku plenmin(p) minimalna
    dlugosc uliniowienia powstalego na podstawie
    uliniowienia wstepnego reprezentowanego przez
    osobnika pa wykladnik okreslajacy istotnosc
    karania na powstawanie nadmiernie dlugich
    uliniowien (20)

20
Algorytm ewolucyjny
  • jesli i-ty blok wstepnego uliniowienia p
    oznaczymy jako bito funkcja lenmin(p)
    wyraza sie wzorem

21
Algorytm ewolucyjny
  • warunki stopu
  • przystosowanie najlepszego osobnika nie zmienilo
    sie od 40 generacji
  • osiagnieto limit 1000 generacji
  • wywolania rekurencyjne dla obszarów miedzy
    blokami (w najlepszym z osobników)
  • koniec rekurencji
  • alg. ewolucyjny nie znalazl zadnej kolumny
    identycznej
  • minimalna odleglosc miedzy danymi blokami jest lt
    20

22
Algorytm progresywny
  • uruchamiany dla obszarów miedzy blokami
    zidentyfikowanymi przez alg. ewolucyjny
  • implementacja zblizona do ClustalW
  • drzewo filogenetyczne budowane metoda
    neighbor-joining (z ukorzenianiem metoda
    mid-point rooting)

23
Algorytm progresywny
  • uliniawianie par metoda Myersa-Millera
  • przystosowanie do uliniawiania uliniowien
  • przystosowanie do afinicznej kary za wprowadzane
    przerwy
  • kara k(w) GOP wGEP, w dl. Wprowadzonej
    przerwy
  • kary za wprowadzanie przerw zalezne od pozycji w
    sekwencji (funkcyjny opis parametrów kary
    afinicznej)
  • stosowanie macierzy substytucji (automatyczny
    dobór w zaleznosci do odleglosci sekwencji w
    drzewie filogenetycznym)

24
Testy
  • Na podstawie referencyjnych baz
    BAliBASEbazy udostepniaja zarówno testowe
    zestawy sekwencji, jak i gotowe uliniowienia
    tych zestawów

25
Ocena uliniowienia
  • miara SPS (Sum-of-Pair Score)
    , N - ilosc sekwencji, n - dlugosc
    uliniowienia danej pary sekwencji, m - ilosc
    przerw w uliniowieniu pary sekwencji
  • miara CS (Column Score)
  • ilosc kolumn identycznych w stosunku do dl.
    uliniowienia
  • wszystkie wyniki podawane sa jako sredni stosunek
    miar w odniesieniu do rezultatów dla uliniowien
    z bazy referencyjnej

26
Wyniki
27
Wyniki
28
Koniec
  • Pytania?
  • Sugestie

Dziekuje za uwage
Write a Comment
User Comments (0)
About PowerShow.com