Title: Matematyk bada regulacje gen
1Matematyk bada regulacje genów
- Winfried Just
- Department of Mathematics
- Ohio University
2Nowy mikroskop i nowa fizyka
- W 2004 ukazal sie w PLoS Biology artykul Joel E.
Cohena pt. - Mathematics Is Biology's Next Microscope, Only
Better - Biology Is Mathematics' Next Physics, Only
Better. - Czyzby?
- Czym sie rózni ten nowy mikroskop od dobrze nam
znanych? - Jak sie nim poslugiwac?
- I dlaczego matematycy zaczeli sie powaznie
interesowac - biologia?
3Wiecej dobrych wiadomosci
- NSF i NIH ostatnio przeznaczaja duze dotacje na
biomatematyke. - Np. w 2002 powstal Mathematical Biosciences
Institute, pierwszy i dotad jedyny instytut NSFu
specjalizujacy sie wylacznie w zastosowaniach
matematyki do jednej dziedziny. - Powstaly niedawno równiez inne instytuty
biomatematyczne, sfinansowane ze srodków
prywatnych. - Powstaje sporo nowych czasopism specjalizujacych
sie w biomatematyce. - Rynek pracy jest bardzo korzystny dla
biomatematyków szukajacych zatrudnienie, badz na
uczelniach, badz w przemysle, zwlaszcza w
przemysle farmaceutycznym.
4Skad ten trend?
- I dlaczego obserwujemy ten rozwój teraz, a nie 30
lat temu, lub - za 30 lat? Skladaja sie na to dwa glówne powody
- Wspólczesne badania biologiczne dostarczaja
olbrzymia ilosc danych. Wyciaganie znaczacych
wniosków biologicznych z tych danych wymaga
analizy za pomoca komputerów, opartej na
odpowiednich modelach matematycznych. Zatem
matematyka stala sie narzedziem niezbednym. - Obecne komputery pozwalaja nam na badanie modeli
matematycznych dostatecznie rozbudowanych by
wyciagac realistyczne wnioski. Matematyka stala
sie narzedziem pozytecznym.
5Przyklad zbioru danych Genbank
- Pierwszy genom wirusa zostal opublikowany w
latach 80-tych, - pierwszy genom bakterii H. influenzae, 1.83 106
bp, w 1995, - pierwszy genom organizmu wielokomórkowego
- C. elegans, 108 bp, w 1998. Szkic naszego
genomu, - H. sapiens, p 109 bp, zostal ogloszony w
czerwcu 2000. - W lutym 2008 Genbank zawieral 85 759 586 764 bp
informacji. - Jak z tej ilosci informacji wyciagnac konkretne
wnioski?
6Gdzie sa geny?
- Popatrzmy np. na wlasny genom. Informacja o nim
jest - zapisana w Genbank jako dlugi ciag p 109 liter
- ...actggtacctgtatatggacgctccatatttaatgcgcgatgcagga
tctaaa... - Mniej niz 1,5 tego ciagu koduje bialka. Jak
znalezc te geny? - Oczywiscie zaden czlowiek nie moze przeczytac
tego ciagu. - Komputer robi to z latwoscia. Wiec moze komputer
nam - powie w jakim miejscu zaczyna sie gen, a gdzie
sie konczy? - Ale co wlasciwie ten komputer ma policzyc?
7Kasyno Poczciwego Craiga
- Jest to kasyno w stanie Nevada gdzie sie gra w
ruletke - 64-liczbowa. W kazdej rundzie gracz stawia
zetony na - trzy z tych 64 liczb. Jesli kulka wpada na jedna
z tych - trzech wybranych liczb, poczciwy Craig wyplaca
- odpowiednia sume. Jesli nie, gracz traci swoje
zetony. - Latwo policzyc ze przecietny czas oczekiwania na
- pierwsza wygrana wynosi 64/3 21,33 rundek.
8Prawdopodobienstwo dlugich czasów oczekiwania
- Zalózmy ze Craig jest taki poczciwy jak twierdzi.
Wtedy - prawdopodobienstwo P(k) ze nasz gracz ciagle
przegrywa przez - pierwsze k rund wynosi (61/64)k. W
szczególnosci, zaczynajac - od k 50 otrzymujemy prawdopodobienstwa
- P(50) 0,0907 P(51) 0,0864 P(52) 0,0824
P(53) 0,0785 P(54) 0,0748 - P(55) 0,0713 P(56) 0,0680 P(57) 0,0648
P(58) 0,0618 P(59) 0,0589 - P(60) 0,0561 P(61) 0,0535 P(62) 0,0510
P(63) 0,0486 P(64) 0,0463 - P(65) 0,0441 P(66) 0,0421 P(67) 0,0401
P(68) 0,0382 P(69) 0,0364 - P(100) 0,0082 P(200) 0,000064 P(300)
0,00000055
9Troche terminologii statystycznej
- Zalózenie, ze Craig jest taki poczciwy jak
twierdzi jest nasza - hipoteza zerowa. Podejrzenie, ze jednak oszukuje
jest hipoteza - alternatywna. Hipoteze zerowa nalezy odrzucic
jesli ona - implikuje ze prawdopodobienstwo obserwowanych
wartosci - jest ponizej poziomu istotnosci, który sie w
nauce na ogól - przyjmuje jako 0.05.
- Bledne oskarzenie poczciwego Craiga o oszustwo
byloby - bledem pierwszego rodzaju, podczas gdy ufanie mu
kiedy - naprawde oszukuje byloby bledem drugiego rodzaju.
10Laboratorium Craiga Ventera
- W 1995 zespól Craiga Ventera sekwencjonowal genom
bakterii - H. influenzae. W celu odkrywania pozycji 1740
kodujacych - bialka genów w tym ciagu 1 830 140 par zasad DNA
mozna - rozumowac tak W bakteriach prawie caly genom
koduje bialka. - Zaczynajmy od pozycji n i odczytujmy literki
trójkami - (n, n1, n2), (n3, n4, n5), Jesli jestesmy
we wlasciwym - reading frame, to daje nam to sekwencje kodonów
konczaca - sie kodonem STOP, czyli TAA, TGA, lub TAG taki
kodon STOP - wystepuje przecietnie raz na ok. 300 trójek.
Jesli jestesmy w - jednym z pieciu niewlasciwych reading frames, to
czytamy - galimatius, czyli ciag mniej wiecej losowy, i
jedna z trójek - TAA, TGA, TAG powinna wystepowac przecietnie raz
na - 64/3 21.33 pozycji.
- Skad my to znamy?
11To ten sam problem!
- Z drobnymi modyfikacjami Hipoteza zerowa teraz
bedzie ze - czytamy w niewlasciwym reading frame, hipoteza
alternatywna - bedzie ze czytamy ciag kodujacy w poprawnym
reading frame. - Jesli przez kolejne 63 trójki nie spotykamy
kodonu STOP, to - mozemy hipoteze zerowa odrzucic na poziomie
istotnosci 0.05 - i uznac, ze znalezlismy gen kodujacy bialko,
którego koniec juz - latwo ustalic.
- Troche trudniej znalezc poczatek genu, gdyz ATG
jest zarówno - kodonem START i kodonem na metionine, a promotor
tez jest - czescia genu. Ale ten promotor sie na ogól
zaczyna kilka - pozycji od konca poprzedniego genu.
- Co prawda galimatius w niewlasciwych reading
frames nie - jest zupelnie losowy i pozostaje jeszcze problem
znalezienia - genów kodujacych RNA i genów kodujacych bardzo
krótkie - bialka, ale w zasadzie to podejscie pracuje.
12Laboratorium Craiga Ventera w roku 2000
- Ale teraz popatrzmy na genom eukariota, H.
Sapiens - Geny kodujace bialka stanowia tylko drobna czesc
naszego genomu. - Ciagi kodujace, czyli egzony, sa przeplatane
intronami. - Dany kodon moze byc przeciety intronem.
- Egzony nie musza wystepowac w tym samym reading
frame. - Introny wygladaja raczej jak ciagi losowe.
-
- Wiec mamy duzo trudniejszy problem. Istnieja w
tej chwili - dosc dobre algorytmy znajdujace geny w
eukariotach, ale - Zaden algorytm przystosowany do prokariotów nie
bedzie tu - pracowal.
13Wnioski z tej historyjki
- Matematyka jest swietnym narzedziem do
dostrzegania wspólnej strutury w pozornie
zupelnie róznych problemach. - Model matematyczny moze pomóc w sformulowania
hipotezy, czesto w postaci prawdopodobienstwa. - Ostateczna interpretacja tej hipotezy i jej
potwierdzenie za pomoca eksperymentu nalezy do
biologa. - Matematycy maja tendencje do mówienia o zawilych
teoriach w swoim zargonie zamiast dac proste i
konkretne odpowiedzi. Kluczem do skutecznej
wspólpracy jest znalezienie wspólnego jezyka. - Mikroskopy matematyczne czesto przychodza bez
instrukcji obslugi. By skutecznie uzywac
matematyczne narzedzia w biologii trzeba w pewnym
stopniu rozumiec, jak one pracuja. Wybór
odpowiedniego miskroskopu czesto wymaga aktywnej
wspólpracy miedzy biologami i matematykami.
14Znalezlismy gen. Co on robi?
- Bialka o podobnej sekwenji aminokwasów czesto
- ewoluowaly ze wspólnego przodka. Bialka ze
wspólnym - przodkiem czesto spelniaja podobna role w
organizmie. - Wiec jesli odkrylismy nowe bialko, to mozemy
- sformulowac dobra hipoteze o jego funkcji na
- podstawie znanych funkcji bialek o podobnej
sekwencji. - Do wyszukiwania tych ostatnich w bazie danych
- Genbank mozemy uzywac programu BLAST
- (Basic Local Alignment Search Tool).
15Matematyka BLASTu
- Jak zdefiniowac podobienstwo sekwencji?
- Nie wszystkie mutacje sa równie pradopodobne.
Trzeba - konstruowac odpowiednie macierze (np. PAM120,
BLOSUM62) - które reprezentuja te prawdopodobienstwa.
- Mutacje jednego kodonu na drugi sa malo
klopotliwe, ale jak - sobie poradzic z deletions and insertions?
- Poza tym, im wieksza baza danych, tym wiecej
bedzie zupelnie - przypadkowych podobienstw. Jak wyrazic stopien
- podobienstwa ciagów w liczbach tak, by biolog
mógl latwo - odróznic przypadkowe podobienstwa od znaczacych?
-
16Informatyka BLASTu
- Jak zaprojektowac algorytm który przeszukuje
Genbank - dostatecznie szybko?
-
- Jesli chcemy, zeby komputer o szybkosci 4GHz
patrzyl na - kazda z 85 miliardów liter z Genbank choc raz i
porównal z - dana litera, potrzeba na to przynajmniej 42,5
sekund. A BLAST - musi jeszcze wykonac duzo wiecej operacji.
- Wynik BLASTu który za chwilke pokaze dostalem po
30 - sekundach. To podejrzanie szybko. Jak to sie
dzieje? -
17Biologia BLASTu
- Jak czytac i interpretowac wynik BLASTu?
- Kiedy znalezione podobienstwo ma znaczenie
biologiczne? - Jakie podobienstwa moze BLAST latwo przeoczyc?
- Jak najlepiej wybrac parametry w tym programie?
- Im lepiej biolog zna matematyke i informatyke
BLASTu, tym - skuteczniej bedzie mógl z tego programu
korzystac. -
18Jak geny ze soba wspólpracujaRegulacja
ekspresji genów
- Ekspresja genu zalezy od obecnosci pewnych
czynników - transkrypcji.
- Dla ilustracji zalózmy ze ekspresja genu x
nastepuje tylko - wtedy, kiedy czynnik A i przynajmniej jeden z
czynników B lub - C sa obecne, a czynnik D nie jest obecny. Wtedy
czynniki - A, B, C stymuluja ekspresje genu x, a czynnik D
ja inhibuje. - Zauwazmy ze czynniki A, B, C, D tez sa produktami
pewnych - genów i ulegaja degradacji. Zatem ich obecnosc
wymaga - stosunkowo niedawnej ekspresji odpowiednich
genów. - Mozemy wiec traktowac regulacje ekspresji genów
jako uklad - dynamiczny gdzie poziom ekspresji sie zmienia w
czasie i geny - nawzajem sie reguluja.
19Przyklady dynamiki tego ukladu
- Najprostsza dynamika to zbieganie do punktu
stalego. - Obserwujemy taka dynamike np. kiedy organizm
wraca do - równowagi po zazywaniu malej dawki trucizny. Po
zazywaniu - zbyt duzej dawki organizm tez osiaga punkt staly,
ale inny. - Dynamike cykliczna obserwujemy np. w cyklu
komórkowym. - Poszczególne fazy tego cyklu róznia sie poziomem
ekspresji - pewnego zespolu genów.
- Normalny rozwoju organizmu wielokomórkowego
podlega - scislej regulacji ilosci podzialów i apoptozy
pewnych komórek. - Bledy w tej regulacji moga doprowadzic do
deformacji lub - nowotworów.
-
20Cele matematycznego modelowania dynamiki genów
- Modele matematyczne ukladu regulacji genów moga
nam - pomóc w lepszym rozumieniu mechanizmów rzadzacych
tego - typu zjawiskami. Za pomoca takich modeli mozemy
latwiej - znalezc odpowiedzi na pytania typu
- Jakie czynniki reguluja ekspresje genu x? Które
z nich - stymuluja, a które inhibuja te ekspresje?
- Jaki zespól genów reguluje dany proces, np. cykl
komórkowy, - i jak te geny, lub ich produkty, w tym
wspólpracuja? - Jakie zaklócenia lub mutacje prowadza do
nieporzadanej - dynamiki jaka np. obserwujemy w nowotworach?
-
21Skad wziac dane?
- Mikromacierze pozwalaja nam mierzyc zmiany w
ilosci mRNA w - czasie albo w róznych warunkach doswiadczalnych,
- dla wszystkich potencjalnych mRNA danego
organizmu - równoczesnie.
- Czerwona kropka oznacza zwiekszona ilosc w jednym
- doswiadczeniu, zielona kropka zwiekszona ilosc w
drugim, - zólta kropka oznacza ekspresje bez zmian,
- a czarna kropka brak ekspresji w obu
eksperymentach. -
22Jak z tych danych korzystac?
- Najprostszy sposób wykorzystania mikromacierzy
polega na - przeprowadzaniu serii eksperymentów i grupowanie
próbek ze - wzgledu na profil ekspresji genów. Taka procedura
moze np. - pozwolic na odróznianie podtypów nowotworu.
- Drugi najprostszy sposób to grupowaniu genów ze
- wzgledu na profil ekspresji w próbkach. Mozna
przypuszczac - ze geny rzadzace tym samym procesem maja podobny
profil - ekspresji. W ten sposób np. zidentyfikowano geny
regulujace - cykl komórki w drozdzach S. cerevisiae.
- Matematyka tu moze pomóc w sformulowaniu dobrej
definicji - podobienstwa profilu ekspresji i w konstrukcji
algorytmów na - klasyfikacje profilów dziesiatek tysiecy genów.
23Reverse-engineering regulacje genów
- Klasyfikacja genów wedlug profilu ekspresji jest
pozyteczna, - ale jeszcze nie daje nam modelu dynamiki.
Konstrukcja takich - modeli jest znana pod nazwa reverse-engineering
ukladów - regulacji genów. Jest to dziedzina w poczatkowym
stadium - rozwoju.
- Sa jednak pierwsze sukcesy. Proponowano sporo
algorytmów - budujacych, na podstawie danych, modele dynamiki
malych, - stosunkowo izolowanych podukladów tego
gigantycznego - ukladu wszystkich genów. Czesto sie zdarza ze
modele w ten - sposób skonstruowane przewiduja np. ze czynnik
transkrypcji A - stymuluje transkrypcje genu x, co sie daje potem
potwierdzic - eksperymentalnie.
24Kiedy algorytm daje dobry wynik?
- Algorytm na reverse-engineering moze nam dac
tylko hipoteze - na poprawny uklad dynamiczny.
- Jaki duzy zbiór danych jest potrzebny, by
algorytm dal nam - poprawny model z prawdopodobienstwem, powiedzmy,
- wiekszym niz 0.5? Jaki wybór parametrów
algorytmu daje - najwieksze szanse na sukces?
- Takie pytania mozna badac jako formalne problemy
- matematyczne.
- A jesli juz mamy czesciowy zbiór danych, jak
zaprojektowac - nastepny eksperyment, zeby dal algorytmowi
maksymalna - ilosc informacji?
25Kiedy model jest poprawny?
- Zgrubsza rzecz biorac, mozna uznac model za
poprawny póki - przewiduje taka dynamike jaka obserwujemy w
przyrodzie. - Jesli model przewiduje inna dynamike niz
obserwujemy w - laboratorium, to nalezy model odrzucic.
Najczestszym - tego powodem jest, ze model byl zbyt uproszczony.
- Np. zdecydowalismy sie ignorowac pewne geny czy
bialka - które jednak odgrywaja wazna role w danym
procesie. - Ale wlasnie to moze byc waznym odkryciem dajacym
sie - potwierdzic doswiadczalnie!
26Ale o jakiego rodzaju modelach matematycznych tu
mówimy?
- Zmienne w naszych modelach reprezentuja ilosc
mRNA czy - kodowanych przez nich bialek. Modelujemy
dynamike, czyli - zmiane tych ilosci w czasie.
- Teraz matematyk musi powziac dwie podstawowe
decyzje - Jak matematycznie reprezentowac ilosc?
- Jak matematycznie reprezentowac czas?
27Modele stochastyczne
- Reakcje w komórce zachodza pomiedzy
indywidualnymi - czastkami które sie losowo zderzaja z
dostatecznie wysoka - energia.
- Mozna zatem reprezentowac ilosc jako liczbe
czastek danego - zwiazku i modelowac dynamike jako proces
stochastyczny z - czasem dyskretnym lub ciaglym.
- Tego typu modele sa najbardziej szczególowe, ale
ich analiza - jest praktycznie niemozliwa jesli liczba czastek
- poszczególnego bialka czy mRNA jest duza. Takie
modele - jednak daly ciekawe wyniki o genetyce pewnych
wirusów.
28Modele równan rózniczkowych
- Jesli pojedyncze zwiazki wystepuja w duzej
liczbie czastek, to - mozna ich ilosc reprezentowac jako liczbe
rzeczywista - odpowiadajaca stezeniu danego zwiazku. Pochodne
tych - zmiennych zaleza od wektora stezen wszystkich
zwiazków i - reprezentuja szybkosc i kierunek zmian tych
stezen. Dynamike - opisuje uklad równan rózniczkowych.
- Modele ukladów równan rózniczkowych zwyczajnych
ignoruja - czas potrzebny na transport i dyfuzje zanim
produkt Y genu y - moze regulowac transkrypcje genu x. Modele
ukladów równan - rózniczkowych czastkowych uwzgledniaja te
procesy, ale sa na - ogól zbyt skomplikowane. Mozna tez modelowac za
pomoca - równan rózniczkowych z opóznieniem. Te ostatnie
modele sa - bardziej dokladne niz równania rózniczkowe
zwyczajne i mniej - skomplikowane niz równania rózniczkowe czastkowe.
29Kiedy mozna uproscic?
- Pod jakimi warunkami model równan rózniczkowych
jest - dostatecznie dobrym przyblizeniem modelu
stochastycznego? - A kiedy mozna ignorowac czas potrzebny na
transport i dyfuzje - i modelowac regulacje genów ukladem równan
rózniczkowych - zwyczajnych zamiast czastkowych lub równan
rózniczkowych z - opóznieniem?
- To sa ciekawe pytania dla matematyków. Nie sa to
pytania - calkowicie nowe, ale wspólczesna biologia dodaje
do nich - wage i wskazuje na typy ukladów, dla których
odpowiedz jest - najbardziej potrzebna.
30A moze trzeba jeszcze prosciej?
- Konstrukcja modeli równan rózniczkowych wymaga
dosc - dokladnych pomiarów stezen wszystkich zwiazków
- modelowanych. Obecnie jeszcze nie mamy
technologii na - pobieranie tak dokladnych pomiarów na wielka
skale. - Mikromacierze tylko mówia nam kiedy dany mRNA
wystepuje w - znacznie zmienionej ilosci.
- Modele Boolowskie odrózniaja tylko dwa poziomy
stezen - niski 0 i wysoki 1. Dane uzyskane za pomoca
- mikromacierzy wydaja sie dostatecznie dokladne na
- konstrukcje tego typu modeli.
- Czas w modelach Boolowskich jest na ogól
modelowany w - sposób dyskretny jako ciag liczb naturalnych, ale
istnieja tez - próby modelowania za pomoca ukladów Boolowskich z
- opóznieniem gdzie czas jest liczba rzeczywista.
31Ale czy mozna az tak uproscic?
- Wrócmy do naszego przykladu ekspresji genu x
która nastepuje - wtedy i tylko wtedy, kiedy czynnik A i
przynajmniej jeden z - czynników B lub C sa obecne (stezenie 1), a
czynnik D nie - jest obecny (stezenie 0). W jezyku Boolowskim
gdzie - 1 prawda i 0 falsz mozna te sytuacje wyrazic
formula - A and (B or C) and (not D).
- Wiec jezyk modeli Boolowskich jest wystarczajacy
by wyrazic - pewne informacje wazne dla biologów. Ale czy,
lub raczej - w jakich warunkach, dynamika modelu Boolowskiego
daje - nam wiarogodny obraz dynamiki ukladu
biologicznego? - To pytanie mozna scisle sformulowac jako problem
- matematyczny, który jest obecnie w centrum moich
wlasnych - zainteresowan naukowych.
32Podsumowanienowy mikroskop i nowa fizyka
- Matematyka stala sie narzedziem zarówno
niezbednym jak i pozytecznym dla biologii. - Modele matematyczne ulatwiaja odkrywanie i
rozumienie mechanizmów rzadzacych procesami
biologicznymi. - Mikroskop matematyczny pozwala na sformulowanie
nowych hipotez dajacych sie potwierdziec
eksperymentalnie, za pomoca m.in. tych
tradycyjnych przyrzadów optycznych. - Mikroskopy matematyczne na ogól nie przychodza z
prosta instrukcja obslugi. Zeby maksymalnie
wykorzystac ich moc potrzebny jest dialog miedzy
matematykami i biologami. - Matematycy i biolodzy operuja odmiennym
slownictwem naukowym i maja odmienne nawyki
myslenia. Skuteczny dialog wymaga uczenia sie
wspólnego jezyka i wzajemnego zrozumienia
odmiennych podejsc naukowych. - Postep w nauce zalezy od zadawania dobrych pytan.
Czesc tych pytan sie tlumaczy na nowe otwartych
problemy matematyczne. Stad zainteresowanie ta
nowa fizyka.