Title: Poznanie genomu czlowieka (wg. artykul
1Poznanie genomu czlowieka(wg. artykulów z
Science i Nature)
- Jerzy Tiuryn
- Instytut Informatyki
- Uniwersytet Warszawski
2(No Transcript)
3Dwa artykuly
- Initial sequencing and analysis of the human
genome, International Human Genome Sequencing
Consortium, Nature, 15.02, 2001 (860-921). - The sequence of the human genome, J.C. Venter,
et.al., Science, 16.02. 2001 (1304-1351).
4Plan wykladu
- Historia poznania genomu czlowieka.
- Metoda konsorcjum (hierarchiczne sekwencjonowanie
metoda shotgun). - Metoda Ventera whole-genome shotgun approach.
- Co wiadomo o liczbie genów w genomie czlowieka?
- Porównanie obu metod.
5Historia poznania genomu czlowieka
- 1953, James Watson, Francis Crick, struktura
DNA.
6- 1977, F. Sanger (metoda dideoxy), 500-750bp.
- 1977, F. Sanger zsekewncjonowanie pierwszego
ludzkiego genu. - 1977-82, genomy bakteryjnych wirusów (fX174,
Lambda), genom wirusa zwierzecego SV40, ludzkie
mitochondrium. - 1985, K. Mullis technika PCR.
- 1987, D. Burke, M. Olson, G. Carle YAC.
- 1989, Olson, Hood, Botstein, Cantor strategia
mapowania przy uzyciu STS.
7- 1995, J.C. Venter (Heamophilus influenzae) 1.8
Mb, metoda whole-genome shotgun sequencing. - 1996, Miedzynarodowe konsorcjum (Saccharomyces
cerevisiae) 13.5 Mb. - 1997, Blattner, Plunkett (Escherichia coli) 5 Mb.
- 1998, Venter zalozenie firmy Celera Genomics
(deklaracja sekwencja genomu czlowieka w 3 lata,
za 300 M).
8- 1998, Sulston, Waterson (Caenorhabditis elegans)
100 Mb. - 1999, GB, Japonia, USA chromosom nr.22, 35 Mb.
- 2000, Venter (Drosophila melanogaster) 120 Mb,
testowanie metody WGSS dla niezbyt duzego genomu. - 2000, Niemcy, Japonia chromosom nr. 21, 34 Mb.
- 2000, Miedzynarodowe Konsorcjum (Arabidopsis
thaliana), 100 Mb. - 2001, HGP i Celera publikuja draft genomu
czlowieka, 3.3Gb.
9Glówne trudnosci w sekwencjonowaniu genomu
czlowieka
- Rozmiar genomu (3Gb).
- Duza czesc genomu zawiera repetytywne fragmenty.
Przykladowo czesc genomu zawierajaca repetytywne
fragmenty dla róznych organizmów - Bakterie 1.5
- Muszka owocowa 3
- Czlowiek gt50
10Metoda Konsorcjummap-based, BAC-based,
clone-by-clone
- Pozyskiwanie materialu genetycznego.
- Budowa mapy fizycznej genomu w oparciu o klony.
- Trawienie poszczególnych klonów enzymami
restrykcyjnymi odcisk palca. - Budowa kontigów i przypisanie ich do miejsc na
chromosomach (STS). - Wybór klonów z kontigów do sekwencjonowania.
- Sekwencjonowanie metoda shotgun wybranych
klonów. - Skladanie genomu.
11(No Transcript)
12Pozyskiwanie materialu genetycznego
- Ochotnicy (rózne srodowiska etniczne), kto
pierwszy ten lepszy. - Samplig laboratory usuniecie identyfikatorów,
nadanie losowych oznaczen, przeslanie do
processing lab. - Processing laboratory usuwa wszystkie oznaczenia
i zmienia je na inne, niszczy dokumentacje
oznaczen, wybiera losowo 5-10 próbek do dalszej
analizy.
13Linia produkcyjna do przygotowywania
próbek Whitehead Institute, Center for Genome
Research
14Klony
- Plazmidy ( 4Kb).
- Kosmidy ( 40Kb).
- Yeast Artificial Chromosome, YAC (do 500Kb).
- Bacterial Artificial Chromosome, BAC (100-300Kb).
15Mapa fizyczna
- Biblioteki klonów zbudowane z materialu
genetycznego. (1.400.000 klonów BAC lub PAC,
65-krotne pokrycie genomu). Kazdy klon rozmiaru
100-200Kb. - Wybrano 350.000 klonów do budowy mapy
fizycznej. (20 krotne pokrycie genomu). - Kazdy klon poddano trawieniu enzymem
restrykcyjnym i zmierzono rozmiary fragmentów
przy pomocy elektroforezy na zelu z agarozy. Tak
powstaje linia papilarna (fingerprint) klonu. - Linie papilarne sa uzyte do identyfikacji klonów
i do szacowania wielkosci nalozenia jednego klonu
na drugi.
16Mapa fizyczna, c.d.
- Linie papilarne klonów zostaly uzyte do budowy
tzw. kontigów (nakladajace sie na siebie spójne
fragmenty utworzone z klonów). - Kontigi zostaly przyporzadkowane miejscom na
chromosomach przy pomocy znaczników STS (STS
Sequence Tagged Site 500bp, jednoznaczna
sekwencja na chromosomie, dla której sa znane
primery PCR).
17Przyklad dwóch kontigów
18Faza sekwencjonowania
- Wybór klonów z kontigów, tak aby uzyskac pokrycie
genomu (aby przyspieszyc proces, zrezygnowano z
poszukiwania minimalnego pokrycia). Wybrano
30.000 klonów.
19Faza sekwencjonowania kazdy klon metoda shotgun
- Klon powiela sie w wielu kopiach.
- Wszystkie kopie tnie sie na male kawalki (enzymy
restrykcyjne) losowo. Porzadek i orientacja
kawalków sa tracone. - Wybiera sie losowo dostatecznie duzo kawalków
(5-10 krotne pokrycie, zgodnie z formula
Landera/Watermana) i dla kazdego kawalka
sekwencjonuje sie prefiks o dlugosci 500bp.
Powstaja tzw. czyste odczyty.
20Uwagi na temat metody shotgun
- W praktyce wybór fragmentów nie jest jednorodny
(powody molekularno-biologiczne, a nie
probabilistyczne). To powoduje powstawanie dziur
w odczytywanej sekwencji. - Sa dwa stopnie jakosci metody shotgun
- half-shotgun 4-5 krotne pokrycie, w wyniku mamy
draft genomu. - full-shotgun 8-10 krotne pokrycie, w wyniku
mamy podstawe do dokladnego opisu genomu.
21- Uzyskano 23Gb danych w czystych odczytach.
- Niektóre centra osiagnely wydajnosc 100.000
reakcji sekwencjonowania na 12 godzin. - Wydajnosc wszystkich centrów osiagnieta w czerwcu
2000 1 pokrycie genomu na 6 tygodni (1Kb/sek.
przez 24h/dobe, caly czas). - Kazdy nukleotyd byl odczytany srednio 4.5 raza.
22- 7.10.00 w postaci finalnej bylo 835Mb sekwencji
genomu (wliczajac chromosomy 21 i 22). Na koniec
roku 2000 bylo 1Gb sekwencji w finalnej postaci
(finalna postac prawdopodobienstwo bledu
odczytu nukleotydu lt 1/10.000, zadnych dziur)
23Skladanie sekwencji (1)
- Analiza nalozen (overlap detection) dane dwa
slowa W,V, znajdz sufiks w W oraz prefiks w V o
maksymalnym podobienstwie (w sensie uliniowienia
moga byc wstawiane spacje). Jest to problem
natury algorytmicznej. Dane o nalozeniach
przechowujemy.
24Skladanie sekwencji (2)
- Ulozenie podslów (substring layout). Zachlanny
algorytm znajdz pare slów o maksymalnym
podobienstwie sufiks/prefiks. Pózniej nastepna
pare. Albo powstaja dwa kontigi, albo jeden o
trzech slowach. Podobne do wielokrotnego
uliniowienia. Dodawanie nowych par powoduje
wstawianie spacji (rozsuwanie). W ten sposób
powstaja kontigi nakrywajace wiekszosc
odtwarzanej sekwencji.
25Skladanie sekwencji (3)
- Decydowanie konsensusu uzgodnienie jaka litera
ma stac na danej pozycji w kontigu. Stosowane sa
rózne podejscia, czesto metoda wiekszosciowa (tu
sa subtelne problemy). - W projekcie srednie pokrycie klonu kontigami
wynosilo 96, a srednie przerwy pomiedzy
kontigami mialy 500bp.
26Dwa rodzaje kontigów
- Kontigi pochodzace z jednego klonu.
- Mega-kontigi pochodzace z analizy linii
papilarnych poszczególnych klonów.
27Logistyka skladania genomu
- Skladanie pojedynczych klonów.
- Zwiazanie zsekwencjonowanych klonów z pozycjami
na fizycznej mapie genomu. - Poprawianie niezgodnosci.
28(No Transcript)
29Kroki w procesie skladania genomu z kontigów
pochodzacych z klonów A i B.
30Jakosc draftu genomu zsekwencjonowanego przez
konsorcjum
- Uzyto oprogramowanie PHRAP (program przypisuje
kazdemu nukleotydowi prawdopodobienstwo bledu). - 91 sekwencji ma blad lt 1/10.000.
- 96 sekwencji ma blad lt 1/1.000
- Sa przerwy w sekwencji.
31Przerwy w sekwencji (3 rodzaje)
- Pomiedzy kontigami w poszczególnych klonach
lacznie 2-4 genomu jest zawarte w takich
przerwach (80Mb). Tych przerw jest 145.000. - Pomiedzy klonami w mega-kontigach 5 genomu
(150Mb). Jest ich 4.000. - Pomiedzy mega-kontigami (szacowanie na podstawie
chr. 21 i 22) 4 genomu.
32Co wiadomo na temat liczby genów?
- W malych genomach geny sa scisle zwiazane z
ORFami (ORF Open Reading Frame). - U czlowieka srednia dlugosc eksonu 145bp,
natomiast introny sa dlugie (srednio 3300bp, ale
zdarzaja sie introny dlugosci gt 10Kb).
Przykladowo introny (srednio) - u robaka (267bp),
- u muchy (487bp).
33Geny RNA (nie-kodujace)
- Takie jak tRNA, rRNA, itd.
- Nie maja ORFów.
- Sa male i nie zawieraja ogonów poly(A).
- Trudne do odróznienia od pseudogenów.
- Lacznie znaleziono w drafcie 700 genów RNA.
34Przyklad
- Klasyczne (podrecznikowe) oszacowanie liczby
genów tRNA u czlowieka to 1310, ale ... okazalo
sie, ze jest ich w drafcie genomu tylko 497.
35Dla innych organizmów liczba genów tRNA wynosi
36Geny kodujace bialka
- Znanych jest obecnie nieco ponad 10.000 sekwencji
mRNA w bazie RefSeq (czesc bazy GenBank).
Zrobiono uliniowienie z draftem genomu. Nieco
ponad 9.000 dalo sie (przynajmniej czesciowo)
uliniowic. 16 sekwencji mRNA wykazalo
podobienstwo do wiecej niz jednego wystapienia w
drafcie genomu (paralogi, pseudogeny).
37Geny kodujace bialka (rozmiary)
- Duzy rozrzut w rozmiarach genów (eksony i
introny) czlowieka. Wiele jest dluzszych niz
100Kb (rekordzista gen dystrofiny (DMD) ma
2.4Mb. - Dlugosc kodujacej sekwencji tez podlega duzym
wahaniom. Np. gen titiny (najdluzsza obecnie
znana dlugosc kodujacej sekwencji) ma 80.780bp,
liczba eksonów 178, najdluzszy ekson 17.106bp.
38Trudnosci w znajdowaniu genów w genomie czlowieka
- Maly iloraz sygnal/szum w genach czlowieka w
zwiazku z krótkimi eksonami i bardzo dlugimi
intronami. Ponadto kodujace sekwencje stanowia
bardzo mala czesc genomu. Tak nie jest w
drozdzach, robaku i muszce. - Znajac nawet dokladnie genom (tak jak to jest dla
chr. 21 i 22) nadal bedzie bardzo trudno odkrywac
geny ab initio .
39Przewidywanie liczby genów (1)
- W latach 80-tych Gilbert zasugerowal, ze moze byc
100.000 genów w genomie czlowieka. Jest to tzw.
rachunek back-of-the-envelopeTypowy gen ma
rozmiar 30.000bp, rozmiar genomu jest 3Gb, wiec
otrzymujemy 100.000 genów. - Analiza na podstawie szacunku liczby wysp CpG
oraz czestosci zwiazków z genami dala
70.000-80.000 genów.
40Przewidywanie liczby genów (2)
- Szacunki oparte o EST (EST Expressed Sequence
Tags) dawaly rozrzut liczby genów w granicach
35.000-120.000.
41Obecnie stosowane metody znajdowania genów
- Wystapienie znanego EST lub mRNA.
- Sekwencyjne podobienstwo do znanych genów lub
bialek. - Ab initio metoda oparta na ukrytych modelach
Markowa (HMM) uzywaja one statystycznej
informacji na temat miejsc splicingu, kodowego
odchylenia (coding bias), dlugosci eksonów i
intronów (Genscan, Genie, FGENES).
42Skutecznosc metod ab initio
- Szacuje sie, ze dla muchy pojedyncze eksony moga
byc odgadywane poprawnie z prawdopodobienstwem
90, ale wszystkie eksony danego genu tylko z
prawdopodobienstwem 40. - Dla czlowieka podobne liczby wynosza 70 i 20.
- Niektórzy uwazaja tez, ze w/w liczby sa zbyt
optymistyczne...
43Initial Gene Index (IGI)
- System Ensembl (uzywa Genscan, weryfikuje w
oparciu o podobienstwo do bialek, mRNA, EST i
bialkowych motywów (zawarte w bazie Pfam) dla
wszystkich organizmów). System ten wygenerowal
35.000 predykcji genów oraz 44.860 transkryptów. - Po wykonaniu pewnej redukcji fragmentacji
otrzymano 31.778 predykcji genów. To stanowi
podstawe do pierwszej wersji IGI.
44Initial Gene Index (IGI)
- W IGI jest 15.000 znanych genów i 17.000
predykcji nowych genów. - Przyjmuje sie, ze bardziej realna liczba genów w
IGI to 24.500 genów (20 blednych predykcji lub
pseudogenów, 1.4 wspólczynnik fragmentacji). - Przyjmujac, ze predykcje genów zawieraja 60
wczesniej nieznanych genów, mozna oszacowac
laczna liczbe genów czlowieka na 31.000.
45Koncowe uwagi na temat liczby genów czlowieka
- Obecne szacunki liczby genów oparte na
próbkowaniu daja przedzial 30.000-35.000. - Jesli w genomie czlowieka jest 30.000-35.000
genów i srednia dlugosc kodujacej sekwencji
wynosi 1.400bp oraz srednia dlugosc calego genu
wynosi 30Kb, to 1.5 calego genomu zajmuja
sekwencje kodujace, a 30 zajmuja geny.
46Koncowe uwagi na temat liczby genów czlowieka
- Wydaje sie, ze czlowiek ma dwa razy wiecej genów
niz robak lub mucha. Geny czlowieka sa bardziej
rozciagniete po genomie i sa one uzywane do
budowy wiekszej liczby alternatywnych
transkryptów. Lacznie, byc moze, czlowiek
wytwarza 5 razy wiecej bialkowych produktów niz
robak czy mucha.
47Jaka jest naprawde liczba genówu czlowieka ...?
Michael Zhang ze wspólpracownikami (Cold Spring
Harbour Laboratory) opracowali program First
Exon Finder (grudzien 2001, Nature Genetics).
Program ten wyszukuje odcinki zawierajace
nie-kodujace pierwsze eksony oraz sekwencje
promotorowe genów. Program poprawnie
zlokalizowal 90 genów w zsekwencjonowanych
chromosomach 21 i 22. First Exon Finder
wytypowal 68,000 genów w genomie czlowieka.
Autorzy szacuja, ze calkowita liczba genów w
genomie czlowieka waha sie w granicach
50,000-60,000. Co bedzie dalej ... ?
48Metoda firmy Celera Genomics sekwencjonowania
genomu
49Plan
- Kontigi i rusztowania.
- Dwie strategie asemblacji genomu (WGA, CSA).
- Poszukiwanie genów.
- Analiza genomu.
- Porównanie sekwencji Konsorcjum i Celery.
50Celera
- 3,000 m.kw.
- 175,000 reakcji sekwencjonowania na dzien.
- Wirtualna Farma Obliczeniowa (Compaq Alpha)
- 440 CPU (EV6 (400MHz), EV67(667MHz)).
- Kazdy 2-8GB RAM.
- 100TB HD.
51Dane do obróbki
- Biblioteka plazmidów (rozmiarów 2Kb, 10Kb, 50Kb).
- Konstrukcja stowarzyszonych par (mate pairs)
sekwencje 500-600bp, z kazdego konca sekwencji z
biblioteki plazmidów (27.27 milionów odczytów). - Kontigi zbudowane z BACów dostepnych z
publicznych danych Konsorcjum (4.4Gb).
52Kontigi, rusztowania i stowarzyszone pary
53(No Transcript)
54Dwie strategie asemblacji genomu
- Whole-genome assembly (WGA).
- Compartmentalized shotgun assembly (CSA).
55Asemblacja WGA
- Analiza nakryc (overlaps) 10,000h czasu CPU, 40
komputerów (4-procesorowy Alpha), 4GB RAM kazdy.
Równoleglosc. - Wybór jednoznacznych kontigów (unitigi) 73.6
genomu. - Wykorzystanie par stowarzyszonych do budowy
rusztowan (scaffolds). - Uzupelnianie dziur w rusztowaniach (fazy rocks
oraz stones).
56Asemblacja CSA
- (Matcher) Rozdzielenie danych Celery na te,
które pasuja do BACów z danych publicznych i na
reszte (21 milionów odczytów pasowalo, a 3
miliony byly nowe).
57Asemblacja CSA, c.d.
- (Combining Assembler) Dla tych z pierwszej
grupy, dla kazdego BACa wzieto kontigi z HGP
oraz pasujace odczyty Celery. - Uzyto WGA do zbudowania rusztowan (zwykle 1 lub
2) pokrywajacych w 95 ten BAC. Asemblacja
wysokiej jakosci.
58Asemblacja CSA, c.d.
- (WGA) Dla drugiej grupy (nowe dane)
przeprowadzono WGA. - (Tiler) Analiza porzadku i nakryc dla rusztowan
pochodzacych z BACów i z rusztowan zbudowanych
dla nowych danych. Uzyto pary stowarzyszone dla
klonów 50Kb i dla BACów oraz markery STS.
Powstalo w ten sposób 3845 skladowych
(components) obejmujacych 2.92Gb.
59Asemblacja CSA, c.d.
- (WGAShredder) Dla kazdej ze skladowych
zastosowano WGA, po poszatkowaniu danych na
kawalki. Dzieki poszatkowaniu mozliwa byla
dodatkowa korekta bledów oraz eliminacja
fragmentów chimerycznych z danych HGP.
60(No Transcript)
61Ostatni krok Mapowanie rusztowan do genomu
- Do dalszej obróbki wybrano dane otrzymane z CSA.
- Wykorzystano dwie mapy fizyczne genomu mapa
markerów STS oraz mapa linii papilarnych BACów. - W ten sposób wiekszosc rusztowan zostala
przyporzadkowna pozycjom w genomie (98 genomu).
Powstalo 21,600 przerw pomiedzy rusztowaniami.
62Analiza genomu (wg. Celery)
- Poszukiwanie genów.
- Wstepny opis chromosomów.
- Korelacja gestosci genów z innymi wielkosciami.
- Rozklad genów wg. molekularnej funkcji.
- Duplikacje genomu w skali makro.
63Poszukiwanie genów
- System ekspercki Otto - symulacja czynnosci
wykonywanych przez czlowieka opisujacego
chromosomy. Otto wykryl 6538 genów homologicznych
do znanych genów oraz 11,226 nowych fragmentów
podejrzanych o bycie genem. Lacznie 17,764 geny.
64Poszukiwanie genów, c.d.
- Oprócz Otto uzyto trzech programów odgadujacych
geny GRAIL, Genescan, FgenesH. Zrobily one
lacznie 76,410 róznych predykcji, z czego 57,935
predykcji nie pokrywalo sie z predykcjami Otto. - Dodatkowy filtr co najmniej jedno potwierdzenie
z nastepujacej listy.
65Cztery typy potwierdzen dla predykcji genów
- Homologia ze znanym bialkiem.
- Zawieranie ludzkiego EST.
- Zawieranie EST gryzonia.
- Wystepowanie w genomie myszy.
66Ile jest genów?
- Biorac wszystkie predykcje Otto oraz predykcje
w/w trzech programów spelniajace dodatkowo
warunek - Co najmniej 1 potwierdzenie 39,114 genów
- Co najmniej 2 potwierdzenia 26,383 geny.
- Co najmniej 3 potwierdzenia 23,000 genów.
67Wstepny opis Celery chromosomów
Chr. 1 Chr. 19 Chr. 21 Chr. 22 Chr. X Chr. Y
68Chromosomy 11, 12, 13 Korelacja gestosci genów Z
innymi wielkosciami
69Rozklad 26,383 genów wg. molekularnej funkcji
70Duplikacje wzgledem chromosomu 1
71Duplikacje wzgledem chromosomu 6
72Duplikacje wzgledem chromosomu 19 rekordowo duzo
73Duplikacje wzgledem chromosomu 22 rekordowo malo
74Porównanie sekwencji HGP i Celery
- Praca J. Aach, et.al. Computational comparison
of two draft sequences of the human genome.,
Nature, 409, 15.02.2001, (856-859). - HGP-nr (2.9Gb).
- Cel Celera Genomics (Human Genome D, 2.9Gb).
75(No Transcript)
76(No Transcript)
77Porównania wykonane przez Celere
- Zielony kolor sekwencje Celery sa w tej samej
orientacji i kolejnosci w obu sekwencjach. - Zólty kolor sekwencje Celery sa w tej samej
orientacji, ale nie w tej samej kolejnosci w obu
sekwencjach. - Czerwony kolor sekwencje Celery nie sa w tej
samej orientacji w obu sekwencjach.
78Porównania wykonane przez Celere, c.d.
- Górna czesc wykresu Konsorcjum (2K, 10K, 50K).
- Dolna Celera (2K, 10K, 50K).
- Seledynowe kreski przerwa co najmniej 10.000b.
- Stowarzyszone pary (niezgodnosci)
- Czerwony zla orientacja.
- Zólty zla odleglosc pomiedzy koncami.
- Niebieskie kreski zlamania (breakpoint)
79Porównanie dla chromosomu 21
80Porównanie dla chromosomu 22
81Porównanie dla chromosomu 19
82Porównanie dla chromosomu 8
83Przerwy i zlamania w obu sekwencjach
- Górna czesc Konsorcjum.
- Dolna czesc Celera.
- Czerwona kreska przerwa co najmniej 10Kb.
- Niebieska kreska zlamanie (breakpoint)
sprzecznosc z co najmniej 5 stowarzyszonymi
parami.
84(No Transcript)