Title: Presentazione di PowerPoint
1Bioinformatica
- potenza elaborativa
- facilità duso
- creazione di specifici software di analisi,
applicazioni ad hoc per risolvere specifici
problemi biologici - accesso on-line attraverso il World-Wide Web
2Bioinformatics tools for Biologists Computational
Biology World-Wide Web resources for Biologists
3La Biologia Moderna Progetti Genoma Perchè?
La determinazione e la conoscenza dellintera
sequenza genomica sembrano essere la condizione
necessaria per comprendere la completa biologia
di un determinato organismo
4In che modo?
Sequenziamento del DNA significa determinazione
della sequenza lineare delle basi che lo
compongono, cioè A, T, C e G. Il DNA umano è
composto da 3.12 miliardi di paia di basi
5(No Transcript)
6Stanley Fields Proteomics in Genomeland, Science
291, 1221, (2001).
7La Biologia Moderna i Progetti Genoma
Un requisito essenziale alla comprensione della
biologia completa di un organismo è la
determinazione della sequenza del suo intero
genoma
A prerequisite to understanding the complete
biology of an organism is the determination of
its entire genome sequence Fleischmann et al.
1995
8(No Transcript)
92000-2001 Il Genoma Umano completamente
sequenziato e assemblato
10LE TAPPE DEL PROGETTO GENOMA
11(No Transcript)
121999 (Dicembre) Pubblicata su Nature la sequenza
completa del cromosoma 22. 2000 (Maggio)
pubblicata su Nature la sequenza completa del
cromosoma 21. 2000 (Giugno) Francis Collins e
Craig Venter annunciano congiuntamente di aver
completato la "bozza" del genoma Umano. 2001 La
bozza completa del genoma umano (che gli inglesi
chiamano working draft) è pubblicata su Nature
(quella del consorzio pubblico) e su Science
(quella della Celera).
Celera Genomics (Applera, Applied
Biosystems) Istituzioni pubbliche
in USA, UK, China Francia Germania
13Il genoma di un virus è composto da poche
migliaia di bp
Dimensioni del Genoma in
Megabasi Procarioti Mycoplasma
genitalium 0.58 Haemophilus influenzae 1.83 Es
cherichia coli 4.7 Eucarioti Saccharomyces
cerevisiae 13.5 Caenorabditis
elegans 100 Drosophila melanogaster 165 Homo
sapiens 3300
14La strategia che sta alla base del sequenziamento
globale dei genomi viene definita shotgun
sequencing strategy
15Shotgun Sequencing Strategy
- Creazione di un libreria RANDOM di frammenti di
DNA (taglio con nucleasi BAL 31 e non con enzimi
di restrizione) - Sequenziamento di un numero SUFFICIENTEMENTE ALTO
di frammenti selezionati in maniera random - Assemblaggio dei CONTIGS
16Assembling dei Contigs 28643 sequenze
atgcaagcctacgtcctaccgcattaacagg
U65747 U85746
gcattaacaggcgattagggcatcccagctgg
atgccatgcaagcctacgtcctaccgcattaacagg
gcattaacaggcgattagggcatcccagctgg
17(No Transcript)
1828643 reazioni di sequenza sono state effettuate
da 8 persone utilizzando in media 14 DNA
sequencer al giorno per 3 mesi. Lassembling di
24304 frammenti in 210 contigs ha richiesto 30
ore di processamento continuo su un computer
SPARCenter 2000 con 512 Mb di RAM Il costo
stimato è stato di 0.48 centesimi di dollaro/base
sequenziata. Se la tecnologia attualmente
applicata per il sequenziamento del Genoma Umano
(2000-2001) venisse di nuovo applicata al genoma
dellHaemophilus influenzae il suo genoma
potrebbe essere nuovamente sequenziato e
assemblato in meno di un giorno!
196X coverage 1.83 x 6 10.98 Mbp
0.48 USD x 10 980 000 bp 5 270 400 USD Pari a
circa 5 850 144 EURO
Pari a 11 327 458 322 Lire Italiane
N.B. nel conteggio non sono inclusi i costi dello
sviluppo della teconologia e dei software, ma
soltanto i costi di reagenti e laboratori
20Sequenziamento di un numero SUFFICIENTEMENTE ALTO
di frammenti selezionati in maniera random
Il genoma dellH. influenzae è composto da 1.83
Mbp, quante bp generate in maniera random devo
sequenziare in modo da essere certo di aver
sequenziato tutte le basi (tutti i frammenti)
almeno una volta?
6X coverage
Dove m è la copertura (coverage) della sequenza e
Po la probabilità che una base non sia stata
sequenziata
Poe-m
Se m1 cioè 1X coverage Po0.37, cioè avrò il 37
del genoma non sequenziato
Se m1 cioè 1X coverage Po0.37, cioè avrò il 37
del genoma non sequenziato
Se m1 cioè 1X coverage Po0.37, cioè avrò il 37
del genoma non sequenziato
Se m5 cioè 5X coverage Po0.0067, cioè avrò il
0.67 del genoma non sequenziato
21Bioinformatica - I
- Potenza elaborativa nella gestione di enormi
quantità di dati di sequenza provenienti dai
Progetti Genoma
22 Dimensioni del Genoma in
Megabasi Procarioti Mycoplasma
genitalium 0.58 Haemophilus influenzae 1.83 Es
cherichia coli 4.7 Eucarioti Saccharomyces
cerevisiae 13.5 Caenorabditis
elegans 100 Drosophila melanogaster 165 Homo
sapiens 3300
23Bioinformatica - II
Archiviazione e organizzazione dei dati di
sequenza ottenuti da vari organismi in database
accessibili on-line attraverso il World-Wide Web
24(No Transcript)
25(No Transcript)
26www.corriere.it
Un libro delle istruzioni
2/5
Questo messaggio contiene una gran mole di
informazioni equivalenti al contenuto di un
milione e mezzo di pagine stampate, un'
impressionante serie di volumi che contengono il
segreto della nostra realtà biologica. Questo
messaggio può essere suddiviso in un certo numero
di capitoli, circa 100.000, chiamati geni. Un
gene è un' unità significante di senso compiuto
che porta l' informazione per compiere una
specifica funzione biologica (cioé una proteine,
ndr). Adesso, grazie al Progetto Genoma, sapremo
che cosa abbiamo nel nostro Dna, cioè quanti e
quali geni abbiamo e, eventualmente, che cosa c'
è fra un gene e un altro.
27ERA GENOMICA
La sequenza completa del genoma sarà NECESSARIA a
comprendere le funzioni (e disfunzioni)
biologiche del nostro organismo
28ERA POST-GENOMICA
La sola sequenza, anche se completa, del genoma
sarà SUFFICIENTE a comprendere le funzioni (e
disfunzioni) biologiche del nostro organismo?
29www.corriere.it
Genoma umano, scontro sull' utilizzo dei dati
Le proteine, sono il prodotto dei geni sono le
proteine che servono a fabbricare un organismo,
a farlo funzionare e, quando sono difettose, si
rendono responsabili di malattie. Ed è proprio
attraverso lo studio del funzionamento delle
proteine che si potrebbe arrivare alla
costruzione di nuovi farmaci.
30METODI DI STUDIO DELLA COMPLESSITA BIOLOGICA
COMPLESSITA BIOLOGICA
Progetti Genoma
Gene 30.000? (30.000-100.000)
mRNA
Splicing alternativo ??
N.B. Il delicato equilibrio di un organismo
dipende da una moltitudine di funzioni finemente
organizzate e regolate da una moltitudine di
proteine diverse che interagiscono tra loro in
network complessi di interazioni reversibili
precursore proteico 150.000??
Taglio della eventuale
sequenza segnale
Eventuali modificazioni post-traduzionali
proteina matura ?? (FUNZIONE)
Interazioni proteina-proteina Network complessi
31www.repubblica.it
32www.corriere.it
Un libro delle istruzioni
3/5
Nella fase immediatamente successiva si tratterà
di cercare di sapere la funzione del maggior
numero possibile dei nostri geni. Averli
individuati tutti e conoscere la funzione di
alcuni di essi non è chiaramente sufficiente a
soddisfare la nostra curiosità e a venire
incontro alle nostre aspettative per quanto
riguarda le applicazioni alla nostra salute. Va
detto subito che questa fase sarà m olto più
lunga di quella che si sta per concludere e
richiederà decenni, se non secoli. Il guadagno
dovrebbe essere però straordinario soprattutto
dal punto di vista conoscitivo. Sapremo che cosa
fanno i geni di cui conosciamo qualcosa, cosa
fanno qu elli che conosciamo appena e cosa fanno
anche quelli che non conosciamo e che non
immaginiamo nemmeno che possano esistere.
33La Bioinformatica ci potrà aiutare?
34(No Transcript)
35Introni RNA ribosomali RNA transfer Regioni
regolatrici (promotori, enhancer)
Dimensioni del Genoma in
Megabasi Procarioti Mycoplasma
genitalium 0.58 Haemophilus influenzae 1.83 Es
cherichia coli 4.7 Eucarioti Saccharomyces
cerevisiae 13.5 Caenorabditis
elegans 100 Drosophila melanogaster 165 Homo
sapiens 3300
Densità delle regioni codificanti 1 ogni ca.
1200 bp 1 ogni ca. 1050 bp 1 ogni ca. 1150 bp 1
ogni ca. 2300 bp 1 ogni ca. 7000 bp 1 ogni ca.
13500 bp ??
Numero di ORF (geni) 473 1760 4100 5800 14
000 12000 ??
36Identificazione delle regioni codificanti
meantnfmcosarjthyuyifkfmnsbzvcaxqswthyujukbnpyoitj
guryrtefdgvcbxnservejkamnsbegdfvrttyghjukiolmmlabn
vbcvxcsdfergrtbioinformatica?gjyiuoljpgkbidhgrtfyd
hsn
meantnfmcosarjthyuyifkfmnsbzvcaxqswthyujukbnpyoitj
guryrtefdgvcbxnservejkamnsbegdfvrttyghjukiolmmlabn
vbcvxcsdfergrtbioinformatica?gjyiuoljpgkbidhgrtfyd
hsn