Francesco Piva - PowerPoint PPT Presentation

About This Presentation
Title:

Francesco Piva

Description:

Title: PowerPoint Presentation Last modified by: a Created Date: 1/1/1601 12:00:00 AM Document presentation format: Presentazione su schermo Other titles – PowerPoint PPT presentation

Number of Views:203
Avg rating:3.0/5.0
Slides: 59
Provided by: introniIt2
Category:

less

Transcript and Presenter's Notes

Title: Francesco Piva


1
Introduzione alla bioinformatica
Francesco Piva Istituto di Biologia e
Genetica Università Politecnica delle Marche
Novembre 2003
2
Banche dati raccolta dati, ordinamento,
correlare quelli che trattano i diversi aspetti
di uno stesso tema, renderli fruibili in modo
semplice, unificare le banche adti.
Ricerca dei geni in un genoma
Inferire la funzione delle proteine a partire
dalla sequenza del gene, da qui la possibilità di
creare nuove proteine con nuove funzioni
Prevedere lo splicing dellmRNA a partire dalla
sequenza del pre-mRNA, capire leffetto delle
mutazioni
Obiettivi della bioinformatica
Descrivere la rete genica di una cellula, chi
attiva o reprime chi, da chi si fa attivare o
reprimere. Prevedere al computer leffetto di uno
stimolo esogeno sapere come compensarlo. Sapere
che stimolo generare per produrre certi effetti
Capire levoluzione delle specie
Poter prevedere la ricombinazione nel DNA
Francesco Piva Ist Biologia e Genetica, Ancona
3
Risorse umane, formazione, mezzi
database
Teoria dellinformazione, studio dei linguaggi,
ridondanza, entropia, correlazione
Metodi statistici
Metodi della bioinformatica
Reti neurali
Algoritmi matematici FFT, Wavelet, ICA, PCA,
teoria delle reti
Data mining

Francesco Piva Ist Biologia e Genetica, Ancona
4
Il trascrittoma quanti e quali geni?
Cellule o tessuti
cromosoma
Quanti e quali geni sono contenuti in un
genoma? Quali geni sono espressi in un
tessuto? E in un tessuto patologico?
Sequenziamento EST
Francesco Piva Ist Biologia e Genetica, Ancona
5
La costruzione del cDNA
5UTR
ESONE 1
ESONE 2
AAAAAA
3UTR
mRNA
3
TTTTTT
Le sequenze di cDNA ottenute dallmRNA sono
generalmente tronche
TTTTTT
GGGGGG
TTTTTT
Rimozione dellRNA e attacco di un poly (G) al
cDNA
Francesco Piva Ist Biologia e Genetica, Ancona
6
GGGGGG
TTTTTT 5
Produzione del cDNA complementare
CCCCCC
AAAAAA 3
CH3
Metilazione dei due cDNA per proteggere i siti di
restrizione
Aggiunta di siti di restrizione Eco RI
GAATTC
GGGGGG
GAATTC
TTTTTT
CCCCCC
CTTAAG
AAAAAA
CTTAAG
Francesco Piva Ist Biologia e Genetica, Ancona
7
GAATTC
GGGGGG
GAATTC
TTTTTT
CCCCCC
CTTAAG
AAAAAA
CTTAAG
Digestione con Eco RI
AATTC
GGGGGG
G
TTTTTT
CCCCCC
CTTAA
AAAAAA
G
vector
Ligazione del cDNA nei plasmidi
Francesco Piva Ist Biologia e Genetica, Ancona
8
La potenzialità di una libreria di cDNA è in
relazione al numero di inserti di cDNA
indipendenti che siamo riusciti a
clonare. Supponendo di prelevare unaliquota di
batteri trasformati, il titolo è dato dal numero
di colonie per unità di volume di batteri
ricombinanti
Francesco Piva Ist Biologia e Genetica, Ancona
9
Come stimare la potenzialità di una libreria di
cDNA?
Si potrebbe digerire il DNA plasmidico con enzimi
di restrizione e analizzare i frammenti tagliati
3kb vettore
inserti
I cloni 7, 8, 9 e 13 non sono ricombinanti
quindi 4/16 25 Esempio di una
libreria Titolo 100 unità formanti
colonia/microlitri cloni non ricombinanti
10 Volume totale di batteri trasformati 1
ml Potenzialità (100000 cloni totali 10000 non
ricombinanti) 90000 inserti di cDNA
10
Calcolo delle probabilità applicato alle librerie
di cDNA
Che probabilità abbiamo di trovare il clone A2B
che ha frequenza dell 1 (f0.01) in una
libreria di 100 (N100) cloni? Dalla
formula Ricaviamo P 63.4
Quanti cloni devo sequenziare (N ?) per essere
abbastanza sicuro (99 ? P0.99) di trovare il
clone A2B che ha una frequenza dell1
(f0.01)? Dalla stessa formula ricaviamo N 458
Francesco Piva Ist Biologia e Genetica, Ancona
11
Un caso reale
Quanti cloni devo sequenziare per avere il 99
delle probabilità di trovare un particolare clone
di mio interesse? In una cellula ho circa 500000
molecole di mRNA quelli più abbondanti sono
rappresentati in 10000 15000 copie per
cellula f10000/500000 ? 0.02 quelli mediamente
abbondanti in 200 500 copie per
cellula f500/500000 ? 0.001 quelli rari in 1
15 per cellula f15/500000 ? 0.000002 per gli
abbondanti risulta N230 per i
mediamente abbondanti N4600 per i
rari
N155000
Francesco Piva Ist Biologia e Genetica, Ancona
12
Metodo di arricchimento
Anziché mettersi a sequenziare in modo furioso,
si può cercare di operare sulla libreria in modo
di aumentare la probabilità di trovare il cDNA di
interesse. Questo lo si può fare in vari metodi
Frazionamento in gel
Clonazione per sottrazione
Francesco Piva Ist Biologia e Genetica, Ancona
13
Metodo di arricchimento
  • Per arricchire la libreria del cDNA di interesse
    si può
  • selezionare in partenza le cellule o i tessuti
    più ricchi del trascritto
  • rimuovere dalla libreria le sequenze che non
    interessano
  • indurre o aumentare la trascrizione del
    particolare gene con stimoli specifici

Francesco Piva Ist Biologia e Genetica, Ancona
14
Frazionamento in gel
Se si sa la lunghezza del cDNA che stiamo
cercando, si possono selezionare su gel prima di
legarli al vettore
Francesco Piva Ist Biologia e Genetica, Ancona
15
Clonazione per sottrazione
Linea cellulare
Linea cellulare -
Sintesi del cDNA dallmRNA
mRNA
Eliminazione dellmRNA
Ibridazione
mRNA non appaiati
cDNA non appaiati
Recupero del cDNA non appaiato tramite colonnine
di idrossiapatite. Ottengo solo quello non comune
alle due linee
Francesco Piva Ist Biologia e Genetica, Ancona
16
Normalizzazione delle librerie di cDNA
Al fine di trovare con la stessa probabilità sia
le sequenze abbondanti che quelle rare si attua
una normalizzazione delle librerie di cDNA. Per
far questo si sfrutta il fatto che i cDNA più
abbondanti, si appaiano o ibridizzano più
rapidamente e possono essere rimossi dallinsieme
di cDNA di partenza. In questo modo linsieme
rimanente si svuota delle sequenze più abbondanti
ovvero si arricchisce di quelle più rare.
N di copie
N di copie
Tipo di cDNA
Tipo di cDNA
Supponendo di avere il cDNA di 8 geni espressi
con intensità diversa, mostriamo il grafico
dellabbondanza di copie di cDNA prima e dopo la
normalizzazione della libreria Si perdono le
informazioni sul livello di espressione dei geni
Francesco Piva Ist Biologia e Genetica, Ancona
17
Generazione delle sequenze EST etichette di
sequenza espressa
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
Francesco Piva Ist Biologia e Genetica, Ancona
18
Scarsa qualità delle sequenze errori
dovuti ad un sequenziamento automatizzato, senza
la supervisione di un operatore, sequenza a
passaggio singolo. Quello che importa è
determinare la presenza di un trascritto non la
sua sequenza. In questo modo si perdono le
informazioni sulle mutazioni.
gtT27784 g609882 T27784 CLONE_LIB Human
Endothelial cells. LEN 337 b.p. FILE gbest3.seq
5-PRIME DEFN EST16067 Homo sapiens cDNA 5' end
AAGACCCCCGTCTCTTTAAAAATATATATATTTTAAATATACTTAAATA
TATATTTCTAATATCTTTAAATATATATATATATTTNAAAGACCAATTTA
TGGGAGANTTGCACACAGATGTGAAATGAATGTAATCTAATAGANGCCTA
ATCAGCCCACCATGTTCTCCACTGAAAAATCCTCTTTCTTTGGGGTTTTT
CTTTCTTTCTTTTTTGATTTTGCACTGGACGGTGACGTCAGCCATGTACA
GGATCCACAGGGGTGGTGTCAAATGCTATTGAAATTNTGTTGAATTGTAT
ACTTTTTCACTTTTTGATAATTAACCATGTAAAAAATG
Francesco Piva Ist Biologia e Genetica, Ancona
19
Problemi con gli EST
  • Le sequenze provenienti dallo stesso trascritto
    vanno raggruppate clustering
  • Questa operazione non è banale perchè bisogna
    tener conto dei seguenti problemi
  • presenza di polimorfismi, le mie EST potrebbero
    non allineare con la sequenza genomica poiché le
    EST sono del mio organismo, il genomico è di un
    organismo diverso da quello che sto studiando
  • un gene può avere anche centinaia di varianti di
    splicing
  • i geni paraloghi (fisicamente in posizioni
    cromosomiche diverse ma con trascritti quasi
    identici)
  • presenza negli EST di pezzi di vettore
    plasmidico
  • presenza di sequenze genomiche batteriche
  • presenza di sequenze ripetute come le Alu
  • artefatti dovuti al fatto che due inserti di
    cDNA entrano in tandem in un vettore plasmidico e
    io li leggo come un unico trascritto
  • In generale questi problemi sono completamente
    superabili solo quando si conosce la sequenza
    genomica della specie che sto studiando

Francesco Piva Ist Biologia e Genetica, Ancona
20
cDNA, EST e banche dati
dbEST (pronuncia the best) Divisione di GenBank
che contiene tutte le sequenze EST, classificate
per specie, tessuto, patologia
Francesco Piva Ist Biologia e Genetica, Ancona
21
dbEST release 103103 Summary by Organism
- October 31, 2003
Number of public entries
18,971,362 Homo sapiens (human)
5,427,521 Mus musculus
domesticus (mouse) 3,915,334 Rattus
sp. (rat)
538,251 Triticum aestivum (wheat)
500,902 Ciona
intestinalis
492,488 Gallus gallus (chicken)
451,565 Zea mays
(maize)
383,759 Danio rerio (zebrafish)
362,445 Hordeum vulgare
subsp. vulgare (barley) 348,233 Xenopus
laevis (African clawed frog)
344,747 Glycine max (soybean)
341,578 Bos taurus (cattle)
329,387
Drosophila melanogaster (fruit fly)
261,414 Oryza sativa (rice)
260,890 Saccharum
officinarum
246,301 Caenorhabditis elegans (nematode)
215,200 Silurana tropicalis
209,240
Arabidopsis thaliana (thale cress)
190,732 Medicago truncatula (barrel medic)
187,763 Sus scrofa (pig)
171,920
Francesco Piva Ist Biologia e Genetica, Ancona
22
1 BM055437 . ie94h04.y1
Melton...gi16813328 IDENTIFIERS dbEST
Id 10156577 EST name
ie94h04.y1 GenBank Acc BM055437 GenBank
gi 16813328 CLONE INFO Clone Id
IMAGE5674615 (5') Source University
of Pennsylvania Harvard University (HHMI)
Washington University (GSC) Other ESTs on
cloneie94h04.x1 DNA type cDNA
PRIMERS PolyA Tail Unknown SEQUENCE
GCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCTTTT
TTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTG
GGATTCAATA ACTTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCA
CAGAAAGTATTTATTTTTTCTGGAACATTTAGAAAAAACTTGGATCCCTA
TGAACAGTGGAGTGATCAAGAA ATATGGAAAGTTGCAGATGAGGTTGGG
CTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGT
GGATGGGGGCTGTGTCCTAAGCCATGGCCACA
AGCAGTTGATGTGCTTGGCTAGATCTGTTCCAGTAAGGCGAAGATCTTGC
TGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATT
AGAAGAACTCT AAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTG
AACACAGGATAGAAGCAATGCTGGAATGCCAACAATTTTTGGTCATAGAA
GAGAACAAAGTGCGGCAGTACG ATTCC Quality
High quality sequence stops at base 429 Entry
Created Nov 8 2001 Last Updated Mar 12
2002 COMMENTS Library was
constructed by Dr. Douglas Melton DNA sequencing
by Washington University Genome Sequencing
Center For information on obtaining a clone
please contact Juliana Brown (brown_at_fas.harvard.e
du) This sequence now available from the IMAGE
consortium, for clone orders contact
info_at_image.llnl.gov PUTATIVE ID Assigned
by submitter SWCFTR_HUMAN P13569 CYSTIC
FIBROSIS TRANSMEMBRANE CONDUCTANCE REGULATOR
LIBRARY Lib Name Melton Normalized
Human Islet 4 N4 -
HIS 1 Organism Homo sapiens Sex
Both Organ Pancreas
Tissue type Islets of Langerhans Develop.
stage Adult Lab host DH10B R. Site
1 Not 1 R. Site 2 Sal 1
Inserendo homo sapiens e CFTR
Francesco Piva Ist Biologia e Genetica, Ancona
23
Integrated Molecular Analysis of Genomes and
their Expressions
Francesco Piva Ist Biologia e Genetica, Ancona
24
(No Transcript)
25
Attenzione la ricerca è case sensitive quindi
se digitate cftr non trova nulla, si deve
digitare CFTR maiuscolo.
Francesco Piva Ist Biologia e Genetica, Ancona
26
In IMAGE si trovano due tipi di cluster di geni a
seconda che corrispondano a geni già noti
Geni non noti in NCBI Reference Sequence
Geni noti in NCBI Reference Sequence
Full Cluster i cui cloni allineano pienamente
con un gene noto
Singletons Singolo clone che non si può
raggruppare con altri già noti e contiene almeno
50 nucleotidi in cui non ci sono sequenze ripetute
Predicted full Cluster che contengono una ORF
completa ma il cui gene è stato solo predetto
sperimentalmente
Multi-member Cluster contenente più cloni e il
cui gene non è ne noto ne predetto
Unknown Cloni di cui non si sa se rappresentano
lintera ORF (perché è stato determinato un solo
EST del clone)
Empties Cluster già noto ma di cui in questa
libreria non ci sono cloni
Partial Cloni che non rappresentano lintera ORF
(gli EST al 5 e al 3 non coprono lintera
regione del clone)
Francesco Piva Ist Biologia e Genetica, Ancona
27
Numero di cloni che coprono interamente la
sequenza codificante, se ne esiste almeno uno
allora abbiamo un full cluster
descrizione del gene
Identificativo del cluster, attenzione perché può
cambiare
28
E possibile vedere gli allineamenti dei cloni
che compongono il cluster
o quello delle singole sequenze EST
Francesco Piva Ist Biologia e Genetica, Ancona
29
In questa schermata troviamo i dati sui cloni e
sugli EST
Il bottone restituisce la descrizione del gene
Francesco Piva Ist Biologia e Genetica, Ancona
30
Provenienza del clone
Classificazione di un clone predicted full,
unknown, partial
clone
EST
Mammalian Gene Collection
Bento Soares Columbia University Lavora alla
creazione di librerie di EST normalizzate bento-so
ares_at_uiowa.edu
Lunghezza del clone dimensione determinata, se
si conosce un solo EST si indica la lunghezza
minima
A volte è ambiguo stabilire a quale cluster
appartiene un certo clone, il numero a fianco
indica a quanti altri cluster (oltre a questo)
appartiene questo clone
chi ha verificato il clone
Francesco Piva Ist Biologia e Genetica, Ancona
31
http//merops.sanger.ac.uk/
Francesco Piva Ist Biologia e Genetica, Ancona
32
Si possono fare ricerche per identificativo dell
librera, tassuto, stadio di sviluppo
Francesco Piva Ist Biologia e Genetica, Ancona
33
o per patologia
Francesco Piva Ist Biologia e Genetica, Ancona
34
Identificato un gene, mostra la descrizione della
proteina
35
gli allineamenti
Francesco Piva Ist Biologia e Genetica, Ancona
36
Gli omologhi
Francesco Piva Ist Biologia e Genetica, Ancona
37
UniGene Sviluppato da NCBI, contiene i cluster
corrispondenti ai geni Gli EST sono stati
filtrati, verificati con MegaBlast, tutti i
cluster sono confrontati con i nuovi EST e
verificati settimanalmente Nota non fare
riferimento agli ID (identificativi) dei cluster
poiché possono cambiare settimanalmente
Francesco Piva Ist Biologia e Genetica, Ancona
38
Francesco Piva Ist Biologia e Genetica, Ancona
39
Dalla schermata precedente cè un collegamento a
questo sito
Vengono fornite le sequenze di 10 basi
(etichette) in ordine di occorrenza decrescente
nel cluster per il gene di interesse
40
STACK Sviluppato dal South African National
Bioinformatics Institute, contiene i dati sui
cluster, il criterio di allineamento è un po
diverso da quello di UniGene perché inizialmente
si verifica se due EST sono parzialmente
sovrapposti controllando se hanno parti in comune
Francesco Piva Ist Biologia e Genetica, Ancona
41
TIGR
In generale i dati di clustering differiscono da
una banca dati allaltra a causa dei diversi
criteri adottati
Francesco Piva Ist Biologia e Genetica, Ancona
42
Francesco Piva Ist Biologia e Genetica, Ancona
43
ORF nelle tre fasi, nel filamento diretto e
inverso
Zona e direzione in cui allineano gli EST
Per ciscun EST e possibile avere informazioni dal
sito TIGR, da GenBank Nucleoride e da IMAGE
Francesco Piva Ist Biologia e Genetica, Ancona
44
Francesco Piva Ist Biologia e Genetica, Ancona
45
  • Noi possiamo allineare i trascritti sul DNA
    genomico tramite programmi disponibili su siti
    internet
  • Questi programmi tengono conto che
  • il trascritto deve essere completamente
    contenuto nel DNA genomico
  • lappaiamento potrebbe non essere perfetto
  • lappaiamento può essere interrotto da introni

Francesco Piva Ist Biologia e Genetica, Ancona
46
Francesco Piva Ist Biologia e Genetica, Ancona
47
Francesco Piva Ist Biologia e Genetica, Ancona
48
Francesco Piva Ist Biologia e Genetica, Ancona
49
Predizione teorica dei geni in un genoma metodi
Analisi discriminante lineare e quadratica
Alberi di decisione
Modelli di Markov a variabili nascoste
Reti neurali artificiali
Metodo del perceptron
Decomposizione secondo le direzioni di massima
dipendenza
Stima degli esameri codificanti
Metodo della matrice di pesi e del vettore di pesi
Francesco Piva Ist Biologia e Genetica, Ancona
50
Analisi discriminante lineare e quadratica
Lobiettivo di questo metodo è
Identificare le variabili e le relazioni tra di
esse che permettono di differenziare due o più
gruppi di dati
Classificare nuovi casi nei gruppi ricavati
(predittività)
lineare quadratico
Concentrazione di B
Concentrazione di B
Concentrazione di A
Concentrazione di A
Es distinguere gli individui sani e malati in
base alla misura della concentrazione di due
enzimi. Con il metodo dei minimi quadrati si
minimizza lerrore di classificazione e si
ottiene una relazione lineare tra le due variabili
Nel caso del riconoscimento degli esoni in una
sequenza di pre-mRNA, come variabili si sceglie
la frequenza di certe triplette nei siti di
splicing in 5 e in 3.
Francesco Piva Ist Biologia e Genetica, Ancona
51
Modelli di Markov a variabili nascoste
 
Un sistema viene descritto da una successione di
stati discreti e dalla probabilità di transizione
da uno stato allaltro
Data una sequenza esonica catga
C
A
G
T
A
Possiamo rappresentarla come la successione di
stati di un sistema e ricavare un modello
descrittivo che a partire da un certo stato
indichi la probabilità di transizione verso un
altro stato. La parola nascosti indica che uno
stato non può essere osservato Gli schemi di
transizione sono caratteristici delle zone
codificanti e non.
Francesco Piva Ist Biologia e Genetica, Ancona
52
Date le cinque sequenze sotto, cerchiamo di
ricavare un modello di Markov
Si ricava questo modello
Inserzione di uno stato (regioni altamente
variabili)
Stati principali
E.g. P(ACACATC) (0.8 1)(0.81)(0.80.6)(0.
40.6)(11)(0.81)(0.8)
A C A C A
T C (S logP(sequenza) -
lunghezza(sequenza)log0.25 )
Francesco Piva Ist Biologia e Genetica, Ancona
53
Lattuale modello di predizione di un gene
Stati particolari (es n)
Inserzione di uno stato (regioni altamente
variabili)
Stati principali
- si possono rappresentare regole semplici - non
si considera la frequenza dei dinucleotidi - non
si considera la dipendenza (correlazione) fra i
nucleotidi - in realtà ci vorrebbe un modello di
Markov per gli esoni, uno per gli introni, uno
per le regioni non tradotte
Francesco Piva Ist Biologia e Genetica, Ancona
54
Perceprton
sinapsi
assoni
corpo
w1
x1
dendriti
x2
w2
assone
x3
w3
wn
xn
non linear function
b
weights
inputs
bias
E un algoritmo realizzato con una rete neurale
artificiale che realizza lanalisi discriminante
lineare, questo prova iterativamente vari piani
di separazione cercando ad ogni passo di
minimizzare lerrore di discriminazione.
Francesco Piva Ist Biologia e Genetica, Ancona
55
Stima degli esameri
Le sequenze vengono trattate come successioni di
parole. Ciascuna parola è un insieme di basi, ad
esempio sei simboli formano un esamero La
distinzione tra sequenze codificanti e non, si
basa sulla frequenza con cui si trovano certi
esameri Alcune parole sono caratteristiche delle
sequenze codificanti Es CAGCAG Altre sono
caratteristiche di quelle non codificanti Es
TAATAA Dallosservazione dei geni si ricava un
punteggio che viene assegnato ad ogni esamero. Il
punteggio può essere positivo o negativo a
seconda che sia indizio di una sequenza
codificante o meno. In fase di analisi, data una
sequenza che potrebbe rappresentare un potenziale
gene, si estraggono tutti gli esameri e si ricava
un punteggio totale.
Francesco Piva Ist Biologia e Genetica, Ancona
56
Metodo della marice di pesi
Questo metodo è usato per assegnare un punteggio
ad un sito di DNA o RNA per indicare quanto
questo sia affine a legare una proteina o altro
Punteggio (gtcacgt) -0.21 -0.5 0.73 1.32
0.94 0.99 0.27 3,54
Punto debole non si tiene conto delle
correlazioni tra basi in diversa posizione Es
Questi siti di legame differiscono solo per la
sesta posizione. Non è detto che il punteggio in
posizione 4 (A) dipenda solo dal nucleotide che
si trova in quella posizione potrebbe dipendere
da quali altri nucleotidi sono presenti nelle
vicinanze. In altre parole, a volte non vale la
semplice proprietà additiva per calcolare
laffinità di legame
GTCACGT
GTCACTT
Il metodo del vettore dim pesi associa un
punteggio ad unintera parola anziché ad una
singola base
57
Decomposizione secondo la direzione di massima
dipendenza
Francesco Piva Ist Biologia e Genetica, Ancona
58
Reti neurali artificiali
Francesco Piva Ist Biologia e Genetica, Ancona
Write a Comment
User Comments (0)
About PowerShow.com