Title: I DATABASE
1I DATABASE
- Elenco
- http//www.ncbi.nlm.nih.gov/About/tools/restable_m
ol.html - Statistiche (Vedere i vari database)
- http//www.ncbi.nlm.nih.gov/About/tools/restable_s
tat.html
2NUCLEOTIDE
3LIMITS
- È possibile limitare la ricerca, creando delle
query anche piuttosto complesse
4LIMITS
- Ad esempio scegliere solo le sequenze di Sus
scrofa
numero di record mostrati per pagina
E possibile selezionare solo alcuni dei record
risultanti ed effettuare delle operazioni solo
su essi Ad esempio visualizzarne la sequenza,
salvarli su file....
clickando qui si vede il record
5(No Transcript)
6(No Transcript)
7(No Transcript)
8LIMITS
- Proviamo a limitare ulteriormente la ricerca
9PREVIEW
- PREVIEW permette di vedere solo il numero di
record che soddisfano la query.
10INDEX
- INDEX permette di usare il numero delle query
(preceduto da ) anzichè riscrivere tutto (si
possono fare anche operazioni booleane
11(No Transcript)
12(No Transcript)
13OPERATORI BOOLEANI
- Questi dovreste conoscerli dalla matematica e
dallinformatica!
ATTENZIONE! Oltre a quello nucleare, esiste anche
il genoma mitocondriale, nei database sono
depositate sequenze derivanti da entrambe le
sorgenti!!!
14OPERATORI BOOLEANI
- Esempio di OR
- Esempio di AND (non esistono sequenze
contemporaneamente di maiale e di pollo)
15UN ERRORE
- Attenzione se abbiamo limitato la ricerca, tutti
i termini scritti sulla linea di query si
riferiscono a quella limitazione (ad esempio il
campo organismo)
16CORRETTO!
- In tal caso bisogna specificare a quale campo si
riferisce ogni temine della query
17ATTENZIONE AL MINUSCOLO
- Attenzione gli operatori booleani vanno indicati
in MAIUSCOLO!
Sbagliato!
Giusto!
18SORGENTI DEI DATI
- Come già accennato il database NUCLEOTIDICO
dellNCBI contiene numerose sorgenti di dati.
Dalla riga di intestazione del formato FASTA si
può capire quale - gbembdbjsppir
Record proveniente da DDBJ (con codice AK096328.1)
Record provenienti da REFSEQ, database di
sequenze di trascritti (con codice NM_021245.2)
Record proveniente da GENBANK, (con codice
BC013330.1)
Il codice gi è identificativo allinterno del
database nucleotidico globale di NCBI
19LINK A TAXONOMY
- Vediamo più in dettaglio alcuni dei campi ed in
particolare i link agli altri database integrati
in ENTREZ
Link a taxonomy (database degli organismi
rappresentati in NUCLEOTIDE di NCBI
20(No Transcript)
21(No Transcript)
22- PubMed, disponibile tramite NCBI Entrez
retrieval system, è stato sviluppato dal National
Center for Biotechnology Information (NCBI) alla
National Library of Medicine (NLM), è localizzato
presso il National Institutes of Health (NIH). - Entrez (come già discusso) è il sistema di
ricerca testuale e di recupero utilizzato
allNCBI per servizi che includono PubMed,
Sequenze di nucleotidi e Proteine, Genomi
completi, Tassonomia, OMIM e molti altri. - PubMed è stato disegnato per fornire accesso
alle citazioni della letteratura biomedica,
inoltre consente laccesso e il link ad altre
risorse biomolecolari di Entrez.
23Esempio di una ricerca in PubMed
Testo ricercato
Parametri avanzati di ricerca
visualizzazione
24- In stretta relazione con le banche dati primarie
di nuceotidi, esistono numerose banche dati di
geni, - ad esempio presso lNCBI è stata sviluppata la
banca dati LocusLink. - Come si può dedurre dal nome, questo database
assegna per ogni locus genetico, ossia per ogni
elemento funzionale di un genoma (ad esempio un
gene codificante una proteina) - il nome ufficiale,
- eventuali sinonimi,
- il link a OMIM,
- gli accession numbers delle sequenze
nucleotidiche associate a quel locus e presenti
nelle banche dati primarie, - Il codice della classificazione internazionale
degli enzimi (se si tratta di un enzima), - Il link ad altre banche dati NCBI costituenti il
pacchetto per la genomica quali RefSeq (in cui a
ciascuna entry è associata per es.la sequeza
completa tra le ridondanti) ed UniGene.
25(No Transcript)
26(No Transcript)
27(No Transcript)
28(No Transcript)
29Durante il processo evolutivo è noto che si
generano specie differenti da un antenato
comune. Nelle specie che derivano da questo
processo detto di speciazione, gran parte dei
geni dellantenato comune vengono mantenuti e
nella gran parte dei casi da un gene se ne
ottengono due, uno per ognuna delle due specie.
Questi due geni si definiscono geni ortologhi.
SPECIE 1 Gene A
SPECIE 2 Gene A-1
SPECIE 3 Gene A-2
30- Come detto in precedenza mutazioni, ossia
alterazioni della sequenza nucleotidica di un
gene, possono riflettersi in alterazioni della
funzionalità della proteina da esso codificata.
Questo mutazioni possono quindi causare le
cosiddette malattie genetiche. - ES una mutazione a carico del gene della ß
globina fa sì che una particolare base del gene
venga sostituita con unaltra, ciò altera il
codone e nella proteina ciò si riflette nella
sostituzione di un glutamato con una valina e in
una ridotta funzionalità della proteina che causa
una malattia genetica detta anemia a cellule
falciformi. - Mutazioni a carico di geni differenti causano
molte malattie genetiche diverse per questo è
stato costituito il database OMIM.
31(No Transcript)
32(No Transcript)
33UCSC genome browser
- Questo browser genomico è stato sviluppato per
fronteggiare il problema dellenorme aumento di
dati genomici derivanti in particolare dai
progetti di sequenziamento dei vertebrati. - Ovviamente è poco utile avere lunghe stringhe di
basi corrispondenti ai singoli cromosomi dei vari
organismi. - Per questo motivo lUCSC genome browser fornisce
una rapida visualizzazione grafica di ogni
regione di genoma di qualsivoglia lunghezza
assieme ad una grande quantità di informazioni
come - geni noti, geni predetti, ESTs (expressed
sequence TAGs), mRNA, geni omologhi di altri
organismi, ecc..
34(No Transcript)
35LEZIONE 5-01mar2005
Durante il sequenziamento sitematico di un
genoma, spesso vengono rilasciate versioni
successive specialmente nella fase conclusiva del
progetto esse possono essere più o meno
definitive. Qui si fa riferimento a varie
versioni (release) del genoma umano.
Organismo di cui si vuole visualizzare la regione
genomica
Gruppo di organismi di interesse
36Pulsanti per ingrandire o rimpicciolire larea di
interesse
Pulsanti di spostamento sul genoma
Posizione attuale sul genoma
Chromosoma, rappresentazione schematica e
posizione attuale
Permette di saltare sulla posizione digitata
sulla finestra di sinistra
37Posizione (bp)
Geni con esoni (sbarrette spesse) ed introni
(sbarrette sottili)
ESTs
Grado di conservazione della sequenza tra
organismi diversi
38(No Transcript)
39- Il numero crescente di sequenze geniche note e di
informazioni disponibili su di esse spesso causa
dei problemi come per esempio lassegnazione di
nomi multipli allo stesso gene oppure
lassegnazione di funzioni differenti alla stessa
proteina. Queste funzioni possono essere tutte
corrette (spesso una proteina svolge più di una
funzione) ma esse devono essere rese disponibili
agli utenti e definite utilizzando una
terminologia corretta per far sì che non si
generino descrizioni troppo soggettive e lasciate
completamente al libero arbitrio dello scopritore
della proteina o del gene. - Per questo motivo è stato fondato il database
GeneOntology che fornisce una definizione precisa
del ruolo svolto dalle singole proteine tramite
un vocabolario (delle ontologie) che consenta di
definire in modo corretto e non arbitrario il o i
processi biologici cui una proteina partecipa,
la/e sue funzioni molecolari e la sua
localizzazione/i cellulare.
40(No Transcript)
41(No Transcript)
42- Come si vede nella precedente slide un termine di
gene ontology molto generico (ad esempio
organelle organization and biogenesis) contiene
al suo interno più termini di gene ontology via
via più specifici (es. mitochondrion organization
and biogenesis). - Questo fa sì che man mano che si va verso il
basso le definizioni diventino sempre più
precise ed i geni che soddisfano a quella
descrizione sempre meno. - Questo albero può quidi essere letto a più
livelli, da quelli più generali che stanno in
alto a quelli via via sempre più specifici che
stanno in basso.
43Quanti sono i database disponibili in rete? Una
risposta si può ottenere al seguente
sito http//www.infobiogen.fr/services/dbcat/ DBC
AT, The Public Catalog of Databases Attualmente
esistono più di 500 database di carattere
biologico che sono stati raggruppati in questo
sito in otto categorie principali
Il numero di database inoltre è in continua
crescita e la rivista NAR (nucleic acids
research) dedica ogni anno un numero speciale per
la descrizione dei database biologici.