I DATABASE - PowerPoint PPT Presentation

1 / 43
About This Presentation
Title:

I DATABASE

Description:

I DATABASE Elenco: http://www.ncbi.nlm.nih.gov/About/tools/restable_mol.html Statistiche (Vedere i vari database): http://www.ncbi.nlm.nih.gov/About/tools/restable ... – PowerPoint PPT presentation

Number of Views:51
Avg rating:3.0/5.0
Slides: 44
Provided by: unip163
Category:

less

Transcript and Presenter's Notes

Title: I DATABASE


1
I DATABASE
  • Elenco
  • http//www.ncbi.nlm.nih.gov/About/tools/restable_m
    ol.html
  • Statistiche (Vedere i vari database)
  • http//www.ncbi.nlm.nih.gov/About/tools/restable_s
    tat.html

2
NUCLEOTIDE
3
LIMITS
  • È possibile limitare la ricerca, creando delle
    query anche piuttosto complesse

4
LIMITS
  • Ad esempio scegliere solo le sequenze di Sus
    scrofa

numero di record mostrati per pagina
E possibile selezionare solo alcuni dei record
risultanti ed effettuare delle operazioni solo
su essi Ad esempio visualizzarne la sequenza,
salvarli su file....
clickando qui si vede il record
5
(No Transcript)
6
(No Transcript)
7
(No Transcript)
8
LIMITS
  • Proviamo a limitare ulteriormente la ricerca

9
PREVIEW
  • PREVIEW permette di vedere solo il numero di
    record che soddisfano la query.

10
INDEX
  • INDEX permette di usare il numero delle query
    (preceduto da ) anzichè riscrivere tutto (si
    possono fare anche operazioni booleane

11
(No Transcript)
12
(No Transcript)
13
OPERATORI BOOLEANI
  • Questi dovreste conoscerli dalla matematica e
    dallinformatica!

ATTENZIONE! Oltre a quello nucleare, esiste anche
il genoma mitocondriale, nei database sono
depositate sequenze derivanti da entrambe le
sorgenti!!!
14
OPERATORI BOOLEANI
  • Esempio di OR
  • Esempio di AND (non esistono sequenze
    contemporaneamente di maiale e di pollo)

15
UN ERRORE
  • Attenzione se abbiamo limitato la ricerca, tutti
    i termini scritti sulla linea di query si
    riferiscono a quella limitazione (ad esempio il
    campo organismo)

16
CORRETTO!
  • In tal caso bisogna specificare a quale campo si
    riferisce ogni temine della query

17
ATTENZIONE AL MINUSCOLO
  • Attenzione gli operatori booleani vanno indicati
    in MAIUSCOLO!

Sbagliato!
Giusto!
18
SORGENTI DEI DATI
  • Come già accennato il database NUCLEOTIDICO
    dellNCBI contiene numerose sorgenti di dati.
    Dalla riga di intestazione del formato FASTA si
    può capire quale
  • gbembdbjsppir

Record proveniente da DDBJ (con codice AK096328.1)
Record provenienti da REFSEQ, database di
sequenze di trascritti (con codice NM_021245.2)
Record proveniente da GENBANK, (con codice
BC013330.1)
Il codice gi è identificativo allinterno del
database nucleotidico globale di NCBI
19
LINK A TAXONOMY
  • Vediamo più in dettaglio alcuni dei campi ed in
    particolare i link agli altri database integrati
    in ENTREZ

Link a taxonomy (database degli organismi
rappresentati in NUCLEOTIDE di NCBI
20
(No Transcript)
21
(No Transcript)
22
  • PubMed, disponibile tramite NCBI Entrez
    retrieval system, è stato sviluppato dal National
    Center for Biotechnology Information (NCBI) alla
    National Library of Medicine (NLM), è localizzato
    presso il National Institutes of Health (NIH). 
  • Entrez (come già discusso) è il sistema di
    ricerca testuale e di recupero utilizzato
    allNCBI per servizi che includono PubMed,
    Sequenze di nucleotidi e Proteine, Genomi
    completi, Tassonomia, OMIM e molti altri.
  • PubMed è stato disegnato per fornire accesso
    alle citazioni della letteratura biomedica,
    inoltre consente laccesso e il link ad altre
    risorse biomolecolari di Entrez.

23
Esempio di una ricerca in PubMed
Testo ricercato
Parametri avanzati di ricerca
visualizzazione
24
  • In stretta relazione con le banche dati primarie
    di nuceotidi, esistono numerose banche dati di
    geni,
  • ad esempio presso lNCBI è stata sviluppata la
    banca dati LocusLink.
  • Come si può dedurre dal nome, questo database
    assegna per ogni locus genetico, ossia per ogni
    elemento funzionale di un genoma (ad esempio un
    gene codificante una proteina)
  • il nome ufficiale,
  • eventuali sinonimi,
  • il link a OMIM,
  • gli accession numbers delle sequenze
    nucleotidiche associate a quel locus e presenti
    nelle banche dati primarie,
  • Il codice della classificazione internazionale
    degli enzimi (se si tratta di un enzima),
  • Il link ad altre banche dati NCBI costituenti il
    pacchetto per la genomica quali RefSeq (in cui a
    ciascuna entry è associata per es.la sequeza
    completa tra le ridondanti) ed UniGene.

25
(No Transcript)
26
(No Transcript)
27
(No Transcript)
28
(No Transcript)
29
Durante il processo evolutivo è noto che si
generano specie differenti da un antenato
comune. Nelle specie che derivano da questo
processo detto di speciazione, gran parte dei
geni dellantenato comune vengono mantenuti e
nella gran parte dei casi da un gene se ne
ottengono due, uno per ognuna delle due specie.
Questi due geni si definiscono geni ortologhi.
SPECIE 1 Gene A
SPECIE 2 Gene A-1
SPECIE 3 Gene A-2
30
  • Come detto in precedenza mutazioni, ossia
    alterazioni della sequenza nucleotidica di un
    gene, possono riflettersi in alterazioni della
    funzionalità della proteina da esso codificata.
    Questo mutazioni possono quindi causare le
    cosiddette malattie genetiche.
  • ES una mutazione a carico del gene della ß
    globina fa sì che una particolare base del gene
    venga sostituita con unaltra, ciò altera il
    codone e nella proteina ciò si riflette nella
    sostituzione di un glutamato con una valina e in
    una ridotta funzionalità della proteina che causa
    una malattia genetica detta anemia a cellule
    falciformi.
  • Mutazioni a carico di geni differenti causano
    molte malattie genetiche diverse per questo è
    stato costituito il database OMIM.

31
(No Transcript)
32
(No Transcript)
33
UCSC genome browser
  • Questo browser genomico è stato sviluppato per
    fronteggiare il problema dellenorme aumento di
    dati genomici derivanti in particolare dai
    progetti di sequenziamento dei vertebrati.
  • Ovviamente è poco utile avere lunghe stringhe di
    basi corrispondenti ai singoli cromosomi dei vari
    organismi.
  • Per questo motivo lUCSC genome browser fornisce
    una rapida visualizzazione grafica di ogni
    regione di genoma di qualsivoglia lunghezza
    assieme ad una grande quantità di informazioni
    come
  • geni noti, geni predetti, ESTs (expressed
    sequence TAGs), mRNA, geni omologhi di altri
    organismi, ecc..

34
(No Transcript)
35
LEZIONE 5-01mar2005
Durante il sequenziamento sitematico di un
genoma, spesso vengono rilasciate versioni
successive specialmente nella fase conclusiva del
progetto esse possono essere più o meno
definitive. Qui si fa riferimento a varie
versioni (release) del genoma umano.
Organismo di cui si vuole visualizzare la regione
genomica
Gruppo di organismi di interesse
36
Pulsanti per ingrandire o rimpicciolire larea di
interesse
Pulsanti di spostamento sul genoma
Posizione attuale sul genoma
Chromosoma, rappresentazione schematica e
posizione attuale
Permette di saltare sulla posizione digitata
sulla finestra di sinistra
37
Posizione (bp)
Geni con esoni (sbarrette spesse) ed introni
(sbarrette sottili)
ESTs
Grado di conservazione della sequenza tra
organismi diversi
38
(No Transcript)
39
  • Il numero crescente di sequenze geniche note e di
    informazioni disponibili su di esse spesso causa
    dei problemi come per esempio lassegnazione di
    nomi multipli allo stesso gene oppure
    lassegnazione di funzioni differenti alla stessa
    proteina. Queste funzioni possono essere tutte
    corrette (spesso una proteina svolge più di una
    funzione) ma esse devono essere rese disponibili
    agli utenti e definite utilizzando una
    terminologia corretta per far sì che non si
    generino descrizioni troppo soggettive e lasciate
    completamente al libero arbitrio dello scopritore
    della proteina o del gene.
  • Per questo motivo è stato fondato il database
    GeneOntology che fornisce una definizione precisa
    del ruolo svolto dalle singole proteine tramite
    un vocabolario (delle ontologie) che consenta di
    definire in modo corretto e non arbitrario il o i
    processi biologici cui una proteina partecipa,
    la/e sue funzioni molecolari e la sua
    localizzazione/i cellulare.

40
(No Transcript)
41
(No Transcript)
42
  • Come si vede nella precedente slide un termine di
    gene ontology molto generico (ad esempio
    organelle organization and biogenesis) contiene
    al suo interno più termini di gene ontology via
    via più specifici (es. mitochondrion organization
    and biogenesis).
  • Questo fa sì che man mano che si va verso il
    basso le definizioni diventino sempre più
    precise ed i geni che soddisfano a quella
    descrizione sempre meno.
  • Questo albero può quidi essere letto a più
    livelli, da quelli più generali che stanno in
    alto a quelli via via sempre più specifici che
    stanno in basso.

43
Quanti sono i database disponibili in rete? Una
risposta si può ottenere al seguente
sito http//www.infobiogen.fr/services/dbcat/ DBC
AT, The Public Catalog of Databases Attualmente
esistono più di 500 database di carattere
biologico che sono stati raggruppati in questo
sito in otto categorie principali
Il numero di database inoltre è in continua
crescita e la rivista NAR (nucleic acids
research) dedica ogni anno un numero speciale per
la descrizione dei database biologici.
Write a Comment
User Comments (0)
About PowerShow.com