Banco de Dados Biol - PowerPoint PPT Presentation

About This Presentation
Title:

Banco de Dados Biol

Description:

Banco de Dados Biol gicos Marc lio C. P. de Souto DIMAp/UFRN – PowerPoint PPT presentation

Number of Views:108
Avg rating:3.0/5.0
Slides: 54
Provided by: 2372
Category:
Tags: banco | biol | dados

less

Transcript and Presenter's Notes

Title: Banco de Dados Biol


1
Banco de Dados Biológicos
  • Marcílio C. P. de Souto
  • DIMAp/UFRN

2
Banco de Dados (BD) Biológicos
  • Por que?
  • Disponibilizar dados biológicos para os
    cientistas
  • O máximo possível de um tipo particular de
    informação deveria estar disponível em um único
    lugar
  • Dados publicados podem ser difíceis de encontrar
    ou acessar
  • Coleta-los da literatura consume muito tempo
  • Disponibilizar dados em formato que possa ser
    lido por um computador

3
BD de Seqüências
  • Há uma quantidade gigantesca de informação sobre
    biomoléculas em BD públicos
  • Mais de 348 BD
  • BD de seqüências de nucleotídeos
  • EMBL (http//www.ebi.ac.uk/embl)
  • GenBank (http//www.ncbi.nlm.nih.gov/GenBank)
  • DDBJ (http//www.ddbj.nig.ac.jp)
  • UniGene (http//www.ncbi.nlm.nih.gov/UniGene)
  • BD de seqüências de proteínas
  • SWISS-PROT, TrEMBL (http//www.expansy.ch/sprot)
  • PIR (http//pir.georgetown.edu)
  • BD de motivos
  • Pfam (http//www.sanger.ac.uk/Software/Pfam)
  • PROSITE (http//www.expansy.ch/prosite)
  • BD de estruturas macromoleculares 3D
  • PDB (http//www.rcsb.org/pdb)

4
Usos de BD de Seqüências
  • O que se pode descobrir sobre um gene por meio de
    uma busca a um BD?
  • Informação evolutiva genes homólogos,
    freqüências dos alelos, ...
  • Informação genômica localização no cromossomo,
    intros, UTRs, regiões reguladoras, ...
  • Informação estrutural estruturas da proteína
    correspondente, tipos de folds, domínios
    estruturais, ...
  • Informação de expressão expressão específica a
    um dado tecido, fenótipos, doenças, ...
  • Informação funcional função molecular/enzimática,
    papel em diferentes rotas, papel em doenças, ...

5
Busca de Informação
  • Busca de informação sobre genes e produtos
    gênicos
  • Gene e produtos gênicos são geralmente
    organizados por seqüência
  • Seqüências genômicas codificam todas
    características de um organismo
  • Produtos gênicos são descritos unicamente por sua
    seqüência
  • Seqüências similares entre biomoléculas indica
    tanto uma função similar quanto um relacionamento
    evolutivo
  • Seqüências de macromoléculas proporciona chaves
    biologicamente significativas para busca em BD

6
Busca em BD de Seqüências
  • Comece com uma seqüência, encontre informação
    sobre ela
  • Muitos tipos de seqüências de entrada
  • Pode ser uma seqüência de aminoácido ou de
    nucleotídeo
  • Genômica, cDNA/mRNA, proteína
  • Completa ou fragmentada
  • Matches exatos são raros
  • Em geral, o objetivo é recuperar um conjunto de
    seqüências similares

7
Busca em BD de Seqüências
  • O que queremos saber sobre a seqüência?
  • Ela é similar ao algum gene conhecido? Quão
    próximo é o melhor match? Significância?
  • O que sabemos sobre este gene?
  • Genômica (localização no cromossomo, regiões
    reguladoras, ...)
  • Estrutural (estrutura conhecida? ...)
  • Funcional (molecular, celular e doença)
  • Informação evolutiva
  • Este gene é encontrado em outros organismos?
  • Qual é sua árvore taxonômica?

8
NCBI e Entrez
  • A mais usada interface para a recuperação de
    informação de BD biológicos é o sistema Entrez do
    NCBI (http//www.ncbi.nlm.nih.gov/Entrez)
  • NCBI (National Center for Biotechnology
    Information)
  • O sistema Entrez tira vantagem do fato que há
    relacionamentos lógicos pré-existentes entre as
    entradas indíviduas encontradas em diversos BD
    públicos
  • Por um exemplo, um artigo no PuBMed pode
    descrever o sequenciamento de um gene cuja
    seqüência aparece no GenBank
  • A seqüência de nucleotídeos, por sua vez, pode
    codificar o produto de uma proteína cuja
    seqüência está armazenada em um BD de proteínas
  • A estrutura 3D desta proteína pode ser conhecida
    - as coordenadas da estrutura podem aparecer em
    um BD de estruturas
  • Finalmente, o gene pode ter sido mapeado para uma
    região específica do cromossomo - BD de
    mapeamento
  • A existência dessas conexões naturais, levou ao
    desenvolvimento de um método por meio do qual
    toda a informação poderia ser encontrada sem ter
    que visitar sequencialmente BD distintos

9
O Sistema Entrez (1/2)
  • Para ser claro, Entrez não é um BD
  • É a interface por meio da qual todos os seus BDs
    componentes podem ser acessados
  • O espaço de informação do Entrez inclui
  • Registros do PubMed
  • Dados sobre seqüências de nucleotídeos e
    proteínas
  • Informação sobre estruturas 3D
  • Informação de mapeamento
  • A vantagem do Entrez está no fato que toda esta
    informação pode ser acessada por meio de apenas
    uma query (consulta)

10
O Sistema Entrez (2/2)
11
BLAST Busca com uma Seqüência
  • O objetivo é encontrar outras seqüências que são
    mais similares a query (consulta) do que seria
    esperado por ter acontecido ao acaso
  • Homologia
  • Pode começar com seqüências de nucleotídeos ou
    aminoácidos
  • Pode fazer a busca por nucleotídeos/aminoácidos

12
BLAST
13
Mais que NCBI
  • Links para anotações funcionais fora do NCBI
  • Gene Ontology - nomes padrões para
  • Funções moleculares
  • Localização celular
  • Processos
  • Links para BD de enzimas
  • Funções da enzimas
  • Links para o BD KEGG (vias)

14
KEGG
15
Referências
  • A. D. Baxevanis e B. F. Francis Ouellete (eds.).
    Bioinformatics a practical guide to the analysis
    of genes e proteins. John Wiley Sons. 2001.
  • The Molecular Biology Database Collection 2003
    update -- Nucleic Acids Research 31(1)1-12

16
Busca em Banco de Dados
  • Marcílio C. P. de Souto
  • DIMAp/UFRN

17
Primeiro Atrás da Tela
  • Banco de dados são muito usados para buscas
  • Integridade, segurança, ...
  • Busca significa receber uma query (consulta) e
    recuperar algum entrada do banco de dados que
    match (case) com ela
  • Comparação inexata de seqüências (alinhamento)
  • Programação dinâmica e BLAST search
  • Eficiência é fundamental
  • Queremos encontrar coisas rápidas,
    independentemente de quão grande o banco de dados
    se torne

18
Alinhamento de Seqüências
  • Possibilitar ao pesquisador determinar se duas
    seqüências apresentam suficiente similaridade tal
    que um inferência sobre homologia pode ser
    justificada
  • Homologia significa dizer que duas (ou mais)
    seqüências tem um ancestral comum
  • História evolutiva
  • Similaridade é uma medida da qualidade do
    alinhamento entre duas seqüências, baseada em
    algum critério
  • Não se refere a nenhum processo histórico
  • Apenas uma comparação das seqüências com algum
    método
  • É uma afirmação logicamente mais fraca
  • Em bioinformática, esses dois termos são muitas
    vezes confundidos
  • A razão é provavelmente porque uma similaridade
    significativa é um forte argumento para homologia
    e, a partir disso, para a dedução de que as
    seqüências codificam um gene com uma função
    biológica similar

19
Bases Evolucionárias
  • Mutações
  • Os eventos mais simples que ocorrem durante o
    curso da evolução molecular são substituições de
    um nucleotídeo por outro e a deleção ou inserção
    de uma par de base
  • Quando uma alinhamento de seqüências refletem
    genuinamente a história evolutiva de dois genes
    ou proteínas
  • Resíduos que foram alinhados mas não são
    idênticos representaria uma substituição
  • Regiões onde os resíduos de uma seqüência não
    correspondem a nada na outra seria interpretado
    como ou uma inserção uma seqüência ou uma deleção
    na outra

A L I G N M E N T - L I G A M E
N T
20
Relação entre Sequências
21
Similaridade
  • Similaridade pode ser definida contando posições
    que são idênticas entre duas seqüências
  • Gaps (inserções/deleções) podem ser importantes

G A A T T C A G T T A G G
A T T C G - A
22
Substituições
  • Nem todo mismatch (substituições) são iguais
  • Alguns aminoácidos são mais substituível entre si
  • Serina e treonina são mais parecidos do que
    triptofan e alanina
  • Podemos adicionar um custo diferente para cada
    tipo de mismatch (substituição)
  • Em geral, não usamos custos diferentes para os
    mismatches no alinhamento de nucleotídeos
  • Nenhuma substituição, por si, é melhor do que
    outra

23
Gaps
  • Sem gaps, há NM possíveis alinhamentos entre
    seqüências de comprimentos N e M
  • Uma vez gaps são permitidos, isto se torna um
    número muito grande
  • O número de possíveis alinhamentos torna-se
    exponencial no tamanho das seqüências
  • Logo, não podemos experimentar todos

24
Alinhamento Aleatórios
  • A introdução de gaps também pode levar a
    alinhamentos sem sentido

S O M E T I M E S Q U I P S E N T I C E
S - - E - - - Q U - -
- E N - - C E
  • É necessário distinguir entre alinhamentos que
    ocorreram devidoa homologia daqueles que são
    esperados a acontecer ao acaso
  • Defina um esquema (função) de score (pontuação)
    que leve em consideração ambos mismatches e
    penalidades para gaps

25
Match Scores
  • Match scores são em geral calculadoscom base na
    freqüência de mutações particulares em
    seqüências muito similares

26
Alinhamento Global e Local (1/2)
  • Global
  • Seqüências são comparadas como um todo
  • Útil quando temos seqüências que diferem pouco
    entre si
  • Inclui gaps
  • Local
  • O alinhamento localiza fragmentos de seqüências
    que são mais similares
  • Algumas vezes não inclui gaps
  • Muitas proteínas não apresentam um padrão global
    de similaridade
  • Mosaico de domínios modulares
  • Alinhamento de seqüências de nucleotídeos de um
    mRNA processado (spliced) com sua seqüencia
    genômica (Exon/Intron)

27
Alinhamento Global e Local (2/2)
28
Score do Alinhamento
  • Um score (pontuação) do alinhamento é a soma de
    todos os match scores, com a penalidade subtraída
    para cada gap

A B C D E F G A C C - F G
match gap score
score 8 2 8 8 8 gt 34 - (102) 22
29
Métodos de Alinhamento de Seqüências
  • Dado um par de seqüências e função de score
    (pontuação), identifique o alinhamento que obteve
    o melhor score
  • Alinhamento ótimo
  • Lembre, há um número exponencial de alinhamentos
    possíveis
  • A maioria deles com scores muito ruins
  • Alinhamento de pares de seqüências
  • Matriz de pontos (dot matrix)
  • Programação dinâmica
  • Dicionário de palavras ou k-tuplas (BLAST)

30
Matriz de Pontos
  • Permite a inspeção visual de um possível
    alinhamento entre duas seqüências
  • Permite que repeats e inversões sejam detectadas
  • Permite a identificação de regiões
    auto-complementares (e.g., RNA com estrutura
    secundária)
  • O alinhamento não é produzido

31
Exemplo
  • Seqüências
  • ATGCGTCGTT
  • ATCCGCGAT
  • Passos
  • Organize as seqüências em uma matriz
  • Coloque um ponto em cada lugar que houver um
    match entre duas bases
  • Trechos diagonais (indicados por linhas) são
    áreas de alinhamento
  • Mais de um alinhamento pode surgir

32
Programação Dinâmica (PD)
  • Método computacional que calcula o melhor
    alinhamento possível entre sequências
  • Abordagem indutiva, em que são definidos os
    scores para as seqüências menores, e a partir
    dessas, novos scores são computados os scores de
    cadeias maiores
  • Sejam s e t duas seqüências, com sm e
    tn, construir uma matriz (m1) x (n1), em
    que M(i, j) contém a similaridade entre
    s1..i e t1..j
  • Algoritmo de Needleman-Wunch

33
Exemplo (1/12)
  • Sequence 1 GAATTCAGTTA (m 11)
  • Sequence 2 GGATCGA (n 7)
  • Esquema de Pontuação (scoring)
  • S(aibj) 2 if ai bj (match score)
  • S(aibj) -1 if ai ? bj (mismatch score)
  • w -2 (gap penalty)
  • Pontuação Máxima na posição i,j da matriz
  • Mi,j MAX
  • Mi-1, j-1 s(ai,bj) (match/mismatch),
  • Mi,j-1 w (gap na seqüência 1),
  • Mi-1,j w (gap na seqüência 2) 

34
Exemplo (2/12)
  • Inicialização
  • Crie uma matriz com m1 colunas e n1 linhas, em
    que m e n correspondem ao tamanho das seqüências
    a serem alinhadas
  • A primeira linha e a primeira coluna podem ser
    inicialmente preenchidas com 0

35
Exemplo (3/12)
  • Preenchimento da Matriz
  • M1,1 MAXM0,0 2, M1,0 - 2, M0,1 - 2 MAX2,
    -2, -2

36
Exemplo (4/12)
  • Preenchimento da Matriz
  • M1,2 MAXM0,1 2, M1,1 - 2, M0,2 - 2
    MAX02, 2-2, 0-2 MAX2, 0, -2

37
Exemplo (5/12)
  • Preenchimento da Matriz
  • M1,3 MAXM0,2 - 1, M1,2 - 2, M0,3 - 2
    MAX0-1, 2-2, 0-2 MAX-1, 0, -2

38
Exemplo (6/12)
  • Preenchimento da Matriz
  • M32 MAXM21 - 1, M31 - 2, M22 - 2 MAX0-1,
    -1 - 2, 1-2 MAX-1, -3, -1

39
Exemplo (7/12)
  • Preenchimento da Matriz
  • Dois caminhos diferentes para se obter o score
    máximo para célula M32

40
Exemplo (8/12)
  • Preenchimento da Matriz
  • Matriz Final

41
Exemplo (9/12)
  • Traceback

A A
42
Exemplo (10/12)
  • Traceback

T C A G T T A T C G -
A
43
Exemplo (11/12)
  • Traceback

G A A T T C A G T T A
G G A T C G - A
44
Exemplo (12/12)
  • Traceback

G A A T T C A G T T A
G G A T - C G - A
45
Score do Alinhamento
  • G A A T T C A G T T A
  • G G A T C G - A
  •  
  • - - - - -
  • 2 1 2 2 2 2 2 2 2 2 2
  •  
  • 2 1 2 2 2 2 2 2 2 2 2 3?

46
Significância de um Alinhamento
  • Teste de significância é um ramo da estatística
    que se preocupa com a avaliação da probabilidade
    que um resultado particular poderia ter
    acontecido ao acaso
  • Como podemos calcular a probabilidade de que um
    alinhamento aconteceu por acaso?
  • Com um modelo de evolução
  • Empiricamente, por meio do embaralhamento de
    nossas seqüências e o cálculo dos scores nessas
    seqüências aleatórias

47
Busca em BD por Similaridade (1/2)
  • Até agora o foco era sobre o alinhamento de pares
    específicos de seqüências
  • Porém, para uma seqüência nova determinada,
    geralmente não como saber qual seqüência (ou
    seqüências) é apropriada para a comparação
  • Busca em BD por similaridade nos permite
    determinar quais das várias seqüências são
    potencialmente relacionadas a uma seqüência
    particular de interesse
  • Este processo pode levar a descobertas
    inesperadas
  • Um dos primeiros resultados com esse processo
    venho com a descoberta de que o oncogene viral
    v-sis é uma forma modificada de um gene celular
    normal
  • Naquela época, as bases de dados de seqüências
    eram pequenos o suficiente tal que esse achado
    pode ser considerado um fato surpreendente
  • Hoje, porém, seria mais surpreendente fazer uma
    busca em um BD e não encontrar nenhum hit

48
Busca em BD por Similaridade (2/2)
  • A operação básica é sequencialmente alinhar uma
    seqüência query com cada seqüência subject no BD
  • Os resultados são apresentados como uma lista de
    ranks seguida por uma série de alinhamento
    individuais de seqüências, mais vários scores e
    estatísticas
  • ADICIONAR FIGURA

49
Métodos Heurísticos
  • Soluções de programação dinâmica para problemas
    de alinhamento são relativamente lentas
  • Não levam a buscas eficientes nos imensos BD de
    seqüências
  • Necessidade de uma técnica para fazer busca em
    grandes BD para encontrar seqüências que tenha um
    match inexato com a seqüência query
  • Soluções competidoras FASTA BLAST
  • Métodos heurísticos (aproximação) de programação
    dinâmica
  • Baseado na estratégia de quebrar uma seqüência em
    cadeias pequenas de letras consecutivas, chamadas
    de palavras
  • Idéia alinhamento representando um
    relacionamento verdadeiro entre as seqüências
    conterá pelo menos uma palavra que é comum a
    ambas seqüências
  • Estas palavras hits podem ser identificadas
    rapidamente pre-indexando todas as palavras da
    query e então consultando o índece na medida que
    o BD é pecorrido
  • Programação dinâmica encontra relacionamentos em
    seqüências distantemente relacionada que
    aproximações não conseguem

50
BLAST
  • O BLAST é uma heurística para comparação local
    mais utilizada
  • Basic Local Aligment Search Tool (Altschull et
    al., 1990)
  • Há várias variantes do BLAST, dependendo do tipo
    da seqüência query (DNA ou proteínas) e do BD
    sendo consultado

51
Referências
  • A. D. Baxevanis e B. F. Francis Ouellete (eds.).
    Bioinformatics a practical guide to the analysis
    of genes e proteins. John Wiley Sons. 2001.
  • M. S. Waterman. Introduction to Computational
    Biology maps, sequences and genomes. Chapman
    Hall. 2000.
  • http//www.sbc.su.se/per/molbioinfo2001/seqali-dy
    n.html (ótimo tutorial sobre programação
    dinâmica)

52
Análise de Genomas
  • Então, o que fazer com um genoma completo?
    Afinal, um genoma sequenciado consiste apenas de
    um infinidade de bases em uma ordem definida
  • Análise é obviamente necessária a fim de se obter
    informações biologicamente interessantes. A
    análise de um genoma cobre muitos aspectos
    diferentes
  • Definição da localização dos genes (regiões
    codificadoras, regiões reguladoras)
    identificação de gene
  • Predição de genes ab initio usando software
    baseado em regras e padrões.
  • Identificação de genes por meio de alinhamento
    com proteínas conhecidas e seqüências EST
  • Predição de genes por meio de similaridade com
    proteínas e seqüências ESTem outros organismos
  • Predição de genes por meio de comparação com
    outros genomas
  • Regiões conservadas são provavelmente regiões
    codificadoras ou reguladoras

53
Análise de Genomas
  • Anotação de genes comparar com genes/proteínas
    com funções conhecidas em outros organismos.
    Essencialmente o mesmo que rotular um gene.
  • Classificação funcional. Grupos amplos de
    caracterização funcional, tais como proteínas
    ribossomais, ....
  • Vias metabólica
Write a Comment
User Comments (0)
About PowerShow.com