Bancos de Dados - PowerPoint PPT Presentation

1 / 40
About This Presentation
Title:

Bancos de Dados

Description:

Bancos de Dados BD de Seq ncias H uma quantidade gigantesca de informa o sobre biomol culas em BD p blicos Mais de 348 BD BD de seq ncias de ... – PowerPoint PPT presentation

Number of Views:53
Avg rating:3.0/5.0
Slides: 41
Provided by: Emb71
Category:
Tags: bancos | dados

less

Transcript and Presenter's Notes

Title: Bancos de Dados


1
  • Bancos de Dados

2
BD de Seqüências
  • Há uma quantidade gigantesca de informação sobre
    biomoléculas em BD públicos
  • Mais de 348 BD
  • BD de seqüências de nucleotídeos
  • EMBL (http//www.ebi.ac.uk/embl)
  • GenBank (http//www.ncbi.nlm.nih.gov/GenBank)
  • DDBJ (http//www.ddbj.nig.ac.jp)
  • UniGene (http//www.ncbi.nlm.nih.gov/UniGene)
  • BD de seqüências de proteínas
  • SWISS-PROT, TrEMBL (http//www.expansy.ch/sprot)
  • PIR (http//pir.georgetown.edu)
  • BD de motivos
  • Pfam (http//www.sanger.ac.uk/Software/Pfam)
  • PROSITE (http//www.expansy.ch/prosite)
  • BD de estruturas macromoleculares 3D
  • PDB (http//www.rcsb.org/pdb)

3
Usos de BD de Seqüências
  • O que se pode descobrir sobre um gene por meio de
    uma busca a um BD?
  • Informação evolutiva genes homólogos,
    freqüências dos alelos, ...
  • Informação genômica localização no cromossomo,
    intros, UTRs, regiões reguladoras, ...
  • Informação estrutural estruturas da proteína
    correspondente, tipos de folds, domínios
    estruturais, ...
  • Informação de expressão expressão específica a
    um dado tecido, fenótipos, doenças, ...
  • Informação funcional função molecular/enzimática,
    papel em diferentes rotas, papel em doenças, ...

4
Busca de Informação
  • Busca de informação sobre genes e produtos
    gênicos
  • Gene e produtos gênicos são geralmente
    organizados por seqüência
  • Seqüências genômicas codificam todas
    características de um organismo
  • Produtos gênicos são descritos unicamente por sua
    seqüência
  • Seqüências similares entre biomoléculas indica
    tanto uma função similar quanto um relacionamento
    evolutivo
  • Seqüências de macromoléculas proporciona chaves
    biologicamente significativas para busca em BD

5
Busca em BD de Seqüências
  • Comece com uma seqüência, encontre informação
    sobre ela
  • Muitos tipos de seqüências de entrada
  • Pode ser uma seqüência de aminoácido ou de
    nucleotídeo
  • Genômica, cDNA/mRNA, proteína
  • Completa ou fragmentada
  • Matches exatos são raros
  • Em geral, o objetivo é recuperar um conjunto de
    seqüências similares

6
Busca em BD de Seqüências
  • O que queremos saber sobre a seqüência?
  • Ela é similar ao algum gene conhecido? Quão
    próximo é o melhor match? Significância?
  • O que sabemos sobre este gene?
  • Genômica (localização no cromossomo, regiões
    reguladoras, ...)
  • Estrutural (estrutura conhecida? ...)
  • Funcional (molecular, celular e doença)
  • Informação evolutiva
  • Este gene é encontrado em outros organismos?
  • Qual é sua árvore taxonômica?

7
NCBI e Entrez
  • A mais usada interface para a recuperação de
    informação de BD biológicos é o sistema Entrez do
    NCBI (http//www.ncbi.nlm.nih.gov/Entrez)
  • NCBI (National Center for Biotechnology
    Information)
  • O sistema Entrez tira vantagem do fato que há
    relacionamentos lógicos pré-existentes entre as
    entradas indíviduas encontradas em diversos BD
    públicos
  • Por um exemplo, um artigo no PuBMed pode
    descrever o sequenciamento de um gene cuja
    seqüência aparece no GenBank
  • A seqüência de nucleotídeos, por sua vez, pode
    codificar o produto de uma proteína cuja
    seqüência está armazenada em um BD de proteínas
  • A estrutura 3D desta proteína pode ser conhecida
    - as coordenadas da estrutura podem aparecer em
    um BD de estruturas
  • Finalmente, o gene pode ter sido mapeado para uma
    região específica do cromossomo - BD de
    mapeamento
  • A existência dessas conexões naturais, levou ao
    desenvolvimento de um método por meio do qual
    toda a informação poderia ser encontrada sem ter
    que visitar sequencialmente BD distintos

8
O Sistema Entrez (1/2)
  • Para ser claro, Entrez não é um BD
  • É a interface por meio da qual todos os seus BDs
    componentes podem ser acessados
  • O espaço de informação do Entrez inclui
  • Registros do PubMed
  • Dados sobre seqüências de nucleotídeos e
    proteínas
  • Informação sobre estruturas 3D
  • Informação de mapeamento
  • A vantagem do Entrez está no fato que toda esta
    informação pode ser acessada por meio de apenas
    uma query (consulta)

9
O Sistema Entrez (2/2)
10
BLAST Busca com uma Seqüência
  • O objetivo é encontrar outras seqüências que são
    mais similares a query (consulta) do que seria
    esperado por ter acontecido ao acaso
  • Homologia
  • Pode começar com seqüências de nucleotídeos ou
    aminoácidos
  • Pode fazer a busca por nucleotídeos/aminoácidos

11
BLAST
12
Mais que NCBI
  • Links para anotações funcionais fora do NCBI
  • Gene Ontology - nomes padrões para
  • Funções moleculares
  • Localização celular
  • Processos
  • Links para BD de enzimas
  • Funções da enzimas
  • Links para o BD KEGG (vias)

13
KEGG
14
Referências
  • A. D. Baxevanis e B. F. Francis Ouellete (eds.).
    Bioinformatics a practical guide to the analysis
    of genes e proteins. John Wiley Sons. 2001.
  • The Molecular Biology Database Collection 2003
    update -- Nucleic Acids Research 31(1)1-12

15
Alinhamento de Seqüências
  • Possibilitar ao pesquisador determinar se duas
    seqüências apresentam suficiente similaridade tal
    que um inferência sobre homologia pode ser
    justificada
  • Homologia significa dizer que duas (ou mais)
    seqüências tem um ancestral comum
  • História evolutiva
  • Similaridade é uma medida da qualidade do
    alinhamento entre duas seqüências, baseada em
    algum critério
  • Não se refere a nenhum processo histórico
  • Apenas uma comparação das seqüências com algum
    método
  • É uma afirmação logicamente mais fraca
  • Em bioinformática, esses dois termos são muitas
    vezes confundidos
  • A razão é provavelmente porque uma similaridade
    significativa é um forte argumento para homologia
    e, a partir disso, para a dedução de que as
    seqüências codificam um gene com uma função
    biológica similar

16
Bases Evolucionárias
  • Mutações
  • Os eventos mais simples que ocorrem durante o
    curso da evolução molecular são substituições de
    um nucleotídeo por outro e a deleção ou inserção
    de uma par de base
  • Quando uma alinhamento de seqüências refletem
    genuinamente a história evolutiva de dois genes
    ou proteínas
  • Resíduos que foram alinhados mas não são
    idênticos representaria uma substituição
  • Regiões onde os resíduos de uma seqüência não
    correspondem a nada na outra seria interpretado
    como ou uma inserção uma seqüência ou uma deleção
    na outra

A L I G N M E N T - L I G A M E
N T
17
Relação entre Sequências
18
Similaridade
  • Similaridade pode ser definida contando posições
    que são idênticas entre duas seqüências
  • Gaps (inserções/deleções) podem ser importantes

G A A T T C A G T T A G G
A T T C G - A
19
Substituições
  • Nem todo mismatch (substituições) são iguais
  • Alguns aminoácidos são mais substituível entre si
  • Serina e treonina são mais parecidos do que
    triptofan e alanina
  • Podemos adicionar um custo diferente para cada
    tipo de mismatch (substituição)
  • Em geral, não usamos custos diferentes para os
    mismatches no alinhamento de nucleotídeos
  • Nenhuma substituição, por si, é melhor do que
    outra

20
Gaps
  • Sem gaps, há NM possíveis alinhamentos entre
    seqüências de comprimentos N e M
  • Uma vez gaps são permitidos, isto se torna um
    número muito grande
  • O número de possíveis alinhamentos torna-se
    exponencial no tamanho das seqüências
  • Logo, não podemos experimentar todos

21
Alinhamento Aleatórios
  • A introdução de gaps também pode levar a
    alinhamentos sem sentido

S O M E T I M E S Q U I P S E N T I C E
S - - E - - - Q U - -
- E N - - C E
  • É necessário distinguir entre alinhamentos que
    ocorreram devidoa homologia daqueles que são
    esperados a acontecer ao acaso
  • Defina um esquema (função) de score (pontuação)
    que leve em consideração ambos mismatches e
    penalidades para gaps

22
Match Scores
  • Match scores são em geral calculadoscom base na
    freqüência de mutações particulares em
    seqüências muito similares

23
Alinhamento Global e Local (1/2)
  • Global
  • Seqüências são comparadas como um todo
  • Útil quando temos seqüências que diferem pouco
    entre si
  • Inclui gaps
  • Local
  • O alinhamento localiza fragmentos de seqüências
    que são mais similares
  • Algumas vezes não inclui gaps
  • Muitas proteínas não apresentam um padrão global
    de similaridade
  • Mosaico de domínios modulares
  • Alinhamento de seqüências de nucleotídeos de um
    mRNA processado (spliced) com sua seqüencia
    genômica (Exon/Intron)

24
Alinhamento Global e Local (2/2)
25
Score do Alinhamento
  • Um score (pontuação) do alinhamento é a soma de
    todos os match scores, com a penalidade subtraída
    para cada gap

A B C D E F G A C C - F G
match gap score
score 8 2 8 8 8 gt 34 - (102) 22
26
Métodos de Alinhamento de Seqüências
  • Dado um par de seqüências e função de score
    (pontuação), identifique o alinhamento que obteve
    o melhor score
  • Alinhamento ótimo
  • Lembre, há um número exponencial de alinhamentos
    possíveis
  • A maioria deles com scores muito ruins
  • Alinhamento de pares de seqüências
  • Matriz de pontos (dot matrix)
  • Programação dinâmica
  • Dicionário de palavras ou k-tuplas (BLAST)

27
Matriz de Pontos
  • Permite a inspeção visual de um possível
    alinhamento entre duas seqüências
  • Permite que repeats e inversões sejam detectadas
  • Permite a identificação de regiões
    auto-complementares (e.g., RNA com estrutura
    secundária)
  • O alinhamento não é produzido

28
Exemplo
  • Seqüências
  • ATGCGTCGTT
  • ATCCGCGAT
  • Passos
  • Organize as seqüências em uma matriz
  • Coloque um ponto em cada lugar que houver um
    match entre duas bases
  • Trechos diagonais (indicados por linhas) são
    áreas de alinhamento
  • Mais de um alinhamento pode surgir

29
Assuntos Abordados
  • BLAST original
  • Gapped BLAST
  • PSI-BLAST
  • PHI-BLAST

30
Original BLAST (Proteínas)
  • Determinando as sementes
  • Sementes de tamanho fixo (w)
  • Pontuação mínima para a semente (T)
  • Procurando ocorrências
  • Tabela com todas as palavras de tamanho w
  • Autômato finito baseado em transições (Mealy)
  • Estendendo um alinhamento
  • Alinhamento sem gaps
  • Limite para expansão de alinhamento (X)

31
Original BLAST (DNA)
  • Determinando as sementes
  • Todas as seqüências de tamanho fixo (w) n-w1
    sementes
  • Banco de dados comprimido
  • 4 nucleotídeos armazenados em um byte
  • Buscas por casamentos são acelerados por um fator
    4
  • Filtros
  • Regiões pouco significativas (SEG)
  • Repetições

32
Estatísticas paracomparação local (1)
  • Número esperado de seqüências (E-value) com score
    maior ou igual a S é dado por
  • Calculando o score normalizado (bit score)

33
PSI-BLAST
  • Variante do BLAST que permite comparar proteínas
    fracamente relacionadas, mas com regiões bem
    conservadas.
  • Position-Specific Score para cada posição da
    seqüência usada como query, um valor é associado
    para cada resíduo. Quanto mais conservado o
    resíduo, maior o score.
  • Para uma seqüência de tamanho L, a matriz de
    pontuação terá tamanho L x 20.

34
PSI-BLASTOs 5 Passos
  1. Compara a query com um banco de proteínas usando
    Gapped BLAST.
  2. É construído um alinhamento múltiplo, e a partir
    deste um perfil (seqüência matriz de
    pontuação).
  3. O perfil é comparado com o banco de proteínas em
    busca de alinhamentos locais.
  4. PSI-BLAST estima a significância estatística dos
    alinhamentos encontrados.
  5. Finalmente, PSI-BLAST retorna ao passo 2 por um
    número arbitrário de vezes, até convergir.

35
Performance do PSI-BLAST
Teste com 11 famílias de proteínas
Smith- Watterman Original BLAST Gapped BLAST PSI-BLAST
Total de Hits (E ? 0.01) 1739 1656 1731 2649
Tempo Normalizado 36.0s 1.0s 0.34s 0.87s
36
PHI-BLAST
  • Recebe como entrada uma seqüência de aminoácidos
    e um padrão (estilo PROSITE) existente nesta
    seqüência.
  • Apenas as seqüências do banco que baterem com
    este padrão serão consideradas.
  • O padrão é usado como semente para o alinhamento
    local gerado pelo BLAST.

37
O Algoritmo do PHI-BLAST
  • A busca por seqüências do banco de dados que
    batem com o padrão é realizada com uma adaptação
    dos métodos propostos por Baeza-Yates Gonnet e
    Wu Manber.
  • O alinhamento das seqüências é realizado com a
    heurística do Gapped BLAST.
  • O algoritmo só permite o uso de padrões
    relativamente raros no banco de dados.

38
PHI-BLASTAnálise Estatística
  • Score de um alinhamento SSleftS0Sright
  • Score relevante SSleftSright
  • Probabilidade de se obter um score ? S
  • Número de alinhamentos com score ? S

39
PHI-BLASTExemplo (E-Value)
Exemplo Padrão PHI-BLAST BLAST
A GAxxxxGKST 0.038 4.7
B hxhxDxGxG 0.017 1.8
C DhDhhh 0.061 8.6
D QxxGRxGAR 0.54 -
40
PHI-BLASTExemplo (Tempo)
Exemplo Tamanho Hits PHI-BLAST BLAST
A 549 14582 26s 77s
B 615 2986 12s 103s
C 449 1890 10s 71s
D 424 672 9s 64s
Write a Comment
User Comments (0)
About PowerShow.com