Title: Bancos de Dados
1 2BD de Seqüências
- Há uma quantidade gigantesca de informação sobre
biomoléculas em BD públicos - Mais de 348 BD
- BD de seqüências de nucleotídeos
- EMBL (http//www.ebi.ac.uk/embl)
- GenBank (http//www.ncbi.nlm.nih.gov/GenBank)
- DDBJ (http//www.ddbj.nig.ac.jp)
- UniGene (http//www.ncbi.nlm.nih.gov/UniGene)
- BD de seqüências de proteínas
- SWISS-PROT, TrEMBL (http//www.expansy.ch/sprot)
- PIR (http//pir.georgetown.edu)
- BD de motivos
- Pfam (http//www.sanger.ac.uk/Software/Pfam)
- PROSITE (http//www.expansy.ch/prosite)
- BD de estruturas macromoleculares 3D
- PDB (http//www.rcsb.org/pdb)
3Usos de BD de Seqüências
- O que se pode descobrir sobre um gene por meio de
uma busca a um BD? - Informação evolutiva genes homólogos,
freqüências dos alelos, ... - Informação genômica localização no cromossomo,
intros, UTRs, regiões reguladoras, ... - Informação estrutural estruturas da proteína
correspondente, tipos de folds, domínios
estruturais, ... - Informação de expressão expressão específica a
um dado tecido, fenótipos, doenças, ... - Informação funcional função molecular/enzimática,
papel em diferentes rotas, papel em doenças, ...
4Busca de Informação
- Busca de informação sobre genes e produtos
gênicos - Gene e produtos gênicos são geralmente
organizados por seqüência - Seqüências genômicas codificam todas
características de um organismo - Produtos gênicos são descritos unicamente por sua
seqüência - Seqüências similares entre biomoléculas indica
tanto uma função similar quanto um relacionamento
evolutivo - Seqüências de macromoléculas proporciona chaves
biologicamente significativas para busca em BD
5Busca em BD de Seqüências
- Comece com uma seqüência, encontre informação
sobre ela - Muitos tipos de seqüências de entrada
- Pode ser uma seqüência de aminoácido ou de
nucleotídeo - Genômica, cDNA/mRNA, proteína
- Completa ou fragmentada
- Matches exatos são raros
- Em geral, o objetivo é recuperar um conjunto de
seqüências similares
6Busca em BD de Seqüências
- O que queremos saber sobre a seqüência?
- Ela é similar ao algum gene conhecido? Quão
próximo é o melhor match? Significância? - O que sabemos sobre este gene?
- Genômica (localização no cromossomo, regiões
reguladoras, ...) - Estrutural (estrutura conhecida? ...)
- Funcional (molecular, celular e doença)
- Informação evolutiva
- Este gene é encontrado em outros organismos?
- Qual é sua árvore taxonômica?
7NCBI e Entrez
- A mais usada interface para a recuperação de
informação de BD biológicos é o sistema Entrez do
NCBI (http//www.ncbi.nlm.nih.gov/Entrez) - NCBI (National Center for Biotechnology
Information) - O sistema Entrez tira vantagem do fato que há
relacionamentos lógicos pré-existentes entre as
entradas indíviduas encontradas em diversos BD
públicos - Por um exemplo, um artigo no PuBMed pode
descrever o sequenciamento de um gene cuja
seqüência aparece no GenBank - A seqüência de nucleotídeos, por sua vez, pode
codificar o produto de uma proteína cuja
seqüência está armazenada em um BD de proteínas - A estrutura 3D desta proteína pode ser conhecida
- as coordenadas da estrutura podem aparecer em
um BD de estruturas - Finalmente, o gene pode ter sido mapeado para uma
região específica do cromossomo - BD de
mapeamento - A existência dessas conexões naturais, levou ao
desenvolvimento de um método por meio do qual
toda a informação poderia ser encontrada sem ter
que visitar sequencialmente BD distintos
8O Sistema Entrez (1/2)
- Para ser claro, Entrez não é um BD
- É a interface por meio da qual todos os seus BDs
componentes podem ser acessados - O espaço de informação do Entrez inclui
- Registros do PubMed
- Dados sobre seqüências de nucleotídeos e
proteínas - Informação sobre estruturas 3D
- Informação de mapeamento
- A vantagem do Entrez está no fato que toda esta
informação pode ser acessada por meio de apenas
uma query (consulta)
9O Sistema Entrez (2/2)
10BLAST Busca com uma Seqüência
- O objetivo é encontrar outras seqüências que são
mais similares a query (consulta) do que seria
esperado por ter acontecido ao acaso - Homologia
- Pode começar com seqüências de nucleotídeos ou
aminoácidos - Pode fazer a busca por nucleotídeos/aminoácidos
11BLAST
12Mais que NCBI
- Links para anotações funcionais fora do NCBI
- Gene Ontology - nomes padrões para
- Funções moleculares
- Localização celular
- Processos
- Links para BD de enzimas
- Funções da enzimas
- Links para o BD KEGG (vias)
13KEGG
14Referências
- A. D. Baxevanis e B. F. Francis Ouellete (eds.).
Bioinformatics a practical guide to the analysis
of genes e proteins. John Wiley Sons. 2001. - The Molecular Biology Database Collection 2003
update -- Nucleic Acids Research 31(1)1-12
15Alinhamento de Seqüências
- Possibilitar ao pesquisador determinar se duas
seqüências apresentam suficiente similaridade tal
que um inferência sobre homologia pode ser
justificada - Homologia significa dizer que duas (ou mais)
seqüências tem um ancestral comum - História evolutiva
- Similaridade é uma medida da qualidade do
alinhamento entre duas seqüências, baseada em
algum critério - Não se refere a nenhum processo histórico
- Apenas uma comparação das seqüências com algum
método - É uma afirmação logicamente mais fraca
- Em bioinformática, esses dois termos são muitas
vezes confundidos - A razão é provavelmente porque uma similaridade
significativa é um forte argumento para homologia
e, a partir disso, para a dedução de que as
seqüências codificam um gene com uma função
biológica similar
16Bases Evolucionárias
- Mutações
- Os eventos mais simples que ocorrem durante o
curso da evolução molecular são substituições de
um nucleotídeo por outro e a deleção ou inserção
de uma par de base - Quando uma alinhamento de seqüências refletem
genuinamente a história evolutiva de dois genes
ou proteínas - Resíduos que foram alinhados mas não são
idênticos representaria uma substituição - Regiões onde os resíduos de uma seqüência não
correspondem a nada na outra seria interpretado
como ou uma inserção uma seqüência ou uma deleção
na outra
A L I G N M E N T - L I G A M E
N T
17Relação entre Sequências
18Similaridade
- Similaridade pode ser definida contando posições
que são idênticas entre duas seqüências - Gaps (inserções/deleções) podem ser importantes
G A A T T C A G T T A G G
A T T C G - A
19Substituições
- Nem todo mismatch (substituições) são iguais
- Alguns aminoácidos são mais substituível entre si
- Serina e treonina são mais parecidos do que
triptofan e alanina - Podemos adicionar um custo diferente para cada
tipo de mismatch (substituição) - Em geral, não usamos custos diferentes para os
mismatches no alinhamento de nucleotídeos - Nenhuma substituição, por si, é melhor do que
outra
20Gaps
- Sem gaps, há NM possíveis alinhamentos entre
seqüências de comprimentos N e M - Uma vez gaps são permitidos, isto se torna um
número muito grande - O número de possíveis alinhamentos torna-se
exponencial no tamanho das seqüências - Logo, não podemos experimentar todos
21Alinhamento Aleatórios
- A introdução de gaps também pode levar a
alinhamentos sem sentido
S O M E T I M E S Q U I P S E N T I C E
S - - E - - - Q U - -
- E N - - C E
- É necessário distinguir entre alinhamentos que
ocorreram devidoa homologia daqueles que são
esperados a acontecer ao acaso - Defina um esquema (função) de score (pontuação)
que leve em consideração ambos mismatches e
penalidades para gaps
22Match Scores
- Match scores são em geral calculadoscom base na
freqüência de mutações particulares em
seqüências muito similares
23Alinhamento Global e Local (1/2)
- Global
- Seqüências são comparadas como um todo
- Útil quando temos seqüências que diferem pouco
entre si - Inclui gaps
- Local
- O alinhamento localiza fragmentos de seqüências
que são mais similares - Algumas vezes não inclui gaps
- Muitas proteínas não apresentam um padrão global
de similaridade - Mosaico de domínios modulares
- Alinhamento de seqüências de nucleotídeos de um
mRNA processado (spliced) com sua seqüencia
genômica (Exon/Intron)
24Alinhamento Global e Local (2/2)
25Score do Alinhamento
- Um score (pontuação) do alinhamento é a soma de
todos os match scores, com a penalidade subtraída
para cada gap
A B C D E F G A C C - F G
match gap score
score 8 2 8 8 8 gt 34 - (102) 22
26Métodos de Alinhamento de Seqüências
- Dado um par de seqüências e função de score
(pontuação), identifique o alinhamento que obteve
o melhor score - Alinhamento ótimo
- Lembre, há um número exponencial de alinhamentos
possíveis - A maioria deles com scores muito ruins
- Alinhamento de pares de seqüências
- Matriz de pontos (dot matrix)
- Programação dinâmica
- Dicionário de palavras ou k-tuplas (BLAST)
27Matriz de Pontos
- Permite a inspeção visual de um possível
alinhamento entre duas seqüências - Permite que repeats e inversões sejam detectadas
- Permite a identificação de regiões
auto-complementares (e.g., RNA com estrutura
secundária) - O alinhamento não é produzido
28Exemplo
- Seqüências
- ATGCGTCGTT
- ATCCGCGAT
- Passos
- Organize as seqüências em uma matriz
- Coloque um ponto em cada lugar que houver um
match entre duas bases - Trechos diagonais (indicados por linhas) são
áreas de alinhamento - Mais de um alinhamento pode surgir
29Assuntos Abordados
- BLAST original
- Gapped BLAST
- PSI-BLAST
- PHI-BLAST
30Original BLAST (Proteínas)
- Determinando as sementes
- Sementes de tamanho fixo (w)
- Pontuação mínima para a semente (T)
- Procurando ocorrências
- Tabela com todas as palavras de tamanho w
- Autômato finito baseado em transições (Mealy)
- Estendendo um alinhamento
- Alinhamento sem gaps
- Limite para expansão de alinhamento (X)
31Original BLAST (DNA)
- Determinando as sementes
- Todas as seqüências de tamanho fixo (w) n-w1
sementes - Banco de dados comprimido
- 4 nucleotídeos armazenados em um byte
- Buscas por casamentos são acelerados por um fator
4 - Filtros
- Regiões pouco significativas (SEG)
- Repetições
32Estatísticas paracomparação local (1)
- Número esperado de seqüências (E-value) com score
maior ou igual a S é dado por - Calculando o score normalizado (bit score)
33PSI-BLAST
- Variante do BLAST que permite comparar proteínas
fracamente relacionadas, mas com regiões bem
conservadas. - Position-Specific Score para cada posição da
seqüência usada como query, um valor é associado
para cada resíduo. Quanto mais conservado o
resíduo, maior o score. - Para uma seqüência de tamanho L, a matriz de
pontuação terá tamanho L x 20.
34PSI-BLASTOs 5 Passos
- Compara a query com um banco de proteínas usando
Gapped BLAST. - É construído um alinhamento múltiplo, e a partir
deste um perfil (seqüência matriz de
pontuação). - O perfil é comparado com o banco de proteínas em
busca de alinhamentos locais. - PSI-BLAST estima a significância estatística dos
alinhamentos encontrados. - Finalmente, PSI-BLAST retorna ao passo 2 por um
número arbitrário de vezes, até convergir.
35Performance do PSI-BLAST
Teste com 11 famílias de proteínas
Smith- Watterman Original BLAST Gapped BLAST PSI-BLAST
Total de Hits (E ? 0.01) 1739 1656 1731 2649
Tempo Normalizado 36.0s 1.0s 0.34s 0.87s
36PHI-BLAST
- Recebe como entrada uma seqüência de aminoácidos
e um padrão (estilo PROSITE) existente nesta
seqüência. - Apenas as seqüências do banco que baterem com
este padrão serão consideradas. - O padrão é usado como semente para o alinhamento
local gerado pelo BLAST.
37O Algoritmo do PHI-BLAST
- A busca por seqüências do banco de dados que
batem com o padrão é realizada com uma adaptação
dos métodos propostos por Baeza-Yates Gonnet e
Wu Manber. - O alinhamento das seqüências é realizado com a
heurística do Gapped BLAST. - O algoritmo só permite o uso de padrões
relativamente raros no banco de dados.
38PHI-BLASTAnálise Estatística
- Score de um alinhamento SSleftS0Sright
- Score relevante SSleftSright
- Probabilidade de se obter um score ? S
- Número de alinhamentos com score ? S
39PHI-BLASTExemplo (E-Value)
Exemplo Padrão PHI-BLAST BLAST
A GAxxxxGKST 0.038 4.7
B hxhxDxGxG 0.017 1.8
C DhDhhh 0.061 8.6
D QxxGRxGAR 0.54 -
40PHI-BLASTExemplo (Tempo)
Exemplo Tamanho Hits PHI-BLAST BLAST
A 549 14582 26s 77s
B 615 2986 12s 103s
C 449 1890 10s 71s
D 424 672 9s 64s