Title: BIOLOGIA/MEDICINA
1BIOLOGIA/MEDICINA
A Revolução da Genômica/Bioinformática
2A Verdadeira Revolução
Início do séc. 20 Mendel e as leis da
hereditariedade. 1944 DNA como elemento
carreador da informação genética
(Avery) 1953 Watson/Crick e aestrutura do
DNA. Anos 70 e 80 Biologia Molecular/Biotecnolo
gia Anos 90 e séc. 21 Genômica/Bioinformática
3História da Biologia Molecular
- 1951 Fred Sanger, Amino Acid Sequence of Insulin
- 1953 Watson/Crick, Estrutura do DNA
- 1957 Francis Crick, Central Dogma, DNA ? RNA ?
Protein - 1960s Nirenberg, Matthaei, The Genetic Code
- 1967 Shapiro and Beckwith, First gene cloned,
LacZ - 1972 Paul Berg, First recombinant DNA molecule
- 1973 Cohen/Boyer, First recombinant organism
- 1977 Maxam/Gilbert and Fred Sanger, DNA
sequencing - 1977 Fred Sanger, Complete sequence of phage
?X174 - 1978 David Botstein, Restriction Fragment Length
Polymorphisms (RFLP) - 1980 Kerry Mullis, PCR
- 1983 Lee Hood, First Automated DNA Sequencer
4Sequenciamentodo DNASanger, Gilbert (Nobel 1980)
5Sequenciamento Automático
Leroy Hood
30kb por corrida
6A era genômica
7376 Genomas Concluídos! 251 como rascunho! 342
em andamento
327 Bacterial, 27 Archeal, 22 Eukaryotic
- 1995, Haemophilus influenzae
- 1996, Methanococcus jannaschii
- 1997, Saccharomyces cerevisiae
- 1997, Escherichia coli
- 1998, Caenorhabditis elegans
- 2000, Drosophila melanogaster
- 2000, Arabidopsis thaliana
- 2001, Homo sapiens
- 2002, Schizosaccharomyces pombe
- 2002, Oryza sativa
- 2002, Mus musculus
- 2005, Pan troglodites
http//www.ncbi.nlm.nih.gov 09/07/2006
8Um modelo genético
9Genoma Humano2001
- International Consortium
- Grupos acadêmicos
- Celera Genomics
- Companhia Privada
10A nova revolução da Genômica
454
SOLiD - ABI
Solexa - Illumina
03 GB de DNA por corrida
120 MB de DNA por corrida
01 GB de DNA por corrida
12KB/US 100KB/US 300KB/US
Tecnologia de Capilar 0.5KB/US
11Nova tecnologia
- Dispensa clonagem dos fragmentos em sistemas
bacterianos - Dispensa a preparação de DNA molde para
sequenciamento - Reações feitas em paralelo em volume extremamente
pequeno - nanotecnologia
12Aplicações
- Sequenciamento de Genomas
- sequenciamento de novo
- re-sequenciamento - variabilidade SNPs e mutações
- Sequenciamento de Transcriptomas
- variabilidade - splicing, poliadenilação
- quantificação de expressão gênica
13Sequenciamento de novo
14Re-sequenciamento
15Transcriptoma
16Projeto 454
Participantes LICR-SP, LICR-NY, Venter
Institute Objetivo Sequenciamento extensivo dos
genes expressos na linhagem celular HCC1954
(tumor de mama) buscando conhecer, com um único
set de dados, alterações genéticas e
epi-genéticas neste tipo de câncer. Sequenciador
454
17Fapesp/LICR Genoma Humano do Câncer Projeto 454
Venter/LICR
sequências 1.2 milhões 520 mil
sequenciadores 05 MegaBaces 01 454
corridas 15,000 01
Custo (US) 12 milhões 10 mil Excluindo
o preço dos aparelhos
18Um objetivo a curto prazo
19Os sequenciadores de nova geraçãopromovem uma
mudança no paradigma
Geração de dados deixa de ser o fator limitante
Com os bilhões de datapoints gerados em horas, o
processamento e análise dos dados tornou-se o
maior gargalo das pesquisas biomédicas.
20Bioinformática
- Computação
- Matemática
- Biologia
21O que é Bioinformática?
22(No Transcript)
23(No Transcript)
24Bioinformática - História
- 1970, Needleman/Wunch, Alinhamento Global.
- 1972, Margaret Dayhoff, Matrizes de
Comparação. - 1979, Walter Goad, GenBank.
- 1981, Smith/Waterman, Alinhamento Local.
- 1989, NHGRI, Projeto Genoma Humano.
- 1990, Altschul/Gish/Miller/Myers/Lipman, BLAST.
- 1994, Eddy/Krogh/Durbin, Hidden Markov Models
(HMMs).
25Bioinformática - Importância
- Poucas pessoas adequadamente treinadas em
Biologia e Computação. - Biologia em larga-escala. Produção de dados em
massa gera uma demanda para análises
computacionais. - Economiza tempo e dinheiro.
26Bioinformática
- Desenvolvimento de ferramentas.
- Forma de explorar novos dados.
- Processamento de dados gerados por projetos em
larga-escala. - Uma nova forma de se fazer ciência dirigida por
hipóteses.
27Bioinformática
O Bioinformata O Usuário
- Manipula a informação.
- Desenvolve ferramentas
- Bancos de dados locais.
- Local.
- Mta programação.
- Habilidades de TI.
- Recursos da Web.
- Local ou remoto.
- nada de programação.
- pouca habilidade de TI.
28Cinco websites que todos devem conhecer
- NCBI (The National Center for Biotechnology
Information - http//www.ncbi.nlm.nih.gov/
- EBI (The European Bioinformatics Institute)
- http//www.ebi.ac.uk/
- The UCSC Genome Browser
- http//genome.ucsc.edu/
- SwissProt/ExPASy (Swiss Bioinformatics Resource)
- http//expasy.cbr.nrc.ca/sprot/
- PDB (The Protein Databank)
- http//www.rcsb.org/PDB/
29NCBI (http//www.ncbi.nlm.nih.gov/)
- Acesso aos bancos de dados via Entrez
- Medline/OMIM
- Genbank/Genpept/Structures
- Servidor de BLAST
- Todos os tipos de Blast
- Portal do Genoma Humano
- Muito, muito mais..
30(No Transcript)
31(No Transcript)
32EBI (http//www.ebi.ac.uk/)
- Acesso a bancos de dados via SRS
- EMBL, SwissProt,
- Muitas outras ferramentas
- ClustalW, DALI,
33(No Transcript)
34UCSC Genome Browser (http//genome.ucsc.edu/)
- Banco de dados e Browser para genomas de
diferentes espécies - Humano, camundongo, rato, zebrafish, etc.
- Muitas outras ferramentas
- SNPs, domínios prtéicos, genômica comparativa,
etc.
35(No Transcript)
36SwissProt (http//www.expasy.ch/sprot/)
- Checagem manual.
- O número de entradas errôneas é bastante
reduzido. - Cross-link extensivo com outros bancos
- SwissProt é o gold-standard em termos de bancos
de dados e é o melhor lugar para se começar uma
análise se vc procura info para uma ou poucas
37(No Transcript)
38Protein Data Bank PDB (http//www.rcsb.org/pdb/)
- Armazena a estrutura tri-dimensional para
milhares de proteínas - Acesso a vários serviços relacionados a biologia
estrutural
39(No Transcript)
40Bancos de Sequência Primários
GenBank (USA) http//www.ncbi.nlm.nih.gov/Genbank
EMBL (Europa) http//www.ebi.ac.uk/embl/ DDBJ
(Japão) http//www.ddbj.nig.ac.jp/
41Homologia - Ortologia - Paralogia
42Dois conceitos importantes
- Paralogia O evento que originou às duas
sequências é um evento de duplicação gênica! - Orthologia O evento que deu origem às duas
sequências é um evento de especiação!
FUNÇÕES SIMILARES!
FUNÇÕES IDÊNTICAS!
43Como definir função?
- Alinhamento de sequências
- Motivos (padrões consensuais)
- Blocos, perfis, etc....
- Hidden Markov Models - HMM
44Similarity Searches on Sequence Databases, EMBnet
Course, October 2003
45Alinhamento
0 1 2 3 4 5 6 7 8 9 10 G A A -
G G A T T A G G A T C G G A - - A
G
- Identidade - MATCH
- Semelhança / divergência - MISMATCH
- Lacunas - GAPS
- Inserção/Deleção - INDELS
46Alinhamento
- Qual é o melhor alinhamento ?
- Alinhamento 1
- A C G G A C T
-
- - A T C G G A T C T
-
- Alinhamento 2
- A T C G
G A T C T -
- - A C G G A C T
47Pontuação
- Esquema de pontuação
- match 2
- mismatch 1
- indel 2
- Alinhamento 1 (5 2) (11) (4-2) 10 1
8 3 -
- Alinhamento 2 (6 2) (11) (2-2) 12 1
4 9 - Escore final soma dos escores para cada posição
- Favorece os matches, penaliza os gaps
48Matriz de Substituição
- Tabela de comparação
- Reflete a probabilidade ou frequência de
determinada substituição em sequências
biologicamente relacionadas - p(A ? B) p(B ? A)
- Construídas pelo estudo do alinhamento de
diversas sequências relacionadas - AA ou nucleotídeos
49Percent Accepted Mutation (PAM - Dayhoff)
- Margaret Dayhoff (1978)
- Probabilidade de substituição de aa em
alinhamentos globais de sequências homólogas - Cada matriz reflete as mutações entre sequências
que divergiram por determinado período de tempo - Mutações aceitas gt não afetam negativamente a
viabilidade da proteína - Primeira matriz
- 71 grupos de proteínas, 85 de similaridade
- 1572 substitutições de aminoácidos
- Expansão do número de proteínas gt 1991 database
50Matrizes PAM
- Premissa gt cada mutação é independente das
mutações anteriores - Consequência gt as substituições observadas em
curtos períodos podem ser extrapoladas para
longos períodos - PAM 1 gt sequências com 1 ou menos de
divergência gt1 mutação aceita a cada 100
aminoácidos - PAM N mutações (PAM 1)N
- PAM 250 gt 250 mutações por 100 aa gt 250
mutações em 2500 milhões anos - PAM 250 20 similar - PAM 120 40 - PAM 80
50 - PAM 60 60
51http//www.blc.arizona.edu/courses/bioinformatics/
dayhoff.html
52Blocks Substitution Matrix (BLOSUM)
- Kenikoff Henikoff (1992)
- Frequência de substituição de aa em um conjunto
de 2000 padrões (blocos) - Maior número de sequências consideradas gt mais
de 500 famílias - Alinhamentos locais de sequências relacionadas e
não geradas a partir de extrapolações - BLOSUM 62 é o padrão para BLAST 2.0 gt sequências
moderadamente distantes ou mais próximas - Sequências Consenso
- 60 idênticas BLOSUM 60
- 80 idênticas BLOSUM 80
53http//www.blc.arizona.edu/courses/bioinformatics/
blosum.html
G A V C T K I G V V C Y R E
6049(-2)2(-3) 16
54Relação ente BLOSUM e PAM
http//www.ncbi.nlm.nih.gov/Education/BLASTinfo/Sc
oring2.html
- PAM gt origens evolutivas de proteínas
- BLOSUM gt domínios conservados
55Global vs. Local
- Global
- Alinhamento de toda a sequência utilizado o
maior número de caracteres possíveis - Sequências similares e de tamanho aproximado
- Local
- Segmentos com o maior número de identidades
- Regiões alinhadas e não alinhadas (? mismatch)
- Sequências similares em algumas regiões, que
diferem em tamanho ou que compartilham domínios
conservados
56Aplicações
- Global
- Deduzir histórias evolutivas entre membros da
mesma família - Estabelecer a existência de um ancestral comum
(homologia) - Local
- Inferir funções biológicas
- Identificar regiões conservadas e de alta
similaridade (sítio ativo, domínios) entre outras
pouco conservadas - Reconstruir sequências de DNA a partir de seus
fragmentos - Comparar sequências de mRNA (sem íntrons) à
sequência genômica
57Métodos de Análise
- Diagramas - DOT PLOT
- Algoritmo de Programação Dinâmica
- Algoritmos Heurísticos - Word-Based ou K-tuples
58Dot Plot
59Inserções Deleções
60Repetições Inversões
61Programas Disponíveis
- Dotter (http//www.cgr.ki.se/cgr/groups/sonnhammer
/Dotter.html) - COMPARE DOTPLOT (Genetics Computer Group)
- PLALIGN (http//fasta.bioch.virginia.edu/fasta/fas
ta_list.html) - Web browser (http//www.isrec.isb-sib.ch/java/dotl
et/Dotlet.html)
62Programação Dinâmica
- Needleman Wunsch (1970)
- Compara cada par de caracteres nas duas
sequências - Posiciona os gaps de forma a obter o maior número
de alinhamentos idênticos ou similares - Gera uma matriz de números que representa todos
os possíveis alinhamentos de acordo com um
sistema de escore - Alinhamento ótimo gt maior escore
63Limitações
- Computacionalmente lento
- Número de alinhamentos cresce exponencialmente
com a média dos comprimentos das sequências (n) - Número de cálculos gt proporcional a n2 ou n3
- Memória gt capacidade da ordem de n2
64Needleman-Wunsch
As sequências abcdefghajklm abbdhijk São
alinhadas e scores são dados a b
c d e f g h a j k l m
a b b d . . . h i j k
match 4 4 4 4 4 4
mismatch -3 -3 gap_open
-2 gap_extend -1-1-1 Score total
de 24-6-2-3 13.
65Needleman-Wunsch
O alinhamento de maior score entre as
duas sequências é considerado o mais provável.
66Needleman-Wunsch
Saída típica
Global HBA_HUMAN vs HBB_HUMAN Score
290.50 HBA_HUMAN 1
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44
HBB_HUMAN 1
VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE
43 HBA_HUMAN 45 HF.DLS.....HGSAQVKGHG
KKVADALTNAVAHVDDMPNALSAL 83
HBB_HUMAN 44 SFGDLSTPDAVMGNPKVKAHGKK
VLGAFSDGLAHLDNLKGTFATL 88 HBA_HUMAN 84
SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF
128
HBB_HUMAN 89
SELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKV
133 HBA_HUMAN 129 LASVSTVLTSKYR
141
HBB_HUMAN 134
VAGVANALAHKYH
146 id 45.32 similarity
63.31 Overall id 43.15 Overall similarity
60.27
67Razões para se usar um banco de sequências
- Eu acabei de obter uma sequência. O que é sabido
à respeito desta sequência? Ela é única? - Eu tenho uma sequência única. Ela tem
similaridade com alguma outra sequência de função
conhecida? - Eu encontrei uma nova proteína em um determinado
organismo. Existe um ortólogo conhecido? - Eu decidi trabalhar com um gene novo. Eu não
tenho como obter um clone contendo a sequência
deste gene. Eu preciso da sequência do cDNA para
fazer uma PCR.
68O que envolve uma busca ?
- Algoritmos de busca (BLAST, FASTA)
- Matrizes de comparação (PAM vs. BLOSUM)
- Banco de dados (nr, dbEST)
- Parâmetros de busca (filtros on/off, threshold,
etc)
69Basic Local Alignment Search Tool
- Método heurístico gt método empírico, que utiliza
a fórmula tentativa e erro para encontrar as
soluções - Significado estatístico gt determina se um
alinhamento ocorre aleatoriamente ou não - Vantagem gt pelo menos 50 vezes mais rápido que
os algoritmos de programação dinâmica e mais
apropriados para busca em bancos de dados - Desvantagem gt não garante uma solução com um
alinhamento ótimo como os algoritmos de
programação dinâmica
70Aplicações
- Identificar sequências ortólogas e parálogas
- Descobrir novos genes ou proteínas
- Descobrir variantes de genes e proteínas
- Investigar Expressed Sequence Tags - ESTs
- Explorar a estrutura e função de proteínas
71BLAST WEB Pages
- BLAST (NCBI National Center for Biotechnology
Information) http//www.ncbi.nlm.nih.gov/BLAST/ - BLAST2 (Swiss EMBnet server - European Molecular
Biology network??) http//www.ebi.ac.uk/blastall/
- WU-BLAST (Washington University)
http//blast.wustl.edu/
72(No Transcript)
73Blast é Heurístico
- 1) Tabela de busca com todas as palavras
(words) de comprimento W (3 aa ou11 nucleot.)
mais as palavras vizinhas semelhantes, que
aparecem pelo menos T vezes na sequência query. - 2) Busca de sementes (hits, hot spots) na
sequência do banco de dados que alinhem com as
palavras previamente estabelecidas. - 3) Extensão das sementes em ambas as direções,
produzindo alinhamentos locais máximos (HSP -
high scoring pair) com ou sem lacunas, de acordo
com os parâmetros estabelecidos. - 4) Registro da informação em um arquivo
SeqAlign (ASN.1). - 5) A informação é utilizada para buscar
sequências similares. Os resultados podem ser
reformatados sem a necessidade de refazer a busca.
74Sensibilidade vs. Seletividade
- Sensibilidade
- Habilidade de encontrar a maior parte dos membros
relacionados à família da sequência query - Seletividade
- Habilidade de não identificar sequências de
outras famílias como falso-positivos - Grau de cobertura dos membros da família dado um
nível de falso-positivos
75Escores e Estatística
- Bit Score
- Indica quão bom é o alinhamento. Quanto maior o
escore, melhor o alinhamento - Considera o número de resíduos idênticos ou
similares e a quantidade de gaps - Influenciado pela Matriz de Substituição (padrão
BLOSUM 62 ) - Exceção blastn and MegaBLAST
- Normalização bit scores de diferentes
alinhamentos podem ser comparados
76Escores e Estatística
- E-value
- Significado estatístico do alinhamento
- Quanto menor o escore, mais significativo é o
alinhamento - E-value 0.05. Significa que existem 5 chances
em 100 (1 em 20) da similaridade entre as
sequências ocorrer aleatoriamente - Influenciado pelo tamanho do banco de dados e o
sistema de escore utilizado
77Etapas de Busca
- 1) Selecionar a sequência (query)
- 2) Selecionar o banco de dados
- 3) Selecionar o programa
- 4) Definir os parâmetros
78Passo 1 Escolha da sequência
- Natureza
- Tamanho
- Formatos Identificadores (ID), FASTA (gtseq
name), sequências puras (txt?)
79(No Transcript)
80(No Transcript)
81Passo 2 Seleção do Banco de Dados
- Proteínas
- GenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP
- Nucleotídeos
- GenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69,
STS70, vetores, sequências de mitocôndrias,
GSS71, sequências HTGS72 - Conteúdo
- não-redundância,
- periodicidade de atualização
- organismos ou espécies
- sequências patenteadas
- interesse imunológico
- elementos repetitivos, etc.
82http//www.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf
83(No Transcript)
84Passo 3 Seleção do Programa
- Natureza da sequência
- Finalidade da busca
- Banco de dados
85DNA codifica 6 proteínas potenciais
5 CAT CAA 5 ATC AAC 5 TCA ACT
5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACC
CAC 3 3 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTT
TGGATGGGTG 5
5 GTG GGT 5 TGG GTA 5 GGG TAG
86Tipos de Programas
programa entrada banco de dados
1 blastn DNA DNA 1 blastp
protein protein 6 blastx DNA
protein 6 tblastn protein
DNA 36 tblastx DNA DNA
87Passo 4 Seleção dos parâmetros
- Tamanho da palavra (w-er)
- Filtros
- E value
- Matriz de substituição penalidades para gap
Sensibilidade e velocidade gt W, T e
X Seletividade gt cutoff score
88Entrez
Filter
Expect
organism
Word size
Scoring matrix
89Filtro
90Report Header
- Tipo de programa (BLASTP), versão (2.2.1) e data
da versão - Artigo que descreve o BLAST, request ID (issued
by QBLAST), a definição da sequência e resumo do
banco de dados - Taxonomy reports mostra o resultado deste BLAST
na base de informação do banco de dados Taxonomy
91Taxonomy Report
92Graphical Overview
query
database hits
- Quanto mais próximas da query, mais semelhantes
- Barras em rosa lower-scoring matches que alinham
em 2 regiões (resíduos 3-60 e 220-500) - Segmento rachurado as duas regiões de
similaridade estão na mesma proteína mas esta
região não alinha - Outras barras lower-scoring matches
93One-line Descriptions
- (a) gi number, designação do banco de dados,
número de acesso e o nome do locus para as
sequências encontradas, separados por barras
verticais - (b) Definição da sequência
- (c) Escore de alinhamento ( bits)
- (d) E-value
94Pairwise Sequence Alignment
95(No Transcript)
96Famílias de Elementos Repetitivos
- Alu
- L1
- L2
- Tais sequências podem gerar alinhamentos espúrios.
97Alu
- Constitutes about 5 of the human genome.
- Short interspersed repeats.
- Found in primate genomes.
- ALU elements often found in 3 regions or introns.
98Blast usando uma sequência de Alu
99(No Transcript)
100Como identificar e remover elementos repetitivos
- Filter para elementos repetitivos no servidor de
Blast do NCBI - Repeat Masker http//ftp.genome.washington.edu/cg
i-bin/RepeatMasker
101Nair Rost, 2002
102Way out!
- psi-Blast
- pattern (phi-Blast)
- Hidden Markov Models (HMMs)
103Position Specific Interactive (PSI)-BLAST
- Detecta proteínas fracamente relacionadas ou
novos membros de uma família protéica (mais
sensível) - Utilizado quando o BLAST padrão falha em
encontrar hits significativos ou retorna hits com
decrições do tipo "hypothetical protein" ou
"similar to... " - Busca iterativa gt comparam-se as sequências de
alto escore com a sequência de busca para
determinar quais delas são altamente conservadas - Sequências resultantes gt construção de um modelo
de escore específico por posição (consenso) gt
Position-Specific Scoring Matrix (PSSM ou profile)
104PSI-BLAST - Algoritmo
- Busca com BLASTp normal
- Construção de um consenso a partir das regiões
alinhadas com E values menores que o limite
estabelecido (padrão 0.005) - Utilizando este consenso, procede a uma nova
pesquisa sobre a base de dados - Quaisquer novos hits abaixo do limite são
incluídos em um novo PSSM -
- Fim do processo (convergência) nenhuma nova
sequência é adicionada ao consenso em iterações
subsequentes
105Pattern-Hit Initiated (PHI)-BLAST
- Busca proteínas que contém padrão especificado
pelo usuário E é similar à sequência query em
relação in the vicinity ao padrão - Reduz o número de hits que contém o padrão no
banco de dados mas pode também apresentar
nenhuma homologia ao query - Exemplo de sequência query e um padrão no formato
ProSite - gtgi4758958refNP_004148.1 Human
cAMP-dependent protein kinaseMSHIQIPPGLTELLQGYTVE
VLRQQPPDLVEFAVEYFTRLREARAPASVLPAATPRQSLGHPPPEPGPDR
VADAKGDSESEEDEDLEVPVPSRFNRRVSVCAETYNPDEEEEDTDPRVI
HPKTDEQRCRLQEACKDILLFKNLDQEQLSQVLDAMFERIVKADEHVID
QGDDGDNFYVIERGTYDILVTKDNQTRSVGQYDNRGSFGELALMYNTPR
AATIVATSEGSLWGLDRVTFRRIIVKNNAKKRKMFESFIESVPLLKSLEV
SERMKIVDVIGEKIYKDGERIITQGEKADSFYIIESGEVSILIRSRTKS
NKDGGNQEVEIARCHKGQYFGELALVTNKPRAASAYAVGDVKCLVMDVQ
AFERLLGPCMDIMKRNISHYEEQLVKMFGSSVDLGNLGQ - Padrão encontrado
- LIVMF-G-E-x-GAS-LIVM-x(5,11)-R-STAQ-A-x-
LIVMA-x-STACV
106Hidden Markov Models
- An approach based on statistical sampling theory
- Previously used with success for natural language
processing - Model sequence as a Markov model that is not
known (hidden) - Observed sequence is a noisy representation of
the hidden true model
107A HMM for a DNA sequence
C
C
A
T
T (prob 0.8) or A (prob 0.2)
G (prob 0.1) or C (prob 0.9)
A (prob 0.7) or T (prob 0.3)
G (prob 0.1) or C (prob 0.9)
108Idea of HMM
- Since multiple alignment of k sequences take
O(Nk) time, instead estimate a statistical model
of the sequences - Align the multiple sequences to this model
- This is equivalent to aligning the sequences to
one another
109Protein Family Classification
- Pfam
- large collection of multiple sequence alignments
and hidden Markov models - covers many common protein domains and families
- Over 73 of all known protein sequences have at
least one match - 5,193 different protein families
110Pfam
- Initial multiple alignment of seeds using a
program such as Clustal - Alignment hand scrutinized and adjusted
111Pfam
- Links to the Pfam software
-
- http//pfam.wustl.edu/
- http//www.sanger.ac.uk/Software/Pfam/index.shtml
-
- View some examples
- http//pfam.wustl.edu/
112Locating ORFs
- Simplest method of predicting coding regions is
to search for open reading frames (ORFs) - open reading frames begin with a start (AUG)
codon, and ends with one of three stop codons - Six total reading frames
113Locating ORFs
- Prokaryotes DNA sequences coding for proteins
generally transcribed into mRNA which is
translated into protein with very little
modification - Locating an open reading frame from a start codon
to a stop codon can give a strong suggestion into
protein coding regions - Longer ORFs are more likely to predict
protein-coding regions than shorter ORFs.
114Locating ORFs
- Eukaryotes mRNA undergoes processing to remove
introns before the protein is translated - ORF corresponding to a gene may contain regions
with stop codons found within intronic regions - Posttranscriptional modification makes gene
prediction more difficult
115Filogenia
- Problema de determinação de árvores filogenéticas
- Encontrar a árvore que melhor descreve a relação
entre um conjunto de objetos (espécies ou táxons)
116Filogenia
- Táxons e Complexidade
- 3 árvores possíveis para 4 táxons
- Para 5 táxons?
117Filogenia
- Táxons e Explosão Combinatorial
118Métodos para reconstrução filogenética
- 03 métodos principais
- Parsimônia
- Métodos baseados em distância
- Verossimilhança máxima
119Parsimônia
- Dá preferência à topologia que requer o menor
número de mudanças .
120Filogenia
- Métodos de Distância
- A distância evolutiva é calculada para todos os
pares de táxons - Matriz de Distâncias
- A árvore filogenética é construída considerando a
relação entre esses valores de distâncias
121 O método de evolução mínima
- Para todas as topologias possíveis
- Calcula o comprimento de todos os ramos, S
- Mantém a árvore com menos S.
- Problema computacionalmente intenso. Não é usado
com mais de 25 sequências.
122Filogenia
- Métodos com Critério de Ótimo
- Máxima Verossimilhança
- Determina-se a probabilidade de um modelo
evolutivo gerar um certo dado - Considera todos os sítios e todas as
possibilidades de mutações em todos os nós
internos da árvore proposta - Multiplica-se a probabilidade de cada sítio
- Probabilidade da árvore
- Pode ser utilizado para análises de
características e de valores - Mais consistente e com estimativas com menor
variância - Não é simples e intuitivo
- Computacionalmente intenso
123Bootstrap procedure
- O suporte para cada ramo interno é expresso em
- termos the de réplicas.
124"bootstrapped tree
125Bootstrap
- Ramos internos suportados por 90 das réplicas
são considerados estatisticamente significativos. - O procedimento de bootstrap não define se um
programa é bom. Uma árvore errada pode ter 100
de suporte de bootstrap em seus ramos internos.
126Tempo de processamento para vários programas
distance lt parsimony PHYML ltlt Bayesian lt
classical ML NJ DNAPARS PHYML
MrBayes fastDNAml,PAUP
127Recursos de Web para filogenia
- Compilações
- Uma lista de web sites http//www.ucmp.berkeley.ed
u/subway/phylogen.html - Uma lista grande de programashttp//evolution.gen
etics.washington.edu/ phylip/software.html
128Recursos de Web para filogenia
- Editor de alinhamento
- SEAVIEW para windows e unixhttp//pbil.univ-lyo
n1.fr/software/seaview.html - Programas para filogenia molecular
- PHYLIP http//evolution.genetics.washington.edu/
phylip.html - PAUP http//paup.csit.fsu.edu/index.html
- PHYLO_WIN http//pbil.univ-lyon1.fr/software/ph
ylowin.html - MrBayes
- http//morphbank.ebc.uu.se/mrbayes/
- PHYML http//www.lirmm.fr/guindon/phyml.htm
129Recursos de Web para filogenia
- Desenho de árvores
- NJPLOT (para todas as plataformas)http//pbil.un
iv-lyon1.fr/software/njplot.html - Aulas de filogeniahttp//www.bioinf.org/molsys/le
ctures.html
130sandro_at_ludwig.org.br
131Ontologia Fornecer um vocabulário
estruturado e controlado para representar o
conhecimento biológico nos bancos de dados.for
the
132Gene Onthology (GO)
- Biological Process
- Objetivo dentro da célula, tecido
- Molecular Function
- Função básica ou tarefa
- Cellular Component
- Compartimento ou complexo
133(No Transcript)
134Busca com a palavra collagenase
135Conteúdo do GO
- molecular function 7422 termos
- biological process 8972 termos
- cellular component 1472 termos
- all 17,866 terms
136(No Transcript)