III Alineamiento de Secuencias - PowerPoint PPT Presentation

About This Presentation
Title:

III Alineamiento de Secuencias

Description:

III Alineamiento de Secuencias Andr s Moreira Departamento de Inform tica UTFSM Comparaci n de secuencias Comparaci n de secuencias Comparaci n de secuencias ... – PowerPoint PPT presentation

Number of Views:370
Avg rating:3.0/5.0
Slides: 95
Provided by: Andr574
Category:

less

Transcript and Presenter's Notes

Title: III Alineamiento de Secuencias


1
IIIAlineamiento de Secuencias
Andrés Moreira Departamento de Informática UTFSM
2
TAAACCCTGGCATGCATGTTCAAGCTTTCCAGTCTTGTCAAAATGAATTG
TTCTTGTATCATCTAGAAATTTAGTTAGAGATCAATTTGCCTTTTTTACA
AACAAGCATTTTTAGTTAGTAAGGTTCTGGCCTAATTTGGTATTCTGGAT
TTCTTATTTATCTTAATATTAAAAATAAAGGAGGAAAACTAAATTCACAT
TAAAAATGACTAAATTTTGAAAATTTTTTTCAACAGGTTATATCAATCAG
TGAAAATTCTATATTCCTTTGGCATTTTTGTGACATATTCAATTCAGTTC
TATGTTCCAGCAGAGATCATTATCCCTGGGATCACATCCAAATTTCATAC
TAAATGGAAGCAAATCTGTGAATTTGGGATAAGATCCTTCTTGGTTAGTA
TTACTTGTAAGTATCATTATATATTTATATCATAATAATTTTTTATTGTT
CAATTTCAGTTTTATCCCAACTGGACACACCTAATTTACATTCTTACAGA
CAAGAATTGTTTGCACTGCTGTCAGTGTGCTGCAATTTAACTTCTGTCTC
TACAGAATTGTAAAAGAGCCTAGTCAAAGTCACCCCTAGATGGAATTAAA
TAATTCCTGGGGCCTTCAGCCTTTCATTGAAAGGATATCCAATAATCTCT
TTTCCTCATTTTAAAGTCTTATATTTTTCTTTGCAGTGATAAAAGTGATA
ATTCTGCCTTAGCTCAGTTATGGAAGGCAGAATAAGGAAGATACTTATTA
ACACCACACAGAAAGAAATCACATATCTTTTACGACTTATGCTTAGTTTT
TTTTTAAATACATTGACAGAATAATGAAAACATAACTATTAATAATCATG
AGGAGTCTGTAGATATTACCTCACTGTCATTATCTAAGATAACAAATGGA
AATGTAACAACTATTAACTAAAGTCAAAATGGACACTCATAGTAAATATG
TCTTTTGTTTATGCACAAAGAGTATACACTCTGTCAAATCAAAATAGATT
TTTTTAAAGATGTGAAATTAATCCAATCAGTTCTTTCCTCCTTTAACAAC
AACAAAAATACACTGCCAGGTTAGTGAGTCAAACAAGAGAAGTCTAGGAA
GATGAATGGGGAAGAGAGGCTGTTCTGGTTTAATGTAAACAGCTTAAATA
TGATATTCAAAGGAGTCTGAGAAGCAATTTCCTTAGACTGTTAACTTATT
TGCTTTAGGATTAATTTATTCTTTTTTATTCAATGCAAGTCCAATGCATT
TTAATTTTCAAACAGTAGTATGTCCAGCAGCATTTATTATATGTTCTTGC
TATATGCCCAGAACCATGCTAATATTATCGTCTATCATTCAATACTGTAA
AAACAATGCTATTATTACAAATCTAATTGCAGTCAGGTATTCCCTAGGCT
TCAACCATGAGTGGAGGGGTGGCAGGAGCTAAGATCAAGGCACAGCTTTT
GATCTCAGCTGGCAAGAAAGGAAAGTGGGTAGGGCAGGGCTGGTGATTGC
TTACTTCTTGGACTCAGGGTTTCACAGAGCATCAAGATCTAATAAGCTAT
GCTTCTTCTGTTACCACTCCTCTATCTCTGCCTCTCTCTGCTTCTAGCAC
CATCTTTTCCTTCCTGTCCAAGCTCAGCAATGACATCTCCATCCTTCCCT
GAGCTCTTTATCAAAATTTCCAGTGCCCTTTTGATTGCACCAGGTATTAG
AAAGGAATCCTTTGGCATTAGTCCAATTGATGATCTTCTGATCCTTTCTG
AGAGGTTTGAATTTTTATAAAAGATATTTGATAACAAATCTCAAATTGTT
CATTTTTTTAAACTTGTTATTTCTTCTTCCTTTTAACCATTTAGTCAACA
AACATTTTGAGTACCTACTACTTGCTAGGTGTTCTAGGTGCTAGGGACAA
TCTTCTTCCTTCATAGGTCTGCTGCTTACCTACTTGCTAGGGAACTGATG
GGGAGCCATTTCTCCTTTGGGAAACCTGGGTCTAGCACTGATGAAAGAAA
GTTTCATGGTTGCTTGTCAACCCCATCCTCCAACCTGGGAGTGCCACAGA
GGCCAGTGCAGAAACCAGGGTTCTCAGGGTTTGTGTGAGGGACCGAGTCT
CTGGAACCTGGATTGGGGGAAGGCCATTTACTTTGAAGAGCAGGGGTTGG
ACCTGCTGGGAAAGGGGCCCCTTTTTCTATGAGCAGAACTGAACTGGATT
TTTCATTTGCATTTCATGGGCAGCCTTGCCTTCAATGTCACTGATGAGGG
AAACACCACATGGGATTTCTCAGGCCTCCTCCCCCTCCTTCTCAATGTCC
CTCAAGGCAGCACCCACTCCCATTTGTTTCTCTCTTGGGTGGGAAGGTAC
ATGACATGAAAAATGCTGAATCTCACATCAAGATGTCTTTCAAAAGATGA
ATGGGCAGATTCTTAGTATCATCTCAAAGCAGGCAAGGCAAAGGCAGGAT
ATTTATGAGGTTTTGGAGTGTAGTTTGAGTCAGGCCTTTTGTTTCAGGGG
ACTTGATTAGAATCGGGTAATCTTGTGACATATTAGGGTTAGTGGACAGA
ATGAGGCAAGGGTTTTGAAGACAGTCTTGGACTGTAAACCATTGTTTGAG
ACTATATTGTAGTAGACATGGACTATGAATAGTCTAATGTTTATTTAAAT
AAATTTTCAGGATATTCTTGAAATGGATAATAAAGTTATTTGCAACTTTA
TCTTCCATGGCAAGAGTGTCCTGGAATAATAAATAATATTGATGAAGACA
ATGGATAATAAAGTCATGTTAATGTAGACAGTAAGCCCTGTGGGTATAGA
TAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGG
CTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTA
TTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTG
TATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCA
TCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCA
CCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAA
GGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAAT
GACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTC
ATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAG
ACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGG
ATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACAT
CATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAAC
ACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTC
TCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCC
TAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCC
AGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTT
TTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGA
CAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCT
TCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCT
CTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATGGAAAACAAA
CTTTCAGGACCCTCTATATGGAAAAGGGCATAGGTGAAGCCTCCAAACCC
TGGCCTCCATCCCTGGTCTGGGGATGAAGAAAAACCCTAAAAAAATCTCT
CACTCTCCCATCTATTATGGTTGCTTCTAGCACTATTTGCCTTTATCACT
ACCTATAGGATCAACCTTGATATGCTCAAACTCCAGAAAACTCTACACTT
GAAAGTCATGTGGATGGTAGAATACAATAAAAGCACTACTAACCTTTCAA
ACACTGTGTTGATGCTGGTTTCCTAGGCAGGAGGTGAGAAAAGAAGACTC
CAAGGGAATGATCTTTTTTATTAATCTTTCAACTTACTGTAAAAATATAA
ATGATCACTGTTTTTCAAGCACTTAGCATCTAGAATGGGATCTTTATTTT
TTGCTTTCTGAAAGACAAAACAGAACCAACAAAGTGGTCTAGGAAAAAAA
TCCTTGCACCCAGAAATCCAGAGAAAATGACGTATTCTCATTGGAGTACA
GGTGAAAGAGGACTTCTGAGAGGGCCAGGCAAGGTGGCTCATGCCTGTAA
TTCCAATGCTGTGGGAGGCCGAGACTGGAGAATTGCTTGAGGCAGGAGTT
TGAGATTAGCTAGGAAAACATAGTGAGACCCTGTCTCTACAAGAAATTAT
AAAATTAGCCAGGTGTAGTGGTACAGCTGCAATCCTAGTGCCTGAGGCAG
GAGGATCGCTTGAGCCCACGGGTTTGAGTGTTATGGTGAGCTATAATCAC
ACCACTGCACTCCAGCCTGGGTGATAGAGTAAGATCCTGTCTCAAAAAAA
CAAAAACAAAAACAAACTTCAAAGAAAATCCAAGTGTAACTGCTTGAATG
TGTCCTCTCCCAAATTCAGGTGTTGCCAATGTGACACTATCAAGAGGTGG
GGCTTTAAGAGGTGATTAGGCTATGAAGACTCCTCCCTCATGAATAGGAT
TCAGTTCCCATATAAAGGGCCTTGAGAGAGGGAGCTCCTCCCTTTTATCC
TTCTGCCTTTTGCCATGTGAGGACACAACACTCCTCCCCTCTGGAGAATC
CAACATTAAGGTGCCATCTTGCAAGTAGGATGCATCCTTCACTAGAGAAG
CTGAACCTGCTGGTCTCTTGATCTTGGATTTCACAGCCTCCAGAATTATA
AGAAAGTAAATTTCTCTTCTATAAAATACCCAGTCCCAGAAATTCTGTTA
TACCAGCACAAACAGACTAAAACAGCTTTCAAGTGTGATTAGAGTCAACA
ACCCTGACTAGGGTCAGTAATTGGGATGCTCTGTTATCTCTATTGCAAAG
TTACTGCGTAACTCCAGGTGCACCACATTTTAGCATATTCCCACTTTGGC
AACGTGGTGGTGGTGGTGGTGAAGGTGTCCAGACAGAGGGGGCAGTAAGA
GGAAAAAGCCCTAAAATGGCTGGTATGTTTAACATAGGTTTCTTTAACTC
CCCACAACCTGTAACTGGTACAAATAGGTTCACATTAGCATTAATTCCCT
CATTTCAATGGCTCATCTTAGTTCTCTGCCTATGCTTTTCACTTATTTTC
AGATGTCTCTAGAGATGTCTTACACGCACGCAATAATGGTCTTCTGTTCC
TCTGCTCCACCTTCCTAGTTGGTGTCTATCACCCACAAGCCACTTAAGGA
AAATGCTTTTCCTCTGCTGTGACTGCTGTTGTCCTTCATGAAATAAATAC
TGCCCAGCCCAGGAAGCAAGCTTCAGACACTCCGAAAGTCACAACACCCT
TGAGATGCCAAATGACAATGTGTTCTGTAAATCAAACGACGTGACGGAGG
TAAGTCTCAATCATTTTACAGGTTTATTTTGCCAAAATTGAGCATGTGCC
TGGCAAAAAGGAACACAAAATCACAGGAACATCTGTGATCTGTGCTTTTT
CCAAACAGGGTTTGAGAACTTTTGTATTTAAAGGGGAAAGAGCAGGCAGT
AAGGGAAAGTGGAAAGAAAAGGGGGTAGGGTAAATAAAAGAGAAAAGCAA
TTGCATTCTTTTGAAGCTTTGATCAGCAGTCACTGAATCCATATTTTACA
TGTGAAAGAAGCGGGTAGAGGAAGAGTCAATTATGCATTCATCTGGTGTG
TGGTTAATCTACATTTTTACGTAAAATAAACAGTAGATAACGCAGTCAAA
CATGCATTTGTCTTAAGTGAGGGAAGGATGACTCCTAATCCTGTCTTTGT
CCCATACCTGTGAAGATAATCTGTTAATTTACATTGTTTGGGTGAAATTC
AACAGAATTGTTTTAGGGTAAAGATCTTGGGGCCCACAAGGAATTTCCTT
GTAAGCAAATTGTGAGGCAGGACCCTTGGGGAGGTCAGTAACCTTCTTTC
TATCAATCTATTTAGGAACAAAATGGAAGGCAGTTTTGCATAACTCAGTT
TTCAAGCTTGACTTTTCCCTGTGGCATAATGAGTTTGGGGTCCCAGATTT
TTAGTTTCCTTTCACAGTGTTGTGGGACTTTTCCTTAGTTCAGCTAAAGG
TGAGGTCCTTGTCACACGGCCACAAAATTTAGGGTCGCAATTTGAAGGGT
GAGCAGGGCAGGGTTTATTGGGTGAAAAGGAAAAAAGGGAAACAGGGACC
CTCTGCAAAGCCAGAGTCCCTGCTAGTGCGCTTCCAGCCTCTCAGTTCCC
AGGTTCCACAAAGGAAGAGGAGGGGCCAGTCTCCTCCCCACTACAAACAG
CACAAACTTCTGTGGCTCCACCCAGGTGTGCACTCCTCCCAGTGCATAGG
CTGGTTGGAGTTTTGCCAGGGAGCCCTTCCCACCTAGCAGTTTCAACAGT
TTTCTCCAGAACTTGTTAGACTGCTAAGCCACACCATATTATGTGCAGAA
ATGGGAATAACATCCCTTTCCCCCAATTTGAGTGGTAGGCTGTATTGCAT
AGTGCTTAAGAGCATGGGTTTGGAGGACAGAGATAGATTTTATTTATCTG
ACTCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGA
TTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGA
CTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGG
CCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATAT
AGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAG
TGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCT
CTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCT
CTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCA
GCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCC
CCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGA
GAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAG
AATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGAC
CTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCA
TAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTA
TGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCA
CATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTT
AACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGA
CTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATC
TCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAA
GCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATC
TTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGA
TGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATC
TCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTT
TCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAAT
ATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGT
GGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAA
GTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAA
AATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTC
AGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGC
AGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTT
CTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCT
TTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAG
TATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGA
CCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTA
CACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTA
AAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCA
TTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTAT
CTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAA
AACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGT
ATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAG
CCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGAT
GAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGC
TCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTC
TTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCT
TCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAG
TAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATG
ACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCC
TCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAA
AAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAA
GCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTC
AAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAA
GGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAA
GATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACT
GGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATT
TTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTT
GCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGG
GAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATT
ATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAG
TTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAA
TTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTA
AGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAAT
CCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACT
CACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGAT
AGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCT
CAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCC
CACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATA
TCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATC
CAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACT
GTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCT
ACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATA
ACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACAC
GACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATT
TCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATA
GTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGT
CTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAA
ACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGC
AACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCAC
TTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGT
AAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAA
CTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTA
CAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCA
TTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAA
TTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTC
AGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAA
CTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACA
ACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTG
AAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGA
TTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAAT
GCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACA
CCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGT
GCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAAT
CCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTG
ATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGA
CATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTT
CAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATT
TGCCAGCACAAATGGAAAACAAACTTTCAGGACCCTCTATATGGAAAAGG
GCATAGGTGAAGCCTCCAAACCCTGGCCTCCATCCCTGGTCTGGGGATGA
AGAAAAACCCTAAAAAAATCTCTCACTCTCCCATCTATTATGGTTGCTTC
TAGCACTATTTGCCTTTATCACTACCTATAGGATCAACCTTGATATGCTC
AAACTCCAGAAAACTCTACACTTGAAAGTCATGTGGATGGTAGAATACAA
TAAAAGCACTACTAACCTTTCAAACACTGTGTTGATGCTGGTTTCCTAGG
CAGGAGGTGAGAAAAGAAGACTCCAAGGGAATGATCTTTTTTATTAATCT
TTCAACTTACTGTAAAAATATAAATGATCACTGTTTTTCAAGCACTTAGC
ATCTAGAATGGGATCTTTATTTTTTGCTTTCTGAAAGACAAAACAGAACC
AACAAAGTGGTCTAGGAAAAAAATCCTTGCACCCAGAAATCCAGAGAAAA
TGACGTATTCTCATTGGAGTACAGGTGAAAGAGGACTTCTGAGAGGGCCA
GGCAAGGTGGCTCATGCCTGTAATTCCAATGCTGTGGGAGGCCGAGACTG
GAGAATTGCTTGAGGCAGGAGTTTGAGATTAGCTAGGAAAACATAGTGAG
ACCCTGTCTCTACAAGAAATTATAAAATTAGCCAGGTGTAGTGGTACAGC
TGCAATCCTAGTGCCTGAGGCAGGAGGATCGCTTGAGCCCACGGGTTTGA
GTGTTATGGTGAGCTATAATCACACCACTGCACTCCAGCCTGGGTGATAG
AGTAAGATCCTGTCTCAAAAAAACAAAAACAAAAACAAACTTCAAAGAAA
ATCCAAGTGTAACTGCTTGAATGTGTCCTCTCCCAAATTCAGGTGTTGCC
AATGTGACACTATCAAGAGGTGGGGCTTTAAGAGGTGATTAGGCTATGAA
GACTCCTCCCTCATGAATAGGATTCAGTTCCCATATAAAGGGCCTTGAGA
GAGGGAGCTCCTCCCTTTTATCCTTCTGCCTTTTGCCATGTGAGGACACA
ACACTCCTCCCCTCTGGAGAATCCAACATTAAGGTGCCATCTTGCAAGTA
GGATGCATCCTTCACTAGAGAAGCTGAACCTGCTGGTCTCTTGATCTTGG
ATTTCACAGCCTCCAGAATTATAAGAAAGTAAATTTCTCTTCTATAAAAT
ACCCAGTCCCAGAAATTCTGTTATACCAGCACAAACAGACTAAAACAGCT
TTCAAGTGTGATTAGAGTCAACAACCCTGACTAGGGTCAGTAATTGGGAT
GCTCTGTTATCTCTATTGCAAAGTTACTGCGTAACTCCAGGTGCACCACA
TTTTAGCATATTCCCACTTTGGCAACGTGGTGGTGGTGGTGGTGAAGGTG
TCCAGACAGAGGGGGCAGTAAGAGGAAAAAGCCCTAAAATGGCTGGTATG
TTTAACATAGGTTTCTTTAACTCCCCACAACCTGTAACTGGTACAAATAG
GTTCACATTAGCATTAATTCCCTCATTTCAATGGCTCATCTTAGTTCTCT
GCCTATGCTTTTCACTTATTTTCAGATGTCTCTAGAGATGTCTTACACGC
ACGCAATAATGGTCTTCTGTTCCTCTGCTCCACCTTCCTAGTTGGTGTCT
ATCACCCACAAGCCACTTAAGGAAAATGCTTTTCCTCTGCTGTGACTGCT
GTTGTCCTTCATGAAATAAATACTGCCCAGCCCAGGAAGCAAGCTTCAGA
CACTCCGAAAGTCACAACACCCTTGAGATGCCAAATGACAATGTGTTCTG
TAAATCAAACGACGTGACGGAGGTAAGTCTCAATCATTTTACAGGTTTAT
TTTGCCAAAATTGAGCATGTGCCTGGCAAAAAGGAACACAAAATCACAGG
AACATCTGTGATCTGTGCTTTTTCCAAACAGGGTTTGAGAACTTTTGTAT
TTAAAGGGGAAAGAGCAGGCAGTAAGGGAAAGTGGAAAGAAAAGGGGGTA
GGGTAAATAAAAGAGAAAAGCAATTGCATTCTTTTGAAGCTTTGATCAGC
AGTCACTGAATCCATATTTTACATGTGAAAGAAGCGGGTAGAGGAAGAGT
CAATTATGCATTCATCTGGTGTGTGGTTAATCTACATTTTTACGTAAAAT
AAACAGTAGATAACGCAGTCAAACATGCATTTGTCTTAAGTGAGGGAAGG
ATGACTCCTAATCCTGTCTTTGTCCCATACCTGTGAAGATAATCTGTTAA
TTTACATTGTTTGGGTGAAATTCAACAGAATTGTTTTAGGGTAAAGATCT
TGGGGCCCACAAGGAATTTCCTTGTAAGCAAATTGTGAGGCAGGACCCTT
GGGGAGGTCAGTAACCTTCTTTCTATCAATCTATTTAGGAACAAAATGGA
AGGCAGTTTTGCATAACTCAGTTTTCAAGCTTGACTTTTCCCTGTGGCAT
AATGAGTTTGGGGTCCCAGATTTTTAGTTTCCTTTCACAGTGTTGTGGGA
CTTTTCCTTAGTTCAGCTAAAGGTGAGGTCCTTGTCACACGGCCACAAAA
TTTAGGGTCGCAATTTGAAGGGTGAGCAGGGCAGGGTTTATTGGGTGAAA
AGGAAAAAAGGGAAACAGGGACCCTCTGCAAAGCCAGAGTCCCTGCTAGT
GCGCTTCCAGCCTCTCAGTTCCCAGGTTCCACAAAGGAAGAGGAGGGGCC
AGTCTCCTCCCCACTACAAACAGCACAAACTTCTGTGGCTCCACCCAGGT
GTGCACTCCTCCCAGTGCATAGGCTGGTTGGAGTTTTGCCAGGGAGCCCT
TCCCACCTAGCAGTTTCAACAGTTTTCTCCAGAACTTGTTAGACTGCTAA
GCCACACCATATTATGTGCAGAAATGGGAATAACATCCCTTTCCCCCAAT
TTGAGTGGTAGGCTGTATTGCATAGTGCTTAAGAGCATGGGTTTGGAGGA
CAGAGATAGATTTTATTTATCTGACAACTTTTACTTGAGTGTTGATAGTG
GCATTATTCATAATGTCTCCAAAGTGGAAACCACCCATATGTCTACCAAC
AGACGAATGGATAAAGTATGATATAGCGCTGCAATGGAATATTATTTGGC
AATAAAAAGAAATGAAGTACTAAAGCATGATATATACAAAGATGAACCTT
GAAAACATCATGTTAAGTAAAAGAAGACAGTCATAAAAGTCATGTATTGC
ATGATTCTATTTATATGAAATGTCCAGAATAGGCAAATTCACTGAAAAAG
GAAGTAGATTAGCGGTTGCCTAGAGCTGTGAGAATGGAGAGTTGGGGATG
ATAACTAAGGTATGAGAGATTTCTTTTTGAGGTGATTCAAATGTTCTAAC
TTGTGGTGATAGTTGCACAAGTCTGAATATATTAAAACCATTTAATCATA
TACTTTAAATGTGTGAATTAGATGATTTGTGAAGTAATGTTACCGTAGGT
AGCTAGTCAAACATGAGCAGGGCAGGAGAGAGCTTCCCCCAACCCCCACC
AGGAATGTCAGGCGACCGTCAGGTGATGGTCAGGCAGTTGTTAAGCTATC
TCTCTAAAATAATAATTGGTTGCAGCCGGTGCCAGGGAACGGCAGCCTCC
CAACAGATAGAAACATCTAAAACTGATGATCAGCAGCTTCCCAATAAGCT
CTCAGGAGTTGGGCAAGTGGGCTCAAGCATGCGCACTAAGAGGGAAAGTG
GCAGATGACCTTTGTTTAGGAACACTGGATTGGTAAGGGGAAAATGCCTC
AAGTGAGCATGCACACTGTGCATGCGGCCCCTCCCAAGTGCTAGCAGGCC
ACTGTACATGTGGACAGCCCGCCCCAAGGGAAGAATCAGGGGAGAAGTAG
TGCAAGACCCCGGAAGAATGCCAACATATAAAACCCCAAGTCGAAAGGTT
AAACCGTACGCTTGATCTCTCAAGTTGCCCGCTTGGCCCTCTTCCGAGTG
TACTTTACTTCCCTTCATTCCTGCTCTAAAGCTTTTTAACAAACTTTCAC
TCCTGCTCTAAAACTTGCCTTGGTCTCTCACTCTGCCTTATACCCCCTCA
GTCTTCTGAGGAGGCAAGAATTCAGGTTGATGTAGACCCATATGGATTTG
CCAGTGGTAACAATAAGAAATATACAGTCATCCTTCAATATCTGTGGGGG
ATTGGTTCTGGAATCCCCCCTCAGAAATTAAATCTATGATGCTCAAGTAC
CTTATATAACATGGTGTGGTATTTGCATATAACCTATACACTGCCTCCCA
TGTACTTTAAATCATCTCTAGATTCTTATTACAATGTAATGCTATGTAAA
TTGTTGTTACACTATATTTTTAAAATTTGTGTTATTTTAAATTGTTGTAT
TATTTTTTATTTATGTTTGTTATGTTTATGTTACGTATTATGTTTTCCAA
ATATTTTCATTGAATTTGCATTGAATTTACAGATGTAGAGGGCAGAGGGC
TCATGGTGCATTTGGTCTTTGTCTTAGGTTTCTGGAGGATTCTGGCACAC
AGTTCCTAAATCCCTTAAAATCTCTAGAGGCATAAGGGTACTGTTTGTAT
GCTAATGAGATGATGGGTGGCTGGTGGGTGGGGGGCGGCTAGGGGGGACG
GTCCCTAGACAGCTTCAGGTGGGGGCTGTTCACCAGAAAAACCTACAAGT
GATTAGAGATTTGGAACTATCAGCTCCACTCACAGACCTCCAGGCAGAGA
GAGAAGCTGAAGATGAGTTAACCACCTGTGGCCAATGATGTAATCAGTCA
TGCCTGTGAATGGAGCCTCCATTAAAACCTCCTAAATGAAGTAGTTCAGA
GAGCTCCCGGGTTGGTGAACACATCAGGGATGCTGGAAGGGTGATGTGGC
CCTGCTCCCATACCTTGCCCCCTGCATCTCTTCCATTTGGCTGTTCCTGA
GTTGTGTCCTGTACAATAAACTGGTAACGGTAAAGTTCTTTCTCAGTTCT
GTGAGCCATTCAAGCAAATTATAAAACTCAAGGAGGGGGGTCCTGGGAAC
CCCTAGTTTATAGCTGGTCCATCTGGAAGGCTCAGACTTGCAATTAGCAT
CTGCAGTGAAGGGAGTCTTGTAGCACTGAGCCCTTAACCTGTGAGGCCTG
CGCTAACTATGGGTAGCTATTGTCAGAACTGAATTGAATTGCAGAACACC
CACTTGGTGTCTGGAGAGCTGGAGAGTTGGCTGGCAGGTGGAAAACCCCC
TGCATTTGGTGCCAGCGGTGTTGTGAGCAAAGAGAACACAGATATCTCAG
TAAAGCTGTTACTGAGAGTGCCTATAGGGGGCTTCCTTAGTAGCTTGAAT
TGGCCTACAATGATGGCTGGGCCTTCCCAGGCTATGATCCCTTCTGAGGA
AATCTTGCCCGGACATCTCAGGCCTGCTCCTGACAGGGTGTAAAACCTTG
AGCAAGTTACCTTGCTTCTCTGAGTGAATTTCCTCCTCTGTGATATGGGG
ATGAGAGTAGTACCTTCCGTATAATGACACAACACCAATTCTTTGCACAG
TGTCTGGCAGATGGAATGATTTGGATAAATGTGAGCTAACATTATCAGGT
GTGAAGTGCAGATAATAATATCTATCTCACAAGGTG
3
Comparación de secuencias
La comparación de secuencias está en el corazón
de la bioinformática. Los usos son variados
innumerables problemas se reducen en algún
momento a comparar dos secuencias, o un grupo de
secuencias. Y eso tiene que ver con que...
Nothing in biology makes sense except in the
light of evolution!!
4
Comparación de secuencias
  • Darwin
  • Ancestro común
  • Descendencia con modificación
  • Por lo tanto, las secuencias
  • tienen ancestros comunes
  • sufren modificaciones
  • secuencias similares tienen funciones similares

5
Comparación de secuencias
Pero el parentezco entre secuencias no sólo
corresponde a parentezco entre especies también
hay familias de secuencias.
6
Comparación de secuencias
  • Para qué sirve comparar secuencias?
  • Para determinar relaciones evolutivas entre
    especies.
  • Para determinar relaciones evolutivas entre
    genes.
  • La secuencia que acabo de obtener en el
    laboratorio, está en la base de datos? O alguna
    parecida?
  • ?O incluye trozos parecidos a algo conocido?

7
Comparación de secuencias
Para qué sirve comparar secuencias?
  • Para predecir función si mi proteína NN se
    parece mucho a una, digamos, polimerasa... será
    también polimerasa?
  • Para predecir estructura si conozco la
    estructura 3d de una secuencia parecida...
  • Para predecir regulación a qué otras secuencias
    de control se parece la de este gen?
  • Etc, etc, etc...

8
Comparación de secuencias homología
  • Homología similaridad entre secuencias atribuída
    a que descienden de un ancestro común.
  • Hay dos tipos de homología. Las secuencias pueden
    ser
  • Ortólogas secuencias homólogas en especies
    distintas, que divergieron por la divergencia de
    las especies.
  • Parálogas secuencias homólogas en una misma
    especie, que divergieron tras la duplicación de
    un gen.

9
Comparación de secuencias homología
Ortólogos proteína RBP en varias especies de
vertebrados
? Tienden a tener la misma función.
10
Comparación de secuencias homología
Parálogos
? Alguna divergencia ocurre en la función.
11
Comparación de secuencias homología
Homólogos de los dos tipos
12
Comparación de secuencias homología
Xenólogos resultado de transferencias
horizontales de genes (esos genes saltarines...)
E. coli
13
Comparación de secuencias similaridad
  • Similaridad la medida en la cual dos secuencias
    (de nucleótidos o aminoácidos) están
    relacionadas.
  • Importan la identidad y la conservación de las
    letras.
  • Identidad no hubo cambio.
  • Conservación hubo cambio pero se mantuvieron
    propiedades físicas/químicas/funcionales
    relevantes (eso es más frecuente en aminoácidos).

14
Comparación de secuencias similaridad
Alinemiento entre RBP4 y beta-lactoglobulina
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKK
DPEG 50 RBP . . . . .
.. 1 ...MKCLLLALALTCGAQALIVT..QTMK
GLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51
LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE
97 RBP . .
. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQK
WENGECAQKKIIAEKTK 93 lactoglobulin 98
DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC
136 RBP . . .
. 94 IPAVFKIDALNENKVL........VLDTDYKK
YLLFCMENSAEPEQSLAC 135 lactoglobulin 137
RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV
185 RBP . .
136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSF
NPTQLEEQCHI....... 178 lactoglobulin
? identidad . ? algo de conservación ? alta
conservación ..... ? gaps (indels, inserción o
eliminación)
15
Comparación de secuencias similaridad
  • Similaridad versus homología
  • Similaridad es entre secuencias es
    cuantificable.
  • Homología requiere ancestro común no es
    cuantificable.
  • Homología por lo general implica similaridad.
  • Similaridad no implica homología,
  • ...aunque alta similaridad entre secuencias
    largas por lo general sí se considera evidencia
    de homología.
  • (La convergencia es rara sólo se ve en
    secuencias cortas).

16
Comparación de secuencias similaridad
La similaridad es variable, según qué cosa
comparemos, y cómo comparemos. Cómo evaluar
similaridad? Cómo encontrar los
alineamientos? Cómo saber si son
significativos? ?En proteínas un 25 de
identidad probablemente indica homología ?En
DNA, es lo que se esperaría al azar!
17
Comparación de secuencias similaridad
RBP4 vs beta-lactoglobulina
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKK
DPEG 50 RBP . . . . .
.. 1 ...MKCLLLALALTCGAQALIVT..QTMK
GLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51
LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE
97 RBP . .
. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQK
WENGECAQKKIIAEKTK 93 lactoglobulin 98
DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC
136 RBP . . .
. 94 IPAVFKIDALNENKVL........VLDTDYKK
YLLFCMENSAEPEQSLAC 135 lactoglobulin 137
RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV
185 RBP . .
136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSF
NPTQLEEQCHI....... 178 lactoglobulin
18
Comparación de secuencias similaridad
RBP humana vs RBP en trucha arcoiris
1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGT
WYAMAKKDP 48 ...
. .. . 1
MLRICVALCALATCWA...QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP
47 . . .
. . 49 EGLFLQDNIVAEFSVDETGQMSATAKG
RVRLLNNWDVCADMVGTFTDTED 98
... ..
48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNWEMCANMFGTFE
DTPD 97 . . .
. . 99 PAKFKMKYWGVASFLQKGNDDHW
IVDTDYDTYAVQYSCRLLNLDGTCADS 148
..
98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCR
EVDLDGTCLDG 147 . .
. . . 149
YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNL
L 199 .. .
148 YSFIFSRHPTGLRPEDQKIVTDKKKEICFLGK
YRRVGHTGFCESS...... 192
19
Alineamiento de secuencias
  • Tipos de alineamiento
  • De a pares se alinean dos secuencias de la mejor
    manera posible para maximizar identidad y
    conservación se busca evaluar similaridad, y
    posible homología.
  • Múltiple se alinea un grupo de secuencias ( no
    es lo mismo que alinearlas a todas de a pares!).

20
Alineamiento de secuencias
  • El alineamiento múltiple (no lo veremos aún)
    ayuda a
  • hacer árboles filogenéticos

mosca GAKKVIISAP SAD.APM..F VCGVNLDAYK
PDMKVVSNAS CTTNCLAPLA humano GAKRVIISAP
SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA
planta GAKKVIISAP SAD.APM..F VVGVNEHTYQ
PNMDIVSNAS CTTNCLAPLA bacteria GAKKVVMTGP
SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA
levadura GAKKVVITAP SS.TAPM..F VMGVNEEKYT
SDLKIVSNAS CTTNCLAPLA archaea GADKVLISAP
PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
21
Alineamiento de secuencias
La métrica que se usa es la distancia de
Levenshtein o distancia de edición es la
longitud del proceso más corto para convertir una
secuencia en otra, a través de pasos de
inserción, borrado, o reemplazo (cada vez, de a
una letra).
22
Alineamiento de secuencias
  • Problemas
  • Una única mutación que inserta o borra suele
    afectar a más de una posición por lo tanto, un
    hoyo de largo k no debiera costar igual que k
    hoyos de largo 1.
  • Solución usual
  • ? puntaje afín para los hoyos, del tipo abk.

23
Alineamiento de secuencias
  • Problemas
  • Sólo se reconocen identidades reemplazos
    conservativos requieren algún puntaje
    intermedio.
  • ? Se usan matrices de sustitución, que asocian un
    número a cada posible reemplazo de una letra por
    otra.
  • Hay que distinguir entre proteínas y ácidos
    nucléicos.

24
Alineamiento matrices de sustitución
  • Ácidos nucléicos
  • El alfabeto ACGT se puede proyectar a un alfabeto
    binario de tres maneras distintas cada una tiene
    cierto significado bioquímico
  • RA,G, YC,T purinas y pirimidinas, resp.
  • SG,C, WA,T enlace fuerte o débil, resp.
  • KT,G, MA,C expone grupo keto o amino,
    resp.
  • Si un reemplazo no cambia la distinción R/Y, se
    suele considerar conservativo se llaman
    transiciones, y los otros reemplazos son
    transversiones.

25
Alineamiento matrices de sustitución
Proteínas
  • Serina (S) y treonina (T) tienen propiedades
    parecidas el ácido aspártico (D) y el ácido
    glutámico (E) también.
  • El reemplazo S/T o E/D es frecuente durante la
    evolución. El costo no debería ser muy inferior
    al de la identidad.

26
Alineamiento matrices de sustitución
  • Fuentes posibles para crear las matrices
  • Propiedades fisico/químicas de los aminoácidos.
  • Frecuencia empírica de reemplazos observados en
    proteínas claramente homólogas.
  • En la práctica resultan ser criterios parecidos.
  • Se usa lo segundo.

27
Alineamiento matrices de sustitución
  • Son dos los grupos de matrices más usados
  • PAM (Dayhoff, 1978)
  • BLOSUM (Henikoff Henikoff, 1992)
  • ?casi han reemplazado a las PAM
  • En la matriz se pone el odds ratio
  • el logaritmo de la probabilidad de la
    sustitución, dividida por la probabilidad de que
    las letras alineadas estén allí al azar (qi y qj
    son las frecuencias absolutas).
  • Por qué logaritmo? ?Para poder trabajar con
    números de magnitudes similares, y para poder
    sumar en vez de multiplicar.

28
Alineamiento matrices de sustitución
  • PAM
  • PAM1 se construye con la prob. de reemplazo para
    un nivel de divergencia de 1 (1 aminoácido de
    cada 100), que sería aproximadamente un millón de
    años.
  • PAMn, para divergencias mayores, se construye
    calculando potencia n-ésima de PAM1.
  • BLOSUM
  • Para BLOSUMn, se usan alineamientos locales de un
    mismo largo (sin gaps) de proteínas con al menos
    n de identidad. No se extrapola nada.

29
Alineamiento matrices de sustitución
PAM250
30
Alineamiento matrices de sustitución
100
BLOSUM62
Usa estas
62
30
31
Alineamiento matrices de sustitución
La matriz que corresponda usar depende de qué tan
lejanas son las secuencias que se están
comparando.
  • Polimerasa de ratón vs polimerasa de bacteria
  • Globinas humanas distantes

RBP de ratón vs RBP de rata
32
Alineamiento
  • Resumiendo, el puntaje de un alineamiento
    dependerá (aditivamente) de
  • La matriz de sustitución, que le pone puntaje al
    reemplazo de una letra por otra
  • La penalización de gaps
  • Con eso se están haciendo varias
    simplificaciones
  • Que haya independencia entre posiciones.
  • Que no haya zonas más mutables.
  • Que todas las secuencias cambian al mismo ritmo...

33
Alineamiento
Que todas las secuencias cambian al mismo ritmo?
33 PAM para kappa-caseína, 0 PAM para
ubiquitina! Pero ok, se hace la simplificación.
34
Alineamiento dot plots
Una herramienta simple pero útil dot plots.
Ponemos una secuencia en una fila, la otra en una
columna, y un punto por cada coincidencia. Se
suelen unir con líneas los puntos contiguos de
una diagonal. En uso desde los 70s.
35
Alineamiento dot plots
Mioglobina vs beta-globina (humanas)
Refinamiento más reciente ?Sólo poner el punto
si en una ventana de tamaño w, hay s
coincidencias (se elimina ruido poco
significativo).
36
Alineamiento dot plots
Receptor LDL humano vs sí mismo
w30, s9
w40, s20
37
Alineamiento dot plots
  • Conviene hacerlos antes de aplicar algoritmos
    puede haber algo evidente que salte a la vista.
  • Qué se puede ver?
  • ?Similaridad entre dos secuencias
  • ?Secuencias repetitivas
  • ?Palíndromes (que existen!)
  • ?Segmentos compartidos, aunque esté cambiado el
    orden, o haya bloques insertados.

38
Alineamiento local y global
  • Se pueden buscar alineamientos locales o globales
  • Global se alinea una secuencia completa contra
    otra secuencia completa. Suele ser útil para
    secuencias similares, y/o de tamaños parecidos.
  • Local se alinea un tramo de una secuencia con un
    tramo de la otra, de la mejor manera posible.

39
Alineamiento global
  • Podemos ver un alineamiento como un camino en una
    matriz similar al dotplot
  • Avanzamos hacia la derecha y hacia abajo.
  • Vamos de la esquina en que comienzan las
    secuencias, hasta la esquina en que terminan.
  • Horizontal o vertical ? gap
  • Diagonal ? identidad o reemplazo

40
Alineamiento global
Para dos proteínas de 100 aá, los posibles
alineamientos son ? 1060.
En general, la cantidad de alineamientos es
O(2nm).
Por suerte, existe un algoritmo de programación
dinámica Needleman Wunsch, 1970.
41
Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
42
Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
score(x,y-1) - gap-penalty
score(x,y) max
43
Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
score(x,y-1) - gap-penalty score(x-1,y-1)
substitution-score(x,y)
score(x,y) max
44
Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
Una vez que llegamos al final, desandamos lo
andado para determinar la ruta óptima.
score(x,y-1) - gap-penalty score(x-1,y-1)
substitution-score(x,y) score(x-1,y) - gap-penalty
score(x,y) max
45
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 M 1 A
2 T 3 H 4 S 5
46
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 M 1
A 2 T 3 H 4 S 5
47
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 M
1 A 2 T 3 H 4 S 5
48
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
M 1 A 2 T 3 H 4 S 5
49
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 A 2 2 T 3 3 H 4 4 S 5 5
50
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 A 2 2 T 3 3 H 4 4 S 5 5
51
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 A 2 2 T 3 3 H 4 4 S 5 5
52
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 H 4 4 S 5 5
53
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 2 2 2 3 H 4
4 S 5 5
54
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 2 2 2 3 H 4
4 3 3 3 3 S 5 5 4 4 4 3
55
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 2 2 2 3 H 4
4 3 3 3 3 S 5 5 4 4 4 3
56
Alineamiento global
  • El alineamiento no es necesariamente único

MATHS MA-THS MATHS -ARTS
-ART-S ART-S
  • Si los gaps tienen costo afín, se usan tres
    matrices, pero la idea es la misma.
  • El algoritmo corre en tiempo O(mn), y ocupa
    espacio O(mn).
  • Se puede arreglar para que el espacio sea
    O(maxm,n).

57
Alineamiento local
Alineamientos locales buscar un buen
alineamiento entre segmentos, y extenderlo sólo
mientras siga siendo bueno (no más allá).
Alineamiento global
Sec 1
Alineamiento local
Sec 2
58
Alineamiento local
Algoritmo Smith-Waterman, 1982 ?Después de 12
años, se le agrega un 0 al algoritmo de NW
  • Al terminar, busco el valor más grande en la
    tabla.
  • Me devuelvo por ruta óptima hasta encontrar un 0.

59
Alineamiento local
Algoritmo Smith-Waterman
60
Alineamiento
NW y SW son óptimos, aunque no necesariamente
sean el alineamiento biológicamente correcto. Lo
realmente malo es el orden cuadrático.
61
Alineamiento
62
Alineamiento
  • Contra una base de datos, por lo general
  • ? se buscan alineamientos locales
  • ? se usan heurísticas
  • Se desea buena sensitividad (evitar falsos
    negativos) y especificidad (evitar falsos
    positivos).
  • Los dos algoritmos (o familias de) principales
    son FASTA y BLAST.
  • Ambos parten buscando bloques de identidades,
    mediante matches de palabras (substrings cortos).

63
Alineamiento - FASTA
  • FASTA
  • Lippman Pearson, 1985 (para proteínas), 1988
    (nucleótidos).
  • Ubica los mejores tramos diagonales de
    identidades.
  • Los recalcula con PAM.
  • Se queda con los 10 mejores.

64
Alineamiento - FASTA
  • FASTA
  • Busca una cuasi-diagonal que recorra la mayoría
  • Aplica SW sobre una ventana en torno a eso.
  • ?Acelera un orden de magnitud, respecto a SW.

65
Alineamiento - BLAST
  • BLAST (Karlin Altschul, 1990, 1993)
  • Indexa las palabras de un cierto largo k (para la
    base de datos, lo hace antes).
  • A partir del query, genera una lista L de todas
    las palabras de largo k, y a partir de esas, una
    lista de palabras de largo k que darían un
    puntaje sobre un umbral T si se alinearan con
    alguna de L.
  • Ejemplo Si el query contiene AIV, AIA da un
    puntaje de 440 y AII da un puntaje de 443.
    Con T 10, tomo AII.

66
Alineamiento - BLAST
  • BLAST
  • Típicamente eso genera 50 palabras a partir de
    la secuencia query.
  • Busca matchs exactos de palabras.
  • Extiende esos match en ambas direcciones,
    mientras eso genere alineamiento significativo.

67
Alineamiento
  • De FASTA y de BLAST (sobre todo de BLAST) existen
    distintas variantes
  • con énfasis locales o globales,
  • mejoras para proteínas o DNA,
  • previsiones para bases de datos grandes,
  • etc...
  • Se pueden bajar, o utilizar en servidores.
  • Se pueden usar en la web de manera interactiva, o
    desde software local (hay API del uso vía URLs).

68
Alineamiento
  • Por lo general, FASTA resulta mejor para
    nucleótidos, y BLAST, para proteínas.
  • Velocidad BLAST gt FASTA gt SW
  • Sensitividad BLAST lt FASTA lt SW
  • Pero ojo, ambas familias están en permanente
    evolución, y en BLAST hay mucha gente trabajando.
  • Cuando se comparan secuencias que codifican
    proteínas, por lo general es preferible comparar
    las proteínas, no sus DNAs.

69
Alineamiento
  • Sabores principales de BLAST (hay equiv. FASTA)
  • BLASTN query de nucleótidos, BD de nucleótidos.
  • BLASTP query de proteína, BD de proteínas.
  • Esas son simples. Las que siguen, consideran los
    6 marcos de lectura posible (mirando ambas hebras
    del DNA, y partiendo la traducción desde la
    primera, segunda o tercera letra)
  • BLASTX query de nucleótidos, BD de proteínas.
  • TBLAST query de proteína, BD de nucleótidos.
  • TBLASTX query de nucleótidos, BD de nucleótidos

70
Significatividad
Al hacer una búsqueda contra una base de datos y
encontrar un match, se suele informar el p-value
y el E-value asociados al puntaje
obtenido. p-value probabilidad de obtener ese
puntaje o uno mejor, por simple azar. E-value
el p-value multiplicado por la cantidad de
secuencias en la base de datos (ergo, cantidad de
matches así de buenos que cabe esperar al azar).
71
Significatividad
No existe buena teoría estadística para los
valores E y p, en el caso más general. Para el
caso de alineamiento local de dos secuencias de
largo n y m, sin gaps, en la aproximación de n y
m grandes, se tiene E ? mn ? K ? e-?S donde K y
S reflejan el espacio de búsqueda y la
puntuación, respectivamente. Esto es el E-value
de los HSP (high scoring segments, los tramos
no-extendibles del alineamiento local). Bit
score S (?S- ln K) / ln 2
72
Significatividad
Para bases de datos, o para el caso general con
gaps, la distribución para el p-value se
determina empíricamente. NO sigue una normal es
una distribución de valores extremos, pero
depende de la base de datos.
En los servidores, los datos están
precalculados. BLAST suele subestimar el
E-value hay que creerle sólo a valores chicos.
0.02 a 0.05 pueden ser de interés.
73
Significatividad
Conviene probar con versiones rebarajadas de
nuestra secuencia. En general, tener ojo con la
composición, repeticiones, etc.
100 random shuffles Mean score 8.4 Std. dev.
4.5
Número de instancias
Score obtenido 37
score
74
Alineamiento bayesiano
  • Una alternativa reciente
  • Nucleic Acids Research, 2002, Vol. 30, No. 5
    1268-1277BALSA Bayesian algorithm for local
    sequence alignment
  • Bobbie-Jo M. Webb, Jun S. Liu and Charles E.
    Lawrence
  • Se consideran varias matrices de sustitución y
    penalizaciones de gaps (con alguna distribución
    de probabilidad a priori).
  • Se entrega una función P(i,j) con la probabilidad
    de que la letra i-ésima de la primera secuencia
    se alinee con la j-ésima de la segunda.
  • Se entrega también una distribución a posteriori
    para las matrices y penalizaciones.

75
Alineamiento bayesiano
  • Desventajas
  • mayor trabajo de cómputo
  • no entrega directamente un alineamiento pero se
    puede reconstruir uno, por ejemplo recorriendo de
    (0,0) a (m,n) por la ruta que sume más P(i,j).
  • Ventajas
  • formaliza el proceso de tantear con distintas
    matrices de sustitución hasta tener una que
    refleje (y prediga) la distancia evolutiva entre
    las secuencias.
  • permite observar distintos niveles de confianza a
    lo largo del alineamiento

76
Breve nota sobre lenguaje
Residuo sinónimo de aminoácido (letra de
proteína). Base sinónimo de nucleótido (letra
de DNA o RNA). También se habla de base pair
para referirse a las bases (pensando en que el
DNA tiene dos hebras). No es lo mismo que un
dinucleótido (que es una palabra de DNA de largo
2).
77
Breve nota sobre Organismos modelos
  • Organismos modelos
  • Los estudios se concentran en ciertas especies,
    por economías de escala (de varios tipos)
  • Se escogen especies fáciles de tratar, con ciclos
    de vida rápidos, tamaño relativamente pequeño, y
    a veces con algún interés específico.
  • No están repartidos de manera representativa de
    la diversidad del árbol de la vida sesgo
    (práctico) hacia los eucariotas, los metazoos
    (animales), los vertebrados.

78
Breve nota sobre Organismos modelos
  • La lista es larga. Principales
  • Mamíferos
  • Homo sapiens (humano)
  • Canis lupus familiaris (perro)
  • Mus musculus (ratón)
  • Cavia porcellus (conejillo de indias)
  • Rattus norvegicus (rata)
  • Otros vertebrados
  • Gallus gallus domesticus (gallina)
  • Danio rerio (pez zebra)
  • Xenopus laevis (una rana africana)

79
Breve nota sobre Organismos modelos
  • Invertebrados
  • Caenorhabditis elegans (un gusano nemátodo)
  • Drosophila melanogaster (mosca de la fruta)
  • Arbacia punctulata (erizo de mar, sea urchin)
  • Plantas
  • Arabidopsis thaliana (mostaza)
  • Nicotiana tabaccum (tabaco)
  • Oryza sativa (arroz)
  • Zea mays (choclo)

80
Breve nota sobre Organismos modelos
  • Hongos
  • Saccharomyces cerevisiae (levadura de la cerveza
    y el pan)
  • Schizosaccharomyces pombe (otra levadura)
  • Neurospora crassa (moho de pan)
  • Protistas
  • Dictyostelium discoideum (ameba social)
  • Tetrahymena thermophila (un protozoo ciliado)
  • Chlamydomonas reinhardtii (alga unicelular)

81
Breve nota sobre Organismos modelos
  • Bacterias
  • Escherichia coli
  • Bacilus subtilis (bacilo, vive en el suelo)
  • Mycoplasma genitalium (diminuta!)
  • Vibrio fischeri (marino, luminoso)
  • Virus
  • Tobacco mosaic virus (un virus de RNA, en tabaco)
  • ? fago (ataca a E. coli)
  • HIV (virus del sida)

82
Breve nota sobre software bioinformático
  • Hay mucho.
  • Mucho es libre, y/o de código abierto.
  • Lenguajes frecuentes
  • Java (particularmente aplicaciones individuales)
  • C, C (todo lo que tiene que andar rápido)
  • Perl (operaciones sobre secuencias)
  • Python (crecientemente)
  • Muchos servicios online, utilizables vía web o
    vía URLs.
  • Librerías bajables que conviene reutilizar.
  • Hay mucho.

83
Breve nota sobre datos bioinformáticos
  • Hay muuuuchos, de diversos tipos.
  • Existen bases de datos de bases de datos.
  • Al comienzo de cada año, número especial de
    Nucleic Acid Research con las novedades más
    importantes.
  • Por lo general, mucha cross-reference entre las
    BD.
  • Mencionaremos por ahora sólo el punto de entrada
    al núcleo y punto de partida de los datos
    Genbank.

84
Bases de datos el núcleo
Entrez
NIH
NCBI
GenBank
  • Submissions
  • Updates
  • Submissions
  • Updates

EMBL
DDBJ
CIB
NIG
  • Submissions
  • Updates

SRS
EMBL
getentry
85
NCBI - Entrez
PubMed
OMIM
PubMed Central
Journals
3D Domains
Literature
Books
Structure
Organism
Taxonomy
CDD/CDART
Entrez
Genome
Expression
Protein
Nucleotide
Sequence
UniSTS
HomoloGene
SNP
UniGene
Gene
GEO/GDS
Nucleotide
PopSet
86
Bases de datos
  • GenBank/DDBJ/EMBL es BD de nucleótidos.
  • Son secuencias primarias información en bruto,
    con las anotaciones que los autores hayan
    provisto.
  • RefSeq (en el NCBI) es una BD curada contiene
    información tomada de GenBank pero comparada y
    anotada es como un review.
  • Para proteínas UniProt incluye una parte curada
    y con mucha información (SwissProt) y una parte
    no curada que simplemente traduce las secuencias
    de GenBank TrEMBL.

87
Bases de datos
  • De dónde sale la información primaria?
  • De gente que está investigando un gen
  • ? entradas cortas, organismos típicos, muy bien
    anotadas
  • De gente que está investigando filogenia o
    genética de poblaciones
  • ? secuencias de organismos atípicos por lo
    general cortas, con diversas versiones
  • Proyectos de secuenciamiento
  • entradas cortas, productos intermedios en las
    técnicas de secuenciamiento.
  • entradas largas, con nivel de anotación
    dependiente del nivel de avance del proyecto.

88
Bases de datos formatos básicos
  • Formatos elementales para secuencias de ácidos
    nucléicos o proteínas
  • Texto plano (sólo las letras de una secuencia!)
  • FASTA
  • Genbank
  • ASN.1 (como referencia)
  • XML (para parsearlo)

89
Bases de datos formatos básicos
Formato FASTA
gtgi121066spP03069GCN4_YEAST GENERAL CONTROL
PROTEIN GCN4 MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAK
PMVGQLIFDKFIKTEEDPI IKQDTPSNLDFDFALPQTATAPDAKTVLPI
PELDDAVVESFFSSSTDSTPMFEYEN LEDNSKEWTSLFDNDIPVTTDDV
SLADKAIESTEEVSLVPSNLEVSTTSFLPTPVL EDAKLTQTRKVKKPNS
VVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPES SDPAALKRA
RNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGE R
  • Línea de descripción que parte con gt.
  • Lo primero en esa línea es un identificador
    sigue la descripción.
  • Formato bastante libre.
  • Se recomienda que las líneas no pasen de 80
    caract.
  • Si vuelve a aparecer un gt, es que sigue otra
    secuencia.

90
Bases de datos formatos básicos
Letras estandar
91
Bases de datos formatos básicos
LOCUS MUSNGH 1803 bp mRNA
ROD 29-AUG-1997 DEFINITION Mouse
neuroblastoma and rat glioma hybridoma cell line
NG108-15 cell TA20 mRNA, complete
cds. ACCESSION D25291 NID
g1850791 KEYWORDS neurite extension activity
growth arrest TA20. SOURCE Murinae gen. sp.
mouse neuroblastma-rat glioma hybridoma
cell_lineNG108-15 cDNA to mRNA. ORGANISM
Murinae gen. sp. Eukaryotae
mitochondrial eukaryotes Metazoa Chordata
Vertebrata Mammalia Eutheria Rodentia
Sciurognathi Muridae
Murinae. REFERENCE 1 (sites) AUTHORS
Tohda,C., Nagai,S., Tohda,M. and Nomura,Y.
TITLE A novel factor, TA20, involved in
neuronal differentiation cDNA
cloning and expression JOURNAL Neurosci. Res.
23 (1), 21-27 (1995) MEDLINE
96064354 REFERENCE 3 (bases 1 to 1803)
AUTHORS Tohda,C. TITLE Direct Submission
JOURNAL Submitted (18-NOV-1993) to the
DDBJ/EMBL/GenBank databases. Chihiro
Tohda, Toyama Medical and Pharmaceutical
University, Research Institute for
Wakan-yaku, Analytical Research Center for
Ethnomedicines 2630 Sugitani, Toyama,
Toyama 930-01, Japan
(E-mailCHIHIRO_at_ms.toyama-mpu.ac.jp,
Tel81-764-34-2281(ex.2841),
Fax81-764-34-5057) COMMENT On Feb 26, 1997
this sequence version replaced gi793764. FEATURES
Location/Qualifiers source
1..1803
/organism"Murinae gen. sp."
/note"source origin of sequence, either mouse or
rat, has not been
identified"
/db_xref"taxon39108"
/cell_line"NG108-15"
/cell_type"mouse neuroblastma-rat glioma
hybridoma" misc_signal 156..163
/note"AP-2 binding site"
GC_signal 647..655
/note"Sp1 binding site" TATA_signal
694..701 gene 748..1311
/gene"TA20" CDS
748..1311 /gene"TA20"
/function"neurite extensiion
activity and growth arrest
effect" /codon_start1
/db_xref"PIDd1005516"
/db_xref"PIDg793765"
/translation"MMKLWVPSRSLPNSPNHYRSFLSHTLHIRYNN
SLFISNTHLSRR
KLRVTNPIYTRKRSLNIFYLLIPSCRTRLILWIIYIYRNLKHWSTSTVRS
HSHSIYRL RPSMRTNIILRCHSYYKPPI
SHPIYWNNPSRMNLRGLLSRQSHLDPILRFPLHLTIYY
RGPSNRSPPLPPRNRIKQPNRIKLRCR"
polyA_site 1803 BASE COUNT 507 a 458
c 311 g 527 t ORIGIN 1
tcagtttttt tttttttttt tttttttttt tttttttttt
tttttttttg ttgattcatg 61 tccgtttaca
tttggtaagt tcacaggcct cagtcaacac aattggactg
ctcaggaaat 121 cctccttggt gaccgcagta
tacttggcct atgaacccaa gccacctatg gctaggtagg
181 agaagctcaa ctgtagggct gactttggaa gagaatgcac
atggctgtat cgacatttca 241 catggtggac
ctctggccag agtcagcagg ccgagggttc tcttccgggc
tgctccctca 301 ctgcttgact ctgcgtcagt
gcgtccatac tgtgggcgga cgttattgct atttgccttc
361 cattctgtac ggcattgcct ccatttagct ggagagggac
agagcctggt tctctagggc 421 gtttccattg
gggcctggtg acaatccaaa agatgagggc tccaaacacc
agaatcagaa 481 ggcccagcgt atttgtaaaa
acaccttctg gtgggaatga atggtacagg ggcgtttcag
541 gacaaagaac agcttttctg tcactcccat gagaaccgtc
gcaatcactg ttccgaagag 601 gaggagtcca
gaatacacgt gtatgggcat gacgattgcc cggagagagg
cggagcccat 661 ggaagcagaa agacgaaaaa
cacacccatt atttaaaatt attaaccact cattcattga
721 cctacctgcc ccatccaaca tttcatcatg atgaaacttt
gggtcccttc taggagtctg 781 cctaatagtc
caaatcatta caggtctttt cttagccata cactacacat
cagatacaat 841 aacagccttt tcatcagtaa
cacacatttg tcgagacgta aattacgggt gactaatccg
901 atatatacac gcaaacggag cctcaatatt ttttatttgc
ttattccttc atgtcggacg 961 aggcttatat
tatggatcat atacatttat agaaacctga aacattggag
tacttctact 1021 gttcgcagtc atagccacag
catttatagg ctacgtcctt ccatgaggac aaatatcatt
1081 ctgaggtgcc acagttatta caaacctcct atcagccatc
ccatatattg gaacaaccct 1141 agtcgaatga
atttgagggg gcttctcagt agacaaagcc accttgaccc
gattcttcgc 1201 tttccacttc atcttaccat
ttattatcgc ggccctagca atcgttcacc tcctcttcct
1261 ccacgaaaca ggatcaaaca acccaacagg attaaactca
gatgcagata aaattccatt 1321 tcacccctac
tatacatcaa agatatccta ggtatcctaa tcatattctt
aattctcata 1381 accctagtat tatttttccc
agacatacta ggagacccag acaactacat accagctaat
1441 ccactaaaca ccccacccca tattaaaccc gaatgatatt
tcctatttgc atacgccatt 1501 ctacgctcaa
tccccaataa actaggaggt gtcctagcct taatcttatc
tatcctaatt 1561 ttagccctaa tacctttcct
tcatacctca aagcaacgaa gcctaatatt ccgcccaatc
1621 acacaaattt tgtactgaat cctagtagcc aacctactta
tcttaacctg aattgggggc 1681 caaccagtag
acacccattt attatcattg gccaactagc ctccatctca
tacttctcaa 1741 tcatcttaat tcttatacca
atctcaggaa ttatcgaaga caaaatacta aaattatatc
1801 cat //
  • Genbank
  • Información preliminar sobre la secuencia
    título, taxonomía, referencia.
  • Tabla de features cosas que se encuentran en la
    secuencia. Cada feature puede tener qualifiers.
  • La secuencia misma.
  • Un // indica fin de la entrada después puede
    comenzar otra.

92
Bases de datos formatos básicos
SwissProt Esquema parecido al de GenBank, pero
con mucha más información (función, estructura,
enfermedades asociadas...)
ID CYS3_YEAST STANDARD PRT 393
AA. AC P31373 DT 01-JUL-1993 (REL. 26,
CREATED) DE CYSTATHIONINE GAMMA-LYASE (EC
4.4.1.1) (GAMMA-CYSTATHIONASE). GN CYS3 OR CYI1
OR STR1 OR YAL012W OR FUN35. OS TAXONOMY OC
SACCHAROMYCETACEAE SACCHAROMYCES. RX
CITATION CC -!- CATALYTIC ACTIVITY
L-CYSTATHIONINE H(2)O L-CYSTEINE CC
NH(3) 2-OXOBUTANOATE. CC -!- COFACTOR
PYRIDOXAL PHOSPHATE. CC -!- PATHWAY FINAL STEP
IN THE TRANS-SULFURATION PATHWAY SYNTHESIZING CC
L-CYSTEINE FROM L-METHIONINE. CC -!-
SUBUNIT HOMOTETRAMER. CC -!- SUBCELLULAR
LOCATION CYTOPLASMIC. CC -!- SIMILARITY
BELONGS TO THE TRANS-SULFURATION ENZYMES
FAMILY. CC -------------------------------------
------------------------------------- CC
DISCLAMOR CC -----------------------------------
--------------------------------------- DR
DATABASE cross-reference KW CYSTEINE
BIOSYNTHESIS LYASE PYRIDOXAL PHOSPHATE. FT
INIT_MET 0 0 FT BINDING 203
203 PYRIDOXAL PHOSPHATE (BY SIMILARITY). SQ
SEQUENCE 393 AA 42411 MW 55BA2771 CRC32
TLQESDKFAT KAIHAGEHVD VHGSVIEPIS LSTTFKQSSP
ANPIGTYEYS RSQNPNRENL ERAVAALENA QYGLAFSSGS
ATTATILQSL PQGSHAVSIG DVYGGTHRYF TKVANAHGVE
TSFTNDLLND LPQLIKENTK LVWIETPTNP TLKVTDIQKV
ADLIKKHAAG QDVILVVDNT FLSPYISNPL NFGADIVVHS
ATKYINGHSD VVLGVLATNN KPLYERLQFL QNAIGAIPSP
FDAWLTHRGL KTLHLRVRQA ALSANKIAEF LAADKENVVA
VNYPGLKTHP NYDVVLKQHR DALGGGMISF RIKGGAEAAS
KFASSTRLFT LAESLGGIES LLEVPAVMTH GGIPKEAREA
SGVFDDLVRI SVGIEDTDDL LEDIKQALKQ ATN //
93
Bases de datos formatos básicos
ASN1 (Abstract Syntax Notation) Es un estándar
es el formato interno en GenBank.
94
Iremos mencionando otros formatos y otros
softwares y otras bases de datos en la medida en
que vayamos pasando por distintos
temas. http//www.ncbi.nlm.nih.gov/Entrez/
Write a Comment
User Comments (0)
About PowerShow.com