Title: III Alineamiento de Secuencias
1IIIAlineamiento de Secuencias
Andrés Moreira Departamento de Informática UTFSM
2TAAACCCTGGCATGCATGTTCAAGCTTTCCAGTCTTGTCAAAATGAATTG
TTCTTGTATCATCTAGAAATTTAGTTAGAGATCAATTTGCCTTTTTTACA
AACAAGCATTTTTAGTTAGTAAGGTTCTGGCCTAATTTGGTATTCTGGAT
TTCTTATTTATCTTAATATTAAAAATAAAGGAGGAAAACTAAATTCACAT
TAAAAATGACTAAATTTTGAAAATTTTTTTCAACAGGTTATATCAATCAG
TGAAAATTCTATATTCCTTTGGCATTTTTGTGACATATTCAATTCAGTTC
TATGTTCCAGCAGAGATCATTATCCCTGGGATCACATCCAAATTTCATAC
TAAATGGAAGCAAATCTGTGAATTTGGGATAAGATCCTTCTTGGTTAGTA
TTACTTGTAAGTATCATTATATATTTATATCATAATAATTTTTTATTGTT
CAATTTCAGTTTTATCCCAACTGGACACACCTAATTTACATTCTTACAGA
CAAGAATTGTTTGCACTGCTGTCAGTGTGCTGCAATTTAACTTCTGTCTC
TACAGAATTGTAAAAGAGCCTAGTCAAAGTCACCCCTAGATGGAATTAAA
TAATTCCTGGGGCCTTCAGCCTTTCATTGAAAGGATATCCAATAATCTCT
TTTCCTCATTTTAAAGTCTTATATTTTTCTTTGCAGTGATAAAAGTGATA
ATTCTGCCTTAGCTCAGTTATGGAAGGCAGAATAAGGAAGATACTTATTA
ACACCACACAGAAAGAAATCACATATCTTTTACGACTTATGCTTAGTTTT
TTTTTAAATACATTGACAGAATAATGAAAACATAACTATTAATAATCATG
AGGAGTCTGTAGATATTACCTCACTGTCATTATCTAAGATAACAAATGGA
AATGTAACAACTATTAACTAAAGTCAAAATGGACACTCATAGTAAATATG
TCTTTTGTTTATGCACAAAGAGTATACACTCTGTCAAATCAAAATAGATT
TTTTTAAAGATGTGAAATTAATCCAATCAGTTCTTTCCTCCTTTAACAAC
AACAAAAATACACTGCCAGGTTAGTGAGTCAAACAAGAGAAGTCTAGGAA
GATGAATGGGGAAGAGAGGCTGTTCTGGTTTAATGTAAACAGCTTAAATA
TGATATTCAAAGGAGTCTGAGAAGCAATTTCCTTAGACTGTTAACTTATT
TGCTTTAGGATTAATTTATTCTTTTTTATTCAATGCAAGTCCAATGCATT
TTAATTTTCAAACAGTAGTATGTCCAGCAGCATTTATTATATGTTCTTGC
TATATGCCCAGAACCATGCTAATATTATCGTCTATCATTCAATACTGTAA
AAACAATGCTATTATTACAAATCTAATTGCAGTCAGGTATTCCCTAGGCT
TCAACCATGAGTGGAGGGGTGGCAGGAGCTAAGATCAAGGCACAGCTTTT
GATCTCAGCTGGCAAGAAAGGAAAGTGGGTAGGGCAGGGCTGGTGATTGC
TTACTTCTTGGACTCAGGGTTTCACAGAGCATCAAGATCTAATAAGCTAT
GCTTCTTCTGTTACCACTCCTCTATCTCTGCCTCTCTCTGCTTCTAGCAC
CATCTTTTCCTTCCTGTCCAAGCTCAGCAATGACATCTCCATCCTTCCCT
GAGCTCTTTATCAAAATTTCCAGTGCCCTTTTGATTGCACCAGGTATTAG
AAAGGAATCCTTTGGCATTAGTCCAATTGATGATCTTCTGATCCTTTCTG
AGAGGTTTGAATTTTTATAAAAGATATTTGATAACAAATCTCAAATTGTT
CATTTTTTTAAACTTGTTATTTCTTCTTCCTTTTAACCATTTAGTCAACA
AACATTTTGAGTACCTACTACTTGCTAGGTGTTCTAGGTGCTAGGGACAA
TCTTCTTCCTTCATAGGTCTGCTGCTTACCTACTTGCTAGGGAACTGATG
GGGAGCCATTTCTCCTTTGGGAAACCTGGGTCTAGCACTGATGAAAGAAA
GTTTCATGGTTGCTTGTCAACCCCATCCTCCAACCTGGGAGTGCCACAGA
GGCCAGTGCAGAAACCAGGGTTCTCAGGGTTTGTGTGAGGGACCGAGTCT
CTGGAACCTGGATTGGGGGAAGGCCATTTACTTTGAAGAGCAGGGGTTGG
ACCTGCTGGGAAAGGGGCCCCTTTTTCTATGAGCAGAACTGAACTGGATT
TTTCATTTGCATTTCATGGGCAGCCTTGCCTTCAATGTCACTGATGAGGG
AAACACCACATGGGATTTCTCAGGCCTCCTCCCCCTCCTTCTCAATGTCC
CTCAAGGCAGCACCCACTCCCATTTGTTTCTCTCTTGGGTGGGAAGGTAC
ATGACATGAAAAATGCTGAATCTCACATCAAGATGTCTTTCAAAAGATGA
ATGGGCAGATTCTTAGTATCATCTCAAAGCAGGCAAGGCAAAGGCAGGAT
ATTTATGAGGTTTTGGAGTGTAGTTTGAGTCAGGCCTTTTGTTTCAGGGG
ACTTGATTAGAATCGGGTAATCTTGTGACATATTAGGGTTAGTGGACAGA
ATGAGGCAAGGGTTTTGAAGACAGTCTTGGACTGTAAACCATTGTTTGAG
ACTATATTGTAGTAGACATGGACTATGAATAGTCTAATGTTTATTTAAAT
AAATTTTCAGGATATTCTTGAAATGGATAATAAAGTTATTTGCAACTTTA
TCTTCCATGGCAAGAGTGTCCTGGAATAATAAATAATATTGATGAAGACA
ATGGATAATAAAGTCATGTTAATGTAGACAGTAAGCCCTGTGGGTATAGA
TAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGG
CTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTA
TTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTG
TATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCA
TCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCA
CCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAA
GGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAAT
GACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTC
ATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAG
ACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGG
ATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACAT
CATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAAC
ACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTC
TCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCC
TAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCC
AGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTT
TTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGA
CAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCT
TCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCT
CTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATGGAAAACAAA
CTTTCAGGACCCTCTATATGGAAAAGGGCATAGGTGAAGCCTCCAAACCC
TGGCCTCCATCCCTGGTCTGGGGATGAAGAAAAACCCTAAAAAAATCTCT
CACTCTCCCATCTATTATGGTTGCTTCTAGCACTATTTGCCTTTATCACT
ACCTATAGGATCAACCTTGATATGCTCAAACTCCAGAAAACTCTACACTT
GAAAGTCATGTGGATGGTAGAATACAATAAAAGCACTACTAACCTTTCAA
ACACTGTGTTGATGCTGGTTTCCTAGGCAGGAGGTGAGAAAAGAAGACTC
CAAGGGAATGATCTTTTTTATTAATCTTTCAACTTACTGTAAAAATATAA
ATGATCACTGTTTTTCAAGCACTTAGCATCTAGAATGGGATCTTTATTTT
TTGCTTTCTGAAAGACAAAACAGAACCAACAAAGTGGTCTAGGAAAAAAA
TCCTTGCACCCAGAAATCCAGAGAAAATGACGTATTCTCATTGGAGTACA
GGTGAAAGAGGACTTCTGAGAGGGCCAGGCAAGGTGGCTCATGCCTGTAA
TTCCAATGCTGTGGGAGGCCGAGACTGGAGAATTGCTTGAGGCAGGAGTT
TGAGATTAGCTAGGAAAACATAGTGAGACCCTGTCTCTACAAGAAATTAT
AAAATTAGCCAGGTGTAGTGGTACAGCTGCAATCCTAGTGCCTGAGGCAG
GAGGATCGCTTGAGCCCACGGGTTTGAGTGTTATGGTGAGCTATAATCAC
ACCACTGCACTCCAGCCTGGGTGATAGAGTAAGATCCTGTCTCAAAAAAA
CAAAAACAAAAACAAACTTCAAAGAAAATCCAAGTGTAACTGCTTGAATG
TGTCCTCTCCCAAATTCAGGTGTTGCCAATGTGACACTATCAAGAGGTGG
GGCTTTAAGAGGTGATTAGGCTATGAAGACTCCTCCCTCATGAATAGGAT
TCAGTTCCCATATAAAGGGCCTTGAGAGAGGGAGCTCCTCCCTTTTATCC
TTCTGCCTTTTGCCATGTGAGGACACAACACTCCTCCCCTCTGGAGAATC
CAACATTAAGGTGCCATCTTGCAAGTAGGATGCATCCTTCACTAGAGAAG
CTGAACCTGCTGGTCTCTTGATCTTGGATTTCACAGCCTCCAGAATTATA
AGAAAGTAAATTTCTCTTCTATAAAATACCCAGTCCCAGAAATTCTGTTA
TACCAGCACAAACAGACTAAAACAGCTTTCAAGTGTGATTAGAGTCAACA
ACCCTGACTAGGGTCAGTAATTGGGATGCTCTGTTATCTCTATTGCAAAG
TTACTGCGTAACTCCAGGTGCACCACATTTTAGCATATTCCCACTTTGGC
AACGTGGTGGTGGTGGTGGTGAAGGTGTCCAGACAGAGGGGGCAGTAAGA
GGAAAAAGCCCTAAAATGGCTGGTATGTTTAACATAGGTTTCTTTAACTC
CCCACAACCTGTAACTGGTACAAATAGGTTCACATTAGCATTAATTCCCT
CATTTCAATGGCTCATCTTAGTTCTCTGCCTATGCTTTTCACTTATTTTC
AGATGTCTCTAGAGATGTCTTACACGCACGCAATAATGGTCTTCTGTTCC
TCTGCTCCACCTTCCTAGTTGGTGTCTATCACCCACAAGCCACTTAAGGA
AAATGCTTTTCCTCTGCTGTGACTGCTGTTGTCCTTCATGAAATAAATAC
TGCCCAGCCCAGGAAGCAAGCTTCAGACACTCCGAAAGTCACAACACCCT
TGAGATGCCAAATGACAATGTGTTCTGTAAATCAAACGACGTGACGGAGG
TAAGTCTCAATCATTTTACAGGTTTATTTTGCCAAAATTGAGCATGTGCC
TGGCAAAAAGGAACACAAAATCACAGGAACATCTGTGATCTGTGCTTTTT
CCAAACAGGGTTTGAGAACTTTTGTATTTAAAGGGGAAAGAGCAGGCAGT
AAGGGAAAGTGGAAAGAAAAGGGGGTAGGGTAAATAAAAGAGAAAAGCAA
TTGCATTCTTTTGAAGCTTTGATCAGCAGTCACTGAATCCATATTTTACA
TGTGAAAGAAGCGGGTAGAGGAAGAGTCAATTATGCATTCATCTGGTGTG
TGGTTAATCTACATTTTTACGTAAAATAAACAGTAGATAACGCAGTCAAA
CATGCATTTGTCTTAAGTGAGGGAAGGATGACTCCTAATCCTGTCTTTGT
CCCATACCTGTGAAGATAATCTGTTAATTTACATTGTTTGGGTGAAATTC
AACAGAATTGTTTTAGGGTAAAGATCTTGGGGCCCACAAGGAATTTCCTT
GTAAGCAAATTGTGAGGCAGGACCCTTGGGGAGGTCAGTAACCTTCTTTC
TATCAATCTATTTAGGAACAAAATGGAAGGCAGTTTTGCATAACTCAGTT
TTCAAGCTTGACTTTTCCCTGTGGCATAATGAGTTTGGGGTCCCAGATTT
TTAGTTTCCTTTCACAGTGTTGTGGGACTTTTCCTTAGTTCAGCTAAAGG
TGAGGTCCTTGTCACACGGCCACAAAATTTAGGGTCGCAATTTGAAGGGT
GAGCAGGGCAGGGTTTATTGGGTGAAAAGGAAAAAAGGGAAACAGGGACC
CTCTGCAAAGCCAGAGTCCCTGCTAGTGCGCTTCCAGCCTCTCAGTTCCC
AGGTTCCACAAAGGAAGAGGAGGGGCCAGTCTCCTCCCCACTACAAACAG
CACAAACTTCTGTGGCTCCACCCAGGTGTGCACTCCTCCCAGTGCATAGG
CTGGTTGGAGTTTTGCCAGGGAGCCCTTCCCACCTAGCAGTTTCAACAGT
TTTCTCCAGAACTTGTTAGACTGCTAAGCCACACCATATTATGTGCAGAA
ATGGGAATAACATCCCTTTCCCCCAATTTGAGTGGTAGGCTGTATTGCAT
AGTGCTTAAGAGCATGGGTTTGGAGGACAGAGATAGATTTTATTTATCTG
ACTCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGA
TTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGA
CTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGG
CCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATAT
AGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAG
TGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCT
CTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCT
CTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCA
GCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCC
CCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGA
GAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAG
AATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGAC
CTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCA
TAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTA
TGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCA
CATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTT
AACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGA
CTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATC
TCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAA
GCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATC
TTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGA
TGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATC
TCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTT
TCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAAT
ATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGT
GGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAA
GTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAA
AATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTC
AGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGC
AGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTT
CTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCT
TTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAG
TATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGA
CCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTA
CACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTA
AAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCA
TTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTAT
CTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAA
AACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGT
ATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAG
CCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGAT
GAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGC
TCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTC
TTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCT
TCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAG
TAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATG
ACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCC
TCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAA
AAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAA
GCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTC
AAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAA
GGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAA
GATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACT
GGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATT
TTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTT
GCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGG
GAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATT
ATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAG
TTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAA
TTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTA
AGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAAT
CCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACT
CACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGAT
AGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCT
CAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCC
CACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATA
TCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATC
CAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACT
GTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCT
ACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATA
ACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACAC
GACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATT
TCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATA
GTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGT
CTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAA
ACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGC
AACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCAC
TTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGT
AAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAA
CTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTA
CAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCA
TTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAA
TTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTC
AGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAA
CTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACA
ACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTG
AAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGA
TTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAAT
GCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACA
CCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGT
GCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAAT
CCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTG
ATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGA
CATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTT
CAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATT
TGCCAGCACAAATGGAAAACAAACTTTCAGGACCCTCTATATGGAAAAGG
GCATAGGTGAAGCCTCCAAACCCTGGCCTCCATCCCTGGTCTGGGGATGA
AGAAAAACCCTAAAAAAATCTCTCACTCTCCCATCTATTATGGTTGCTTC
TAGCACTATTTGCCTTTATCACTACCTATAGGATCAACCTTGATATGCTC
AAACTCCAGAAAACTCTACACTTGAAAGTCATGTGGATGGTAGAATACAA
TAAAAGCACTACTAACCTTTCAAACACTGTGTTGATGCTGGTTTCCTAGG
CAGGAGGTGAGAAAAGAAGACTCCAAGGGAATGATCTTTTTTATTAATCT
TTCAACTTACTGTAAAAATATAAATGATCACTGTTTTTCAAGCACTTAGC
ATCTAGAATGGGATCTTTATTTTTTGCTTTCTGAAAGACAAAACAGAACC
AACAAAGTGGTCTAGGAAAAAAATCCTTGCACCCAGAAATCCAGAGAAAA
TGACGTATTCTCATTGGAGTACAGGTGAAAGAGGACTTCTGAGAGGGCCA
GGCAAGGTGGCTCATGCCTGTAATTCCAATGCTGTGGGAGGCCGAGACTG
GAGAATTGCTTGAGGCAGGAGTTTGAGATTAGCTAGGAAAACATAGTGAG
ACCCTGTCTCTACAAGAAATTATAAAATTAGCCAGGTGTAGTGGTACAGC
TGCAATCCTAGTGCCTGAGGCAGGAGGATCGCTTGAGCCCACGGGTTTGA
GTGTTATGGTGAGCTATAATCACACCACTGCACTCCAGCCTGGGTGATAG
AGTAAGATCCTGTCTCAAAAAAACAAAAACAAAAACAAACTTCAAAGAAA
ATCCAAGTGTAACTGCTTGAATGTGTCCTCTCCCAAATTCAGGTGTTGCC
AATGTGACACTATCAAGAGGTGGGGCTTTAAGAGGTGATTAGGCTATGAA
GACTCCTCCCTCATGAATAGGATTCAGTTCCCATATAAAGGGCCTTGAGA
GAGGGAGCTCCTCCCTTTTATCCTTCTGCCTTTTGCCATGTGAGGACACA
ACACTCCTCCCCTCTGGAGAATCCAACATTAAGGTGCCATCTTGCAAGTA
GGATGCATCCTTCACTAGAGAAGCTGAACCTGCTGGTCTCTTGATCTTGG
ATTTCACAGCCTCCAGAATTATAAGAAAGTAAATTTCTCTTCTATAAAAT
ACCCAGTCCCAGAAATTCTGTTATACCAGCACAAACAGACTAAAACAGCT
TTCAAGTGTGATTAGAGTCAACAACCCTGACTAGGGTCAGTAATTGGGAT
GCTCTGTTATCTCTATTGCAAAGTTACTGCGTAACTCCAGGTGCACCACA
TTTTAGCATATTCCCACTTTGGCAACGTGGTGGTGGTGGTGGTGAAGGTG
TCCAGACAGAGGGGGCAGTAAGAGGAAAAAGCCCTAAAATGGCTGGTATG
TTTAACATAGGTTTCTTTAACTCCCCACAACCTGTAACTGGTACAAATAG
GTTCACATTAGCATTAATTCCCTCATTTCAATGGCTCATCTTAGTTCTCT
GCCTATGCTTTTCACTTATTTTCAGATGTCTCTAGAGATGTCTTACACGC
ACGCAATAATGGTCTTCTGTTCCTCTGCTCCACCTTCCTAGTTGGTGTCT
ATCACCCACAAGCCACTTAAGGAAAATGCTTTTCCTCTGCTGTGACTGCT
GTTGTCCTTCATGAAATAAATACTGCCCAGCCCAGGAAGCAAGCTTCAGA
CACTCCGAAAGTCACAACACCCTTGAGATGCCAAATGACAATGTGTTCTG
TAAATCAAACGACGTGACGGAGGTAAGTCTCAATCATTTTACAGGTTTAT
TTTGCCAAAATTGAGCATGTGCCTGGCAAAAAGGAACACAAAATCACAGG
AACATCTGTGATCTGTGCTTTTTCCAAACAGGGTTTGAGAACTTTTGTAT
TTAAAGGGGAAAGAGCAGGCAGTAAGGGAAAGTGGAAAGAAAAGGGGGTA
GGGTAAATAAAAGAGAAAAGCAATTGCATTCTTTTGAAGCTTTGATCAGC
AGTCACTGAATCCATATTTTACATGTGAAAGAAGCGGGTAGAGGAAGAGT
CAATTATGCATTCATCTGGTGTGTGGTTAATCTACATTTTTACGTAAAAT
AAACAGTAGATAACGCAGTCAAACATGCATTTGTCTTAAGTGAGGGAAGG
ATGACTCCTAATCCTGTCTTTGTCCCATACCTGTGAAGATAATCTGTTAA
TTTACATTGTTTGGGTGAAATTCAACAGAATTGTTTTAGGGTAAAGATCT
TGGGGCCCACAAGGAATTTCCTTGTAAGCAAATTGTGAGGCAGGACCCTT
GGGGAGGTCAGTAACCTTCTTTCTATCAATCTATTTAGGAACAAAATGGA
AGGCAGTTTTGCATAACTCAGTTTTCAAGCTTGACTTTTCCCTGTGGCAT
AATGAGTTTGGGGTCCCAGATTTTTAGTTTCCTTTCACAGTGTTGTGGGA
CTTTTCCTTAGTTCAGCTAAAGGTGAGGTCCTTGTCACACGGCCACAAAA
TTTAGGGTCGCAATTTGAAGGGTGAGCAGGGCAGGGTTTATTGGGTGAAA
AGGAAAAAAGGGAAACAGGGACCCTCTGCAAAGCCAGAGTCCCTGCTAGT
GCGCTTCCAGCCTCTCAGTTCCCAGGTTCCACAAAGGAAGAGGAGGGGCC
AGTCTCCTCCCCACTACAAACAGCACAAACTTCTGTGGCTCCACCCAGGT
GTGCACTCCTCCCAGTGCATAGGCTGGTTGGAGTTTTGCCAGGGAGCCCT
TCCCACCTAGCAGTTTCAACAGTTTTCTCCAGAACTTGTTAGACTGCTAA
GCCACACCATATTATGTGCAGAAATGGGAATAACATCCCTTTCCCCCAAT
TTGAGTGGTAGGCTGTATTGCATAGTGCTTAAGAGCATGGGTTTGGAGGA
CAGAGATAGATTTTATTTATCTGACAACTTTTACTTGAGTGTTGATAGTG
GCATTATTCATAATGTCTCCAAAGTGGAAACCACCCATATGTCTACCAAC
AGACGAATGGATAAAGTATGATATAGCGCTGCAATGGAATATTATTTGGC
AATAAAAAGAAATGAAGTACTAAAGCATGATATATACAAAGATGAACCTT
GAAAACATCATGTTAAGTAAAAGAAGACAGTCATAAAAGTCATGTATTGC
ATGATTCTATTTATATGAAATGTCCAGAATAGGCAAATTCACTGAAAAAG
GAAGTAGATTAGCGGTTGCCTAGAGCTGTGAGAATGGAGAGTTGGGGATG
ATAACTAAGGTATGAGAGATTTCTTTTTGAGGTGATTCAAATGTTCTAAC
TTGTGGTGATAGTTGCACAAGTCTGAATATATTAAAACCATTTAATCATA
TACTTTAAATGTGTGAATTAGATGATTTGTGAAGTAATGTTACCGTAGGT
AGCTAGTCAAACATGAGCAGGGCAGGAGAGAGCTTCCCCCAACCCCCACC
AGGAATGTCAGGCGACCGTCAGGTGATGGTCAGGCAGTTGTTAAGCTATC
TCTCTAAAATAATAATTGGTTGCAGCCGGTGCCAGGGAACGGCAGCCTCC
CAACAGATAGAAACATCTAAAACTGATGATCAGCAGCTTCCCAATAAGCT
CTCAGGAGTTGGGCAAGTGGGCTCAAGCATGCGCACTAAGAGGGAAAGTG
GCAGATGACCTTTGTTTAGGAACACTGGATTGGTAAGGGGAAAATGCCTC
AAGTGAGCATGCACACTGTGCATGCGGCCCCTCCCAAGTGCTAGCAGGCC
ACTGTACATGTGGACAGCCCGCCCCAAGGGAAGAATCAGGGGAGAAGTAG
TGCAAGACCCCGGAAGAATGCCAACATATAAAACCCCAAGTCGAAAGGTT
AAACCGTACGCTTGATCTCTCAAGTTGCCCGCTTGGCCCTCTTCCGAGTG
TACTTTACTTCCCTTCATTCCTGCTCTAAAGCTTTTTAACAAACTTTCAC
TCCTGCTCTAAAACTTGCCTTGGTCTCTCACTCTGCCTTATACCCCCTCA
GTCTTCTGAGGAGGCAAGAATTCAGGTTGATGTAGACCCATATGGATTTG
CCAGTGGTAACAATAAGAAATATACAGTCATCCTTCAATATCTGTGGGGG
ATTGGTTCTGGAATCCCCCCTCAGAAATTAAATCTATGATGCTCAAGTAC
CTTATATAACATGGTGTGGTATTTGCATATAACCTATACACTGCCTCCCA
TGTACTTTAAATCATCTCTAGATTCTTATTACAATGTAATGCTATGTAAA
TTGTTGTTACACTATATTTTTAAAATTTGTGTTATTTTAAATTGTTGTAT
TATTTTTTATTTATGTTTGTTATGTTTATGTTACGTATTATGTTTTCCAA
ATATTTTCATTGAATTTGCATTGAATTTACAGATGTAGAGGGCAGAGGGC
TCATGGTGCATTTGGTCTTTGTCTTAGGTTTCTGGAGGATTCTGGCACAC
AGTTCCTAAATCCCTTAAAATCTCTAGAGGCATAAGGGTACTGTTTGTAT
GCTAATGAGATGATGGGTGGCTGGTGGGTGGGGGGCGGCTAGGGGGGACG
GTCCCTAGACAGCTTCAGGTGGGGGCTGTTCACCAGAAAAACCTACAAGT
GATTAGAGATTTGGAACTATCAGCTCCACTCACAGACCTCCAGGCAGAGA
GAGAAGCTGAAGATGAGTTAACCACCTGTGGCCAATGATGTAATCAGTCA
TGCCTGTGAATGGAGCCTCCATTAAAACCTCCTAAATGAAGTAGTTCAGA
GAGCTCCCGGGTTGGTGAACACATCAGGGATGCTGGAAGGGTGATGTGGC
CCTGCTCCCATACCTTGCCCCCTGCATCTCTTCCATTTGGCTGTTCCTGA
GTTGTGTCCTGTACAATAAACTGGTAACGGTAAAGTTCTTTCTCAGTTCT
GTGAGCCATTCAAGCAAATTATAAAACTCAAGGAGGGGGGTCCTGGGAAC
CCCTAGTTTATAGCTGGTCCATCTGGAAGGCTCAGACTTGCAATTAGCAT
CTGCAGTGAAGGGAGTCTTGTAGCACTGAGCCCTTAACCTGTGAGGCCTG
CGCTAACTATGGGTAGCTATTGTCAGAACTGAATTGAATTGCAGAACACC
CACTTGGTGTCTGGAGAGCTGGAGAGTTGGCTGGCAGGTGGAAAACCCCC
TGCATTTGGTGCCAGCGGTGTTGTGAGCAAAGAGAACACAGATATCTCAG
TAAAGCTGTTACTGAGAGTGCCTATAGGGGGCTTCCTTAGTAGCTTGAAT
TGGCCTACAATGATGGCTGGGCCTTCCCAGGCTATGATCCCTTCTGAGGA
AATCTTGCCCGGACATCTCAGGCCTGCTCCTGACAGGGTGTAAAACCTTG
AGCAAGTTACCTTGCTTCTCTGAGTGAATTTCCTCCTCTGTGATATGGGG
ATGAGAGTAGTACCTTCCGTATAATGACACAACACCAATTCTTTGCACAG
TGTCTGGCAGATGGAATGATTTGGATAAATGTGAGCTAACATTATCAGGT
GTGAAGTGCAGATAATAATATCTATCTCACAAGGTG
3Comparación de secuencias
La comparación de secuencias está en el corazón
de la bioinformática. Los usos son variados
innumerables problemas se reducen en algún
momento a comparar dos secuencias, o un grupo de
secuencias. Y eso tiene que ver con que...
Nothing in biology makes sense except in the
light of evolution!!
4Comparación de secuencias
- Darwin
- Ancestro común
- Descendencia con modificación
- Por lo tanto, las secuencias
- tienen ancestros comunes
- sufren modificaciones
- secuencias similares tienen funciones similares
5Comparación de secuencias
Pero el parentezco entre secuencias no sólo
corresponde a parentezco entre especies también
hay familias de secuencias.
6Comparación de secuencias
- Para qué sirve comparar secuencias?
- Para determinar relaciones evolutivas entre
especies. - Para determinar relaciones evolutivas entre
genes. - La secuencia que acabo de obtener en el
laboratorio, está en la base de datos? O alguna
parecida? - ?O incluye trozos parecidos a algo conocido?
7Comparación de secuencias
Para qué sirve comparar secuencias?
- Para predecir función si mi proteína NN se
parece mucho a una, digamos, polimerasa... será
también polimerasa? - Para predecir estructura si conozco la
estructura 3d de una secuencia parecida... - Para predecir regulación a qué otras secuencias
de control se parece la de este gen? - Etc, etc, etc...
8Comparación de secuencias homología
- Homología similaridad entre secuencias atribuída
a que descienden de un ancestro común. - Hay dos tipos de homología. Las secuencias pueden
ser - Ortólogas secuencias homólogas en especies
distintas, que divergieron por la divergencia de
las especies. - Parálogas secuencias homólogas en una misma
especie, que divergieron tras la duplicación de
un gen.
9Comparación de secuencias homología
Ortólogos proteína RBP en varias especies de
vertebrados
? Tienden a tener la misma función.
10Comparación de secuencias homología
Parálogos
? Alguna divergencia ocurre en la función.
11Comparación de secuencias homología
Homólogos de los dos tipos
12Comparación de secuencias homología
Xenólogos resultado de transferencias
horizontales de genes (esos genes saltarines...)
E. coli
13Comparación de secuencias similaridad
- Similaridad la medida en la cual dos secuencias
(de nucleótidos o aminoácidos) están
relacionadas. - Importan la identidad y la conservación de las
letras. - Identidad no hubo cambio.
- Conservación hubo cambio pero se mantuvieron
propiedades físicas/químicas/funcionales
relevantes (eso es más frecuente en aminoácidos).
14Comparación de secuencias similaridad
Alinemiento entre RBP4 y beta-lactoglobulina
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKK
DPEG 50 RBP . . . . .
.. 1 ...MKCLLLALALTCGAQALIVT..QTMK
GLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51
LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE
97 RBP . .
. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQK
WENGECAQKKIIAEKTK 93 lactoglobulin 98
DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC
136 RBP . . .
. 94 IPAVFKIDALNENKVL........VLDTDYKK
YLLFCMENSAEPEQSLAC 135 lactoglobulin 137
RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV
185 RBP . .
136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSF
NPTQLEEQCHI....... 178 lactoglobulin
? identidad . ? algo de conservación ? alta
conservación ..... ? gaps (indels, inserción o
eliminación)
15Comparación de secuencias similaridad
- Similaridad versus homología
- Similaridad es entre secuencias es
cuantificable. - Homología requiere ancestro común no es
cuantificable. - Homología por lo general implica similaridad.
- Similaridad no implica homología,
- ...aunque alta similaridad entre secuencias
largas por lo general sí se considera evidencia
de homología. - (La convergencia es rara sólo se ve en
secuencias cortas).
16Comparación de secuencias similaridad
La similaridad es variable, según qué cosa
comparemos, y cómo comparemos. Cómo evaluar
similaridad? Cómo encontrar los
alineamientos? Cómo saber si son
significativos? ?En proteínas un 25 de
identidad probablemente indica homología ?En
DNA, es lo que se esperaría al azar!
17Comparación de secuencias similaridad
RBP4 vs beta-lactoglobulina
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKK
DPEG 50 RBP . . . . .
.. 1 ...MKCLLLALALTCGAQALIVT..QTMK
GLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51
LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE
97 RBP . .
. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQK
WENGECAQKKIIAEKTK 93 lactoglobulin 98
DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC
136 RBP . . .
. 94 IPAVFKIDALNENKVL........VLDTDYKK
YLLFCMENSAEPEQSLAC 135 lactoglobulin 137
RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV
185 RBP . .
136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSF
NPTQLEEQCHI....... 178 lactoglobulin
18Comparación de secuencias similaridad
RBP humana vs RBP en trucha arcoiris
1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGT
WYAMAKKDP 48 ...
. .. . 1
MLRICVALCALATCWA...QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP
47 . . .
. . 49 EGLFLQDNIVAEFSVDETGQMSATAKG
RVRLLNNWDVCADMVGTFTDTED 98
... ..
48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNWEMCANMFGTFE
DTPD 97 . . .
. . 99 PAKFKMKYWGVASFLQKGNDDHW
IVDTDYDTYAVQYSCRLLNLDGTCADS 148
..
98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCR
EVDLDGTCLDG 147 . .
. . . 149
YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNL
L 199 .. .
148 YSFIFSRHPTGLRPEDQKIVTDKKKEICFLGK
YRRVGHTGFCESS...... 192
19Alineamiento de secuencias
- Tipos de alineamiento
- De a pares se alinean dos secuencias de la mejor
manera posible para maximizar identidad y
conservación se busca evaluar similaridad, y
posible homología. - Múltiple se alinea un grupo de secuencias ( no
es lo mismo que alinearlas a todas de a pares!).
20Alineamiento de secuencias
- El alineamiento múltiple (no lo veremos aún)
ayuda a - hacer árboles filogenéticos
mosca GAKKVIISAP SAD.APM..F VCGVNLDAYK
PDMKVVSNAS CTTNCLAPLA humano GAKRVIISAP
SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA
planta GAKKVIISAP SAD.APM..F VVGVNEHTYQ
PNMDIVSNAS CTTNCLAPLA bacteria GAKKVVMTGP
SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA
levadura GAKKVVITAP SS.TAPM..F VMGVNEEKYT
SDLKIVSNAS CTTNCLAPLA archaea GADKVLISAP
PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
21Alineamiento de secuencias
La métrica que se usa es la distancia de
Levenshtein o distancia de edición es la
longitud del proceso más corto para convertir una
secuencia en otra, a través de pasos de
inserción, borrado, o reemplazo (cada vez, de a
una letra).
22Alineamiento de secuencias
- Problemas
- Una única mutación que inserta o borra suele
afectar a más de una posición por lo tanto, un
hoyo de largo k no debiera costar igual que k
hoyos de largo 1. - Solución usual
- ? puntaje afín para los hoyos, del tipo abk.
23Alineamiento de secuencias
- Problemas
- Sólo se reconocen identidades reemplazos
conservativos requieren algún puntaje
intermedio. - ? Se usan matrices de sustitución, que asocian un
número a cada posible reemplazo de una letra por
otra. - Hay que distinguir entre proteínas y ácidos
nucléicos.
24Alineamiento matrices de sustitución
- Ácidos nucléicos
- El alfabeto ACGT se puede proyectar a un alfabeto
binario de tres maneras distintas cada una tiene
cierto significado bioquímico - RA,G, YC,T purinas y pirimidinas, resp.
- SG,C, WA,T enlace fuerte o débil, resp.
- KT,G, MA,C expone grupo keto o amino,
resp. - Si un reemplazo no cambia la distinción R/Y, se
suele considerar conservativo se llaman
transiciones, y los otros reemplazos son
transversiones.
25Alineamiento matrices de sustitución
Proteínas
- Serina (S) y treonina (T) tienen propiedades
parecidas el ácido aspártico (D) y el ácido
glutámico (E) también. - El reemplazo S/T o E/D es frecuente durante la
evolución. El costo no debería ser muy inferior
al de la identidad.
26Alineamiento matrices de sustitución
- Fuentes posibles para crear las matrices
- Propiedades fisico/químicas de los aminoácidos.
- Frecuencia empírica de reemplazos observados en
proteínas claramente homólogas. - En la práctica resultan ser criterios parecidos.
- Se usa lo segundo.
27Alineamiento matrices de sustitución
- Son dos los grupos de matrices más usados
- PAM (Dayhoff, 1978)
- BLOSUM (Henikoff Henikoff, 1992)
- ?casi han reemplazado a las PAM
- En la matriz se pone el odds ratio
- el logaritmo de la probabilidad de la
sustitución, dividida por la probabilidad de que
las letras alineadas estén allí al azar (qi y qj
son las frecuencias absolutas). - Por qué logaritmo? ?Para poder trabajar con
números de magnitudes similares, y para poder
sumar en vez de multiplicar.
28Alineamiento matrices de sustitución
- PAM
- PAM1 se construye con la prob. de reemplazo para
un nivel de divergencia de 1 (1 aminoácido de
cada 100), que sería aproximadamente un millón de
años. - PAMn, para divergencias mayores, se construye
calculando potencia n-ésima de PAM1. - BLOSUM
- Para BLOSUMn, se usan alineamientos locales de un
mismo largo (sin gaps) de proteínas con al menos
n de identidad. No se extrapola nada.
29Alineamiento matrices de sustitución
PAM250
30Alineamiento matrices de sustitución
100
BLOSUM62
Usa estas
62
30
31Alineamiento matrices de sustitución
La matriz que corresponda usar depende de qué tan
lejanas son las secuencias que se están
comparando.
- Polimerasa de ratón vs polimerasa de bacteria
- Globinas humanas distantes
RBP de ratón vs RBP de rata
32Alineamiento
- Resumiendo, el puntaje de un alineamiento
dependerá (aditivamente) de - La matriz de sustitución, que le pone puntaje al
reemplazo de una letra por otra - La penalización de gaps
- Con eso se están haciendo varias
simplificaciones - Que haya independencia entre posiciones.
- Que no haya zonas más mutables.
- Que todas las secuencias cambian al mismo ritmo...
33Alineamiento
Que todas las secuencias cambian al mismo ritmo?
33 PAM para kappa-caseína, 0 PAM para
ubiquitina! Pero ok, se hace la simplificación.
34Alineamiento dot plots
Una herramienta simple pero útil dot plots.
Ponemos una secuencia en una fila, la otra en una
columna, y un punto por cada coincidencia. Se
suelen unir con líneas los puntos contiguos de
una diagonal. En uso desde los 70s.
35Alineamiento dot plots
Mioglobina vs beta-globina (humanas)
Refinamiento más reciente ?Sólo poner el punto
si en una ventana de tamaño w, hay s
coincidencias (se elimina ruido poco
significativo).
36Alineamiento dot plots
Receptor LDL humano vs sí mismo
w30, s9
w40, s20
37Alineamiento dot plots
- Conviene hacerlos antes de aplicar algoritmos
puede haber algo evidente que salte a la vista. - Qué se puede ver?
- ?Similaridad entre dos secuencias
- ?Secuencias repetitivas
- ?Palíndromes (que existen!)
- ?Segmentos compartidos, aunque esté cambiado el
orden, o haya bloques insertados.
38Alineamiento local y global
- Se pueden buscar alineamientos locales o globales
- Global se alinea una secuencia completa contra
otra secuencia completa. Suele ser útil para
secuencias similares, y/o de tamaños parecidos. - Local se alinea un tramo de una secuencia con un
tramo de la otra, de la mejor manera posible.
39Alineamiento global
- Podemos ver un alineamiento como un camino en una
matriz similar al dotplot - Avanzamos hacia la derecha y hacia abajo.
- Vamos de la esquina en que comienzan las
secuencias, hasta la esquina en que terminan. - Horizontal o vertical ? gap
- Diagonal ? identidad o reemplazo
40Alineamiento global
Para dos proteínas de 100 aá, los posibles
alineamientos son ? 1060.
En general, la cantidad de alineamientos es
O(2nm).
Por suerte, existe un algoritmo de programación
dinámica Needleman Wunsch, 1970.
41Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
42Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
score(x,y-1) - gap-penalty
score(x,y) max
43Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
score(x,y-1) - gap-penalty score(x-1,y-1)
substitution-score(x,y)
score(x,y) max
44Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
Una vez que llegamos al final, desandamos lo
andado para determinar la ruta óptima.
score(x,y-1) - gap-penalty score(x-1,y-1)
substitution-score(x,y) score(x-1,y) - gap-penalty
score(x,y) max
45Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 M 1 A
2 T 3 H 4 S 5
46Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 M 1
A 2 T 3 H 4 S 5
47Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 M
1 A 2 T 3 H 4 S 5
48Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
M 1 A 2 T 3 H 4 S 5
49Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 A 2 2 T 3 3 H 4 4 S 5 5
50Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 A 2 2 T 3 3 H 4 4 S 5 5
51Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 A 2 2 T 3 3 H 4 4 S 5 5
52Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 H 4 4 S 5 5
53Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 2 2 2 3 H 4
4 S 5 5
54Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 2 2 2 3 H 4
4 3 3 3 3 S 5 5 4 4 4 3
55Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 2 2 2 3 H 4
4 3 3 3 3 S 5 5 4 4 4 3
56Alineamiento global
- El alineamiento no es necesariamente único
MATHS MA-THS MATHS -ARTS
-ART-S ART-S
- Si los gaps tienen costo afín, se usan tres
matrices, pero la idea es la misma. - El algoritmo corre en tiempo O(mn), y ocupa
espacio O(mn). - Se puede arreglar para que el espacio sea
O(maxm,n).
57Alineamiento local
Alineamientos locales buscar un buen
alineamiento entre segmentos, y extenderlo sólo
mientras siga siendo bueno (no más allá).
Alineamiento global
Sec 1
Alineamiento local
Sec 2
58Alineamiento local
Algoritmo Smith-Waterman, 1982 ?Después de 12
años, se le agrega un 0 al algoritmo de NW
- Al terminar, busco el valor más grande en la
tabla. - Me devuelvo por ruta óptima hasta encontrar un 0.
59Alineamiento local
Algoritmo Smith-Waterman
60Alineamiento
NW y SW son óptimos, aunque no necesariamente
sean el alineamiento biológicamente correcto. Lo
realmente malo es el orden cuadrático.
61Alineamiento
62Alineamiento
- Contra una base de datos, por lo general
- ? se buscan alineamientos locales
- ? se usan heurísticas
- Se desea buena sensitividad (evitar falsos
negativos) y especificidad (evitar falsos
positivos). - Los dos algoritmos (o familias de) principales
son FASTA y BLAST. - Ambos parten buscando bloques de identidades,
mediante matches de palabras (substrings cortos).
63Alineamiento - FASTA
- FASTA
- Lippman Pearson, 1985 (para proteínas), 1988
(nucleótidos). - Ubica los mejores tramos diagonales de
identidades. - Los recalcula con PAM.
- Se queda con los 10 mejores.
64Alineamiento - FASTA
- FASTA
- Busca una cuasi-diagonal que recorra la mayoría
- Aplica SW sobre una ventana en torno a eso.
- ?Acelera un orden de magnitud, respecto a SW.
65Alineamiento - BLAST
- BLAST (Karlin Altschul, 1990, 1993)
- Indexa las palabras de un cierto largo k (para la
base de datos, lo hace antes). - A partir del query, genera una lista L de todas
las palabras de largo k, y a partir de esas, una
lista de palabras de largo k que darían un
puntaje sobre un umbral T si se alinearan con
alguna de L. - Ejemplo Si el query contiene AIV, AIA da un
puntaje de 440 y AII da un puntaje de 443.
Con T 10, tomo AII.
66Alineamiento - BLAST
- BLAST
- Típicamente eso genera 50 palabras a partir de
la secuencia query. - Busca matchs exactos de palabras.
- Extiende esos match en ambas direcciones,
mientras eso genere alineamiento significativo.
67Alineamiento
- De FASTA y de BLAST (sobre todo de BLAST) existen
distintas variantes - con énfasis locales o globales,
- mejoras para proteínas o DNA,
- previsiones para bases de datos grandes,
- etc...
- Se pueden bajar, o utilizar en servidores.
- Se pueden usar en la web de manera interactiva, o
desde software local (hay API del uso vía URLs).
68Alineamiento
- Por lo general, FASTA resulta mejor para
nucleótidos, y BLAST, para proteínas. - Velocidad BLAST gt FASTA gt SW
- Sensitividad BLAST lt FASTA lt SW
- Pero ojo, ambas familias están en permanente
evolución, y en BLAST hay mucha gente trabajando. - Cuando se comparan secuencias que codifican
proteínas, por lo general es preferible comparar
las proteínas, no sus DNAs.
69Alineamiento
- Sabores principales de BLAST (hay equiv. FASTA)
- BLASTN query de nucleótidos, BD de nucleótidos.
- BLASTP query de proteína, BD de proteínas.
- Esas son simples. Las que siguen, consideran los
6 marcos de lectura posible (mirando ambas hebras
del DNA, y partiendo la traducción desde la
primera, segunda o tercera letra) - BLASTX query de nucleótidos, BD de proteínas.
- TBLAST query de proteína, BD de nucleótidos.
- TBLASTX query de nucleótidos, BD de nucleótidos
70Significatividad
Al hacer una búsqueda contra una base de datos y
encontrar un match, se suele informar el p-value
y el E-value asociados al puntaje
obtenido. p-value probabilidad de obtener ese
puntaje o uno mejor, por simple azar. E-value
el p-value multiplicado por la cantidad de
secuencias en la base de datos (ergo, cantidad de
matches así de buenos que cabe esperar al azar).
71Significatividad
No existe buena teoría estadística para los
valores E y p, en el caso más general. Para el
caso de alineamiento local de dos secuencias de
largo n y m, sin gaps, en la aproximación de n y
m grandes, se tiene E ? mn ? K ? e-?S donde K y
S reflejan el espacio de búsqueda y la
puntuación, respectivamente. Esto es el E-value
de los HSP (high scoring segments, los tramos
no-extendibles del alineamiento local). Bit
score S (?S- ln K) / ln 2
72Significatividad
Para bases de datos, o para el caso general con
gaps, la distribución para el p-value se
determina empíricamente. NO sigue una normal es
una distribución de valores extremos, pero
depende de la base de datos.
En los servidores, los datos están
precalculados. BLAST suele subestimar el
E-value hay que creerle sólo a valores chicos.
0.02 a 0.05 pueden ser de interés.
73Significatividad
Conviene probar con versiones rebarajadas de
nuestra secuencia. En general, tener ojo con la
composición, repeticiones, etc.
100 random shuffles Mean score 8.4 Std. dev.
4.5
Número de instancias
Score obtenido 37
score
74Alineamiento bayesiano
- Una alternativa reciente
- Nucleic Acids Research, 2002, Vol. 30, No. 5
1268-1277BALSA Bayesian algorithm for local
sequence alignment - Bobbie-Jo M. Webb, Jun S. Liu and Charles E.
Lawrence - Se consideran varias matrices de sustitución y
penalizaciones de gaps (con alguna distribución
de probabilidad a priori). - Se entrega una función P(i,j) con la probabilidad
de que la letra i-ésima de la primera secuencia
se alinee con la j-ésima de la segunda. - Se entrega también una distribución a posteriori
para las matrices y penalizaciones.
75Alineamiento bayesiano
- Desventajas
- mayor trabajo de cómputo
- no entrega directamente un alineamiento pero se
puede reconstruir uno, por ejemplo recorriendo de
(0,0) a (m,n) por la ruta que sume más P(i,j). - Ventajas
- formaliza el proceso de tantear con distintas
matrices de sustitución hasta tener una que
refleje (y prediga) la distancia evolutiva entre
las secuencias. - permite observar distintos niveles de confianza a
lo largo del alineamiento
76Breve nota sobre lenguaje
Residuo sinónimo de aminoácido (letra de
proteína). Base sinónimo de nucleótido (letra
de DNA o RNA). También se habla de base pair
para referirse a las bases (pensando en que el
DNA tiene dos hebras). No es lo mismo que un
dinucleótido (que es una palabra de DNA de largo
2).
77Breve nota sobre Organismos modelos
- Organismos modelos
- Los estudios se concentran en ciertas especies,
por economías de escala (de varios tipos) - Se escogen especies fáciles de tratar, con ciclos
de vida rápidos, tamaño relativamente pequeño, y
a veces con algún interés específico. - No están repartidos de manera representativa de
la diversidad del árbol de la vida sesgo
(práctico) hacia los eucariotas, los metazoos
(animales), los vertebrados.
78Breve nota sobre Organismos modelos
- La lista es larga. Principales
- Mamíferos
- Homo sapiens (humano)
- Canis lupus familiaris (perro)
- Mus musculus (ratón)
- Cavia porcellus (conejillo de indias)
- Rattus norvegicus (rata)
- Otros vertebrados
- Gallus gallus domesticus (gallina)
- Danio rerio (pez zebra)
- Xenopus laevis (una rana africana)
79Breve nota sobre Organismos modelos
- Invertebrados
- Caenorhabditis elegans (un gusano nemátodo)
- Drosophila melanogaster (mosca de la fruta)
- Arbacia punctulata (erizo de mar, sea urchin)
- Plantas
- Arabidopsis thaliana (mostaza)
- Nicotiana tabaccum (tabaco)
- Oryza sativa (arroz)
- Zea mays (choclo)
80Breve nota sobre Organismos modelos
- Hongos
- Saccharomyces cerevisiae (levadura de la cerveza
y el pan) - Schizosaccharomyces pombe (otra levadura)
- Neurospora crassa (moho de pan)
- Protistas
- Dictyostelium discoideum (ameba social)
- Tetrahymena thermophila (un protozoo ciliado)
- Chlamydomonas reinhardtii (alga unicelular)
81Breve nota sobre Organismos modelos
- Bacterias
- Escherichia coli
- Bacilus subtilis (bacilo, vive en el suelo)
- Mycoplasma genitalium (diminuta!)
- Vibrio fischeri (marino, luminoso)
- Virus
- Tobacco mosaic virus (un virus de RNA, en tabaco)
- ? fago (ataca a E. coli)
- HIV (virus del sida)
82Breve nota sobre software bioinformático
- Hay mucho.
- Mucho es libre, y/o de código abierto.
- Lenguajes frecuentes
- Java (particularmente aplicaciones individuales)
- C, C (todo lo que tiene que andar rápido)
- Perl (operaciones sobre secuencias)
- Python (crecientemente)
- Muchos servicios online, utilizables vía web o
vía URLs. - Librerías bajables que conviene reutilizar.
- Hay mucho.
83Breve nota sobre datos bioinformáticos
- Hay muuuuchos, de diversos tipos.
- Existen bases de datos de bases de datos.
- Al comienzo de cada año, número especial de
Nucleic Acid Research con las novedades más
importantes. - Por lo general, mucha cross-reference entre las
BD. - Mencionaremos por ahora sólo el punto de entrada
al núcleo y punto de partida de los datos
Genbank.
84Bases de datos el núcleo
Entrez
NIH
NCBI
GenBank
EMBL
DDBJ
CIB
NIG
SRS
EMBL
getentry
85NCBI - Entrez
PubMed
OMIM
PubMed Central
Journals
3D Domains
Literature
Books
Structure
Organism
Taxonomy
CDD/CDART
Entrez
Genome
Expression
Protein
Nucleotide
Sequence
UniSTS
HomoloGene
SNP
UniGene
Gene
GEO/GDS
Nucleotide
PopSet
86Bases de datos
- GenBank/DDBJ/EMBL es BD de nucleótidos.
- Son secuencias primarias información en bruto,
con las anotaciones que los autores hayan
provisto. - RefSeq (en el NCBI) es una BD curada contiene
información tomada de GenBank pero comparada y
anotada es como un review. - Para proteínas UniProt incluye una parte curada
y con mucha información (SwissProt) y una parte
no curada que simplemente traduce las secuencias
de GenBank TrEMBL.
87Bases de datos
- De dónde sale la información primaria?
- De gente que está investigando un gen
- ? entradas cortas, organismos típicos, muy bien
anotadas - De gente que está investigando filogenia o
genética de poblaciones - ? secuencias de organismos atípicos por lo
general cortas, con diversas versiones - Proyectos de secuenciamiento
- entradas cortas, productos intermedios en las
técnicas de secuenciamiento. - entradas largas, con nivel de anotación
dependiente del nivel de avance del proyecto.
88Bases de datos formatos básicos
- Formatos elementales para secuencias de ácidos
nucléicos o proteínas - Texto plano (sólo las letras de una secuencia!)
- FASTA
- Genbank
- ASN.1 (como referencia)
- XML (para parsearlo)
89Bases de datos formatos básicos
Formato FASTA
gtgi121066spP03069GCN4_YEAST GENERAL CONTROL
PROTEIN GCN4 MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAK
PMVGQLIFDKFIKTEEDPI IKQDTPSNLDFDFALPQTATAPDAKTVLPI
PELDDAVVESFFSSSTDSTPMFEYEN LEDNSKEWTSLFDNDIPVTTDDV
SLADKAIESTEEVSLVPSNLEVSTTSFLPTPVL EDAKLTQTRKVKKPNS
VVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPES SDPAALKRA
RNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGE R
- Línea de descripción que parte con gt.
- Lo primero en esa línea es un identificador
sigue la descripción. - Formato bastante libre.
- Se recomienda que las líneas no pasen de 80
caract. - Si vuelve a aparecer un gt, es que sigue otra
secuencia.
90Bases de datos formatos básicos
Letras estandar
91Bases de datos formatos básicos
LOCUS MUSNGH 1803 bp mRNA
ROD 29-AUG-1997 DEFINITION Mouse
neuroblastoma and rat glioma hybridoma cell line
NG108-15 cell TA20 mRNA, complete
cds. ACCESSION D25291 NID
g1850791 KEYWORDS neurite extension activity
growth arrest TA20. SOURCE Murinae gen. sp.
mouse neuroblastma-rat glioma hybridoma
cell_lineNG108-15 cDNA to mRNA. ORGANISM
Murinae gen. sp. Eukaryotae
mitochondrial eukaryotes Metazoa Chordata
Vertebrata Mammalia Eutheria Rodentia
Sciurognathi Muridae
Murinae. REFERENCE 1 (sites) AUTHORS
Tohda,C., Nagai,S., Tohda,M. and Nomura,Y.
TITLE A novel factor, TA20, involved in
neuronal differentiation cDNA
cloning and expression JOURNAL Neurosci. Res.
23 (1), 21-27 (1995) MEDLINE
96064354 REFERENCE 3 (bases 1 to 1803)
AUTHORS Tohda,C. TITLE Direct Submission
JOURNAL Submitted (18-NOV-1993) to the
DDBJ/EMBL/GenBank databases. Chihiro
Tohda, Toyama Medical and Pharmaceutical
University, Research Institute for
Wakan-yaku, Analytical Research Center for
Ethnomedicines 2630 Sugitani, Toyama,
Toyama 930-01, Japan
(E-mailCHIHIRO_at_ms.toyama-mpu.ac.jp,
Tel81-764-34-2281(ex.2841),
Fax81-764-34-5057) COMMENT On Feb 26, 1997
this sequence version replaced gi793764. FEATURES
Location/Qualifiers source
1..1803
/organism"Murinae gen. sp."
/note"source origin of sequence, either mouse or
rat, has not been
identified"
/db_xref"taxon39108"
/cell_line"NG108-15"
/cell_type"mouse neuroblastma-rat glioma
hybridoma" misc_signal 156..163
/note"AP-2 binding site"
GC_signal 647..655
/note"Sp1 binding site" TATA_signal
694..701 gene 748..1311
/gene"TA20" CDS
748..1311 /gene"TA20"
/function"neurite extensiion
activity and growth arrest
effect" /codon_start1
/db_xref"PIDd1005516"
/db_xref"PIDg793765"
/translation"MMKLWVPSRSLPNSPNHYRSFLSHTLHIRYNN
SLFISNTHLSRR
KLRVTNPIYTRKRSLNIFYLLIPSCRTRLILWIIYIYRNLKHWSTSTVRS
HSHSIYRL RPSMRTNIILRCHSYYKPPI
SHPIYWNNPSRMNLRGLLSRQSHLDPILRFPLHLTIYY
RGPSNRSPPLPPRNRIKQPNRIKLRCR"
polyA_site 1803 BASE COUNT 507 a 458
c 311 g 527 t ORIGIN 1
tcagtttttt tttttttttt tttttttttt tttttttttt
tttttttttg ttgattcatg 61 tccgtttaca
tttggtaagt tcacaggcct cagtcaacac aattggactg
ctcaggaaat 121 cctccttggt gaccgcagta
tacttggcct atgaacccaa gccacctatg gctaggtagg
181 agaagctcaa ctgtagggct gactttggaa gagaatgcac
atggctgtat cgacatttca 241 catggtggac
ctctggccag agtcagcagg ccgagggttc tcttccgggc
tgctccctca 301 ctgcttgact ctgcgtcagt
gcgtccatac tgtgggcgga cgttattgct atttgccttc
361 cattctgtac ggcattgcct ccatttagct ggagagggac
agagcctggt tctctagggc 421 gtttccattg
gggcctggtg acaatccaaa agatgagggc tccaaacacc
agaatcagaa 481 ggcccagcgt atttgtaaaa
acaccttctg gtgggaatga atggtacagg ggcgtttcag
541 gacaaagaac agcttttctg tcactcccat gagaaccgtc
gcaatcactg ttccgaagag 601 gaggagtcca
gaatacacgt gtatgggcat gacgattgcc cggagagagg
cggagcccat 661 ggaagcagaa agacgaaaaa
cacacccatt atttaaaatt attaaccact cattcattga
721 cctacctgcc ccatccaaca tttcatcatg atgaaacttt
gggtcccttc taggagtctg 781 cctaatagtc
caaatcatta caggtctttt cttagccata cactacacat
cagatacaat 841 aacagccttt tcatcagtaa
cacacatttg tcgagacgta aattacgggt gactaatccg
901 atatatacac gcaaacggag cctcaatatt ttttatttgc
ttattccttc atgtcggacg 961 aggcttatat
tatggatcat atacatttat agaaacctga aacattggag
tacttctact 1021 gttcgcagtc atagccacag
catttatagg ctacgtcctt ccatgaggac aaatatcatt
1081 ctgaggtgcc acagttatta caaacctcct atcagccatc
ccatatattg gaacaaccct 1141 agtcgaatga
atttgagggg gcttctcagt agacaaagcc accttgaccc
gattcttcgc 1201 tttccacttc atcttaccat
ttattatcgc ggccctagca atcgttcacc tcctcttcct
1261 ccacgaaaca ggatcaaaca acccaacagg attaaactca
gatgcagata aaattccatt 1321 tcacccctac
tatacatcaa agatatccta ggtatcctaa tcatattctt
aattctcata 1381 accctagtat tatttttccc
agacatacta ggagacccag acaactacat accagctaat
1441 ccactaaaca ccccacccca tattaaaccc gaatgatatt
tcctatttgc atacgccatt 1501 ctacgctcaa
tccccaataa actaggaggt gtcctagcct taatcttatc
tatcctaatt 1561 ttagccctaa tacctttcct
tcatacctca aagcaacgaa gcctaatatt ccgcccaatc
1621 acacaaattt tgtactgaat cctagtagcc aacctactta
tcttaacctg aattgggggc 1681 caaccagtag
acacccattt attatcattg gccaactagc ctccatctca
tacttctcaa 1741 tcatcttaat tcttatacca
atctcaggaa ttatcgaaga caaaatacta aaattatatc
1801 cat //
- Genbank
- Información preliminar sobre la secuencia
título, taxonomía, referencia. - Tabla de features cosas que se encuentran en la
secuencia. Cada feature puede tener qualifiers. - La secuencia misma.
- Un // indica fin de la entrada después puede
comenzar otra.
92Bases de datos formatos básicos
SwissProt Esquema parecido al de GenBank, pero
con mucha más información (función, estructura,
enfermedades asociadas...)
ID CYS3_YEAST STANDARD PRT 393
AA. AC P31373 DT 01-JUL-1993 (REL. 26,
CREATED) DE CYSTATHIONINE GAMMA-LYASE (EC
4.4.1.1) (GAMMA-CYSTATHIONASE). GN CYS3 OR CYI1
OR STR1 OR YAL012W OR FUN35. OS TAXONOMY OC
SACCHAROMYCETACEAE SACCHAROMYCES. RX
CITATION CC -!- CATALYTIC ACTIVITY
L-CYSTATHIONINE H(2)O L-CYSTEINE CC
NH(3) 2-OXOBUTANOATE. CC -!- COFACTOR
PYRIDOXAL PHOSPHATE. CC -!- PATHWAY FINAL STEP
IN THE TRANS-SULFURATION PATHWAY SYNTHESIZING CC
L-CYSTEINE FROM L-METHIONINE. CC -!-
SUBUNIT HOMOTETRAMER. CC -!- SUBCELLULAR
LOCATION CYTOPLASMIC. CC -!- SIMILARITY
BELONGS TO THE TRANS-SULFURATION ENZYMES
FAMILY. CC -------------------------------------
------------------------------------- CC
DISCLAMOR CC -----------------------------------
--------------------------------------- DR
DATABASE cross-reference KW CYSTEINE
BIOSYNTHESIS LYASE PYRIDOXAL PHOSPHATE. FT
INIT_MET 0 0 FT BINDING 203
203 PYRIDOXAL PHOSPHATE (BY SIMILARITY). SQ
SEQUENCE 393 AA 42411 MW 55BA2771 CRC32
TLQESDKFAT KAIHAGEHVD VHGSVIEPIS LSTTFKQSSP
ANPIGTYEYS RSQNPNRENL ERAVAALENA QYGLAFSSGS
ATTATILQSL PQGSHAVSIG DVYGGTHRYF TKVANAHGVE
TSFTNDLLND LPQLIKENTK LVWIETPTNP TLKVTDIQKV
ADLIKKHAAG QDVILVVDNT FLSPYISNPL NFGADIVVHS
ATKYINGHSD VVLGVLATNN KPLYERLQFL QNAIGAIPSP
FDAWLTHRGL KTLHLRVRQA ALSANKIAEF LAADKENVVA
VNYPGLKTHP NYDVVLKQHR DALGGGMISF RIKGGAEAAS
KFASSTRLFT LAESLGGIES LLEVPAVMTH GGIPKEAREA
SGVFDDLVRI SVGIEDTDDL LEDIKQALKQ ATN //
93Bases de datos formatos básicos
ASN1 (Abstract Syntax Notation) Es un estándar
es el formato interno en GenBank.
94Iremos mencionando otros formatos y otros
softwares y otras bases de datos en la medida en
que vayamos pasando por distintos
temas. http//www.ncbi.nlm.nih.gov/Entrez/