Title: Alignement de s
1Alignement de séquences biologiques
- Objectifs poursuivis
- Alignement de séquences généralités
- Alignement de deux séquences
- Recherche rapide de similarités dans les banques
de séquences - Alignement de n séquences (alignement multiple)
- Recherche de motifs dans les séquences
2Objectifs poursuivis
- Les alignements permettent de comparer des
séquences biologiques. Cette comparaison est
nécessaire dans différents types détudes - Identification de gènes homologues
- Recherche de contraintes fonctionnelles communes
à un ensemble de gènes ou de protéines. - Prédiction de structure (ARN, protéine)
- Prédiction de fonction
- Étude des processus créateurs de variabilité
entre les séquences. - Reconstitution des relations évolutives entre
séquences. - Choix d'amorces PCR
- Construction de contigs (séquençage)
- ...
3Analyse comparative des gènes de b-actine de
l'homme et de la carpe
4Prédiction de structure d'ARN
5Phylogénie moléculaire
6Alignement représentation
- Les résidus (nucléotides, acides-aminés) sont
superposés de façon à maximiser la similarité
entre les séquences. - G T T A A G G C G G G A A A
- G T T G C G A G G A C A
-
- Mutations
- Substitution (mismatch)
- Insertion
- Délétion
- Insertions ou délétions indels (gap).
7Quel est le bon alignement ?
- G T T A C G A G T T A C G A
- G T T - G G A G T T G - G A
-
- OU
- G T T A C - G A
- G T T - - G G A
-
- Pour le biologiste, généralement, le bon
alignement est celui qui représente le scénario
évolutif le plus probable - Autres choix possibles (exemple erreurs de
séquençage pour la construction de contigs)
8Fonction de score de similarité
- G T T A A G G C G G G A A A
- G T T G C G A G G A C A
-
- Score
- Exemple
- identité 1
- mismatch 0
- gap -1
- Score 10 - 4 6
9Modèle d'évolution (ADN)
- Transition A lt-gt G T lt-gt C
- Transversions autres substitutions
- p(transition) gt p(transversion)
- G T T A C G A G T T A C G A
- G T T - G G A G T T G - G A
- .
10Matrice de substitution (ADN)
-
- Gap -1
- G T T A C G A G T T A C G A
- G T T - G G A G T T G - G A
- 1 1 1 -1 0 1 1 1 1 1 .5 -1 1 1
- score 4 score 4.5
11Modèle d'évolution (protéines)
- Code génétique
- Asp (GAC, GAU) ? Tyr (UAC, UAU) 1 mutation
- Asp (GAC, GAU) ? Cys (UGC, UGU) 2 mutations
- Asp (GAC, GAU) ? Trp (UGG) 3 mutations
- Propriétés physico-chimiques des acides-aminés
(acidité, hydrophobicité, encombrement stérique,
etc.) - Matrices de Dayhoff (PAM), BLOSUM mesures des
fréquences de substitutions dans des alignements
de protéines homologues - PAM 60, PAM 120, PAM 250 (extrapolations à partir
de PAM 15) - BLOSUM 80, BLOSUM 62, BLOSUM 40 (basé sur des
alignements de blocs)
Substitutions conservatrices
12Matrice de substitution (protéines)
-
- D (Asp) E(Glu) F(Phe) G(Gly) W(Trp)
- M R D W - G F M R - D W G F
- M R - W D G F M R W D - G F
-
- Substitutions multiples (exemple D ? E ? D)
13Pondération des gaps
- TGATATCGCCA TGATATCGCCA
- TGAT---TCCA TGAT-T--CCA
-
- Gap de longueur k Pénalités linéaires w do
de k - do pénalité pour l'ouverture d'un gap
- de pénalité pour l'extension d'un gap
14Pondération des gaps (plus réaliste)
- Estimation des paramètres sur des alignements
"vrais" (par exemple basés sur l'alignement de
structures connues) - Gap de longueur k
- Pénalités logarithmiques w do de log(k)
- w f(log(k), log(PAM), résidus, structure)
- PAM la probabilité d'un gap augmente avec la
distance évolutive - Résidus, structure la probabilité d'un gap est
plus forte dans une boucle (hydrophile) que dans
le cœur hydrophobe des protéines
15Similarité globale, locale
16Similarité, distance, homologie
- Deux séquences sont homologues ssi elles ont un
ancêtre commun - 30 d'identité entre deux protéines gt homologie,
sauf si - Fragment similaire court (lt 100 aa)
- Biais compositionnel (régions de faible
complexité, par exemple riche en Pro, Ala)
17Le nombre d'alignements
- Waterman (1984) a donné la formule récursive
permettant de calculer le nombre total
dalignements possibles entre deux séquences
comportant m et n résidus - Dautre part, Laquer (1978) a démontré que
- Le nombre total dalignements possibles entre
deux séquences de même longueur croît de façon
exponentielle.
18Algorithmes d'alignement de deux séquences
- Algorithme description d'une suite d'opérations
pour atteindre un objectif - Calculer l'ensemble de tous les alignements
possibles et garder celui de meilleur score - Trop long (nombre d'alignements f(exp(L))
- Pas efficace (on recalcule souvent les mêmes
valeurs) - G T T A C G A G T T A C G A
- G T T - G G A G T T G - G A
-
- Algorithme de programmation dynamique
- Calcul de proche en proche de l'alignement optimal
19Définition de la matrice de chemins
- Les alignements peuvent être représentés sous la
forme dune trajectoire dans une matrice de
chemins. - Pour chaque trajectoire on peut calculer un score
et il faut donc trouver celle qui optimise ce
score. - Soit deux séquences A et B de longueurs
respectives m et n définissant une matrice de
chemin S. Dans chaque case de cette matrice on va
stocker S(i, j), le score optimum de la
trajectoire permettant darriver à cette case.
20Exemple de matrice de chemin
21Construction récursive de la matrice
- Soit la case de coordonnées (i, j). Quelle que
soit la trajectoire retenue, elle passera
forcément par lune des trois cases la précédant,
de coordonnées (i1, j), (i1, j1), (i, j1). - Supposons que lon connaisse les scores optimums
des trois cases précédentes, dans ce cas la
valeur optimum du score dans la case (i, j) sera
égale à - Needleman et Wunsh, 1970
22Bords de la matrice
- Les cases situées sur le bord du haut ou le bord
gauche de la matrice ne possèdent plus le total
requis de trois cases précédentes. - Pour pallier ce problème on ajoute une ligne (0,
j) et une colonne (i, 0) supplémentaires. Le
balayage de la matrice ne se faisant plus quavec
des indices 1 on ne rencontre plus de cases
nécessitant un traitement particulier.
23Bords de la matrice (suite)
- La ligne et la colonne supplémentaires doivent
être initialisées pour pouvoir construire la
matrice. - Il existe plusieurs manières de faire selon la
façon dont on veut comptabiliser les gains ou
pertes déléments au niveau des extrémités. - En particulier, il faut savoir si on veut
pénaliser ou non les éléments terminaux non
appariés (ce que lon appelle les extrémités
flottantes). - - - - A T T C G T A T - - - T C G T
- A T G A T T C G T A T G A T T C G T
-
24Bords de la matrice (fin)
- Pénalisation des gaps terminaux
- Pas de pénalisation des gaps terminaux
25(No Transcript)
26 Identité 1 Mismatch 0 Gap interne -2 Gap
terminal 0
27(No Transcript)
28(No Transcript)
29Alignement local (Smith-Waterman)
- Initialisation des bords de la matrice de chemin
à 0
30Temps de calcul et occupation de la mémoire pour
l'alignement de deux séquences de longueur n et m
- Needleman-Wunsh
- Temps O(n m)
- Espace mémoire O(n m)
- Amélioration éliminer les chemins qui
s'éloignent trop de la diagonale - Smith-Waterman
- Temps O(n m)
- Espace mémoire O(n m)
- Amélioration de Smith-Waterman
- Temps O(n m)
- Espace mémoire O(n)
31Dot Plot
- Représentation graphique de régions d'identité ou
de similarité entre deux séquences - Utilisation de fenêtres et de seuils pour réduire
le bruit de fond - Visualisation des inversion, duplications,
palindromes
32(No Transcript)
33(No Transcript)
34Recherche rapide de similarités dans les banques
de séquences
- Comparaison d'une séquence à toute une banque de
données de séquences, comparaisons entre deux
banques - Algorithmes exhaustifs (Smith-Waterman)
- DAP, BLITZ, SSEARCH,
- Algorithmes basés sur des heuristiques
- FASTA
- 1 - recherche de k-tuplets identiques
- 2 - alignement global, ancré sur la région
similaire - BLAST
- 1 - recherche de mots similaires
- 2 - extension des blocs similaires
35BLAST
36Alignement par bloc ou alignement global
comparaison BLAST / FASTA
37Stratégies de recherche de similarités ADN ou
protéine ?
- Limites des recherches de similarité au niveau
ADN - Alphabet réduit (4 lettres)
- Dégénérescence du code génétique
- Mais tout n'est pas codant
- régions régulatrices, ARN structuraux, ...
Deux brins!
38Différentes versions de BLAST adaptées à
différents problèmes
- blastp protéine/protéine
- blastn ADN/ADN (utile pour non-codant)
- blastx ADN-traduit/protéine (utile pour
séquences codantes non-identifiées plus sensible
que blastn) - tblastn protéine/ADN-traduit (utile pour
rechercher des homologues de gènes protéiques
dans un génome non-entièrement annoté plus
sensible que blastn)
39Choix de la matrice de substitutions
- Différentes matrices de substitutions, adaptées à
différentes distances évolutives - BLOSUM 62 convient pour une large gamme de
distances évolutives - Combiner plusieurs matrices
40Évaluation statistique de la similarité
- Parmi les similarités qui ont été détectées,
quelles sont celles qui reflètent des relations
biologiquement importantes, quelles sont celles
qui sont simplement dues au hasard ? - Distribution des scores d'alignements locaux
optimaux entre séquences non homologues - Probabilité qu'une similarité de score S soit
simplement due au hasard
Nombre d'occurrences
Score
41Traitement du bruit de fond filtres et masques
- Similarités sans intérêt biologique
- Séquences de faible complexité (protéines, ADN)
- 40 des protéines ADN microsatellites
- 15 du total des résidus exemple
CACACACACACACACACA - Ala, Gly, Pro, Ser, Glu, Gln
- logiciels de filtrage SEG, XNU, DUST
- RSPPR--KPQGPPQQEGNNPQGPPPPAGGNPQQPQAPPAGQPQGPP
- . .
- QGPPRPGNQQCPPPQGG--PQGPPRP--GNQQRP--PPQGGPQGPP
- Séquences abondantes
- 3000 Immunoglobulines dans GenBank
- 106 Alu, 105 L1 dans le génome humain
- logiciels de masquage XBLAST, RepeatMasker
42Bilan quelle approche adopter ?
- algorithme
- matrices de substitution, pondération des gaps
- stratégie de recherche (nucléique, protéique)
- traitement du bruit de fond
- complétude des banques de données
- 1 - logiciel rapide, paramètres par défaut
- 2 - filtrage éventuel
- 3 - changement des paramètres (matrices, W, k,
etc.) - 4 - changement d'algorithme
- 5 - répéter la recherche régulièrement
43Alignement multiple programmation dynamique
- La généralisation de lalgorithme précédent au
traitement simultané de plus de deux séquences
est théoriquement possible mais inexploitable en
pratique. - Pour un alignement de n séquences le nombre de
chemins possibles pour chaque case est de 2n 1. - On a une croissance exponentielle du temps de
calcul et de l'espace mémoire requis en fonction
du nombre de séquences. - Problème du choix d une fonction de score
- Utilisation de méthodes heuristiques.
44Alignement progressif
- Approche consistant à construire itérativement
lalignement multiple en groupant des alignements
de paires de séquences. - Ce genre de méthodes comporte trois étapes
- Lalignement des paires de séquences.
- Le groupement des séquences.
- Le groupement des alignements (alignement
progressif). - CLUSTAL (Thompson et al., 1994), le programme
dalignements multiples le plus utilisé à lheure
actuelle utilise cette approche.
45(No Transcript)
46Pénalités initiales pour les gaps
- CLUSTAL utilise une fonction de pénalité linéaire
pour les gaps. De plus, les valeurs initiales de
do et de sont corrigées en fonction de nombreux
facteurs - Le degré de similarité entre les séquences
- do µ identité(A, B)
- La longueur des séquences
- do µ logmin(m, n)
- La différence de longueur entre les deux
séquences - de µ 1.0 logn/m
- Ces pondérations sont prises en compte au moment
de lalignement des paires de séquences.
47Pénalités en fonction de la position
- CLUSTAL introduit également des pondérations qui
sont dépendantes de la position des gaps. - Diminution de la pénalité à lemplacement de gaps
préexistants. - Augmentation de la pénalité au voisinage (8
résidus) de gaps préexistants. - Réduction de la pénalité au niveau de régions
contenant des suites dacides aminés hydrophiles
( 5 résidus). - Modification spécifiques en fonction des acides
aminés présents (e.g., la pénalité est plus
faible avec Gly, Asn, Pro). - Ces pondérations sont prises en compte au moment
du groupement des alignements.
48Alignement progressif pas toujours optimal
- Un seul des ces trois alignements est optimal
49Global Alignments, Block alignments
50DialignMorgenstern et al. 1996 PNAS 9312098
- Search for similar blocks without gap
- Select the best combination of consistent similar
blocks (uniforms or not) heuristic (Abdeddaim
1997) - Alignment anchored on blocks
- Slower than progressive alignment, but better
when sequences contain large indels - Do not try to align non-conserved regions
51Local Multiple Alignments
52Overview
- ClustalW
- Dialign
- T-coffee
- MEME
53Éditeur d alignement multiple
54Special cases
- Alignment of coding DNA sequences
- L F L F
- CTT TTC CTT TTC
- CTC --- --- CTC
- L - - L
- alignment of protein sequences
- back-translation of the protein alignment into a
DNA alignment - Alignment cDNA / genomic DNA SIM4
- Alignment protein / genomic DNA GeneWise
55Limits of pairwise comparison (BLAST, FASTA, ...)
- Seq A CGRRLILFMLATCGECDTDSSE
HICCIKQCDVQDIIRVCC -
- Insulin CGSHLVEALYLVCGERGFFYTP
EQCCTSICSLYQLENYCN -
- Seq B YQSHLLIVLLAITLECFFSDRK
KRQWISIFDLQTLRPMTA - Pairwise comparison
- Insulin / Seq A 25 identity
- Insulin / Seq B 25 identity
56Insulin gene family sequence alignment
- B-chain
A-chain - INSL4 Q14641 ELRGCGPRFGKHLLSYCPMPEKTFTTTPGG...
x58 ....SGRHRFDPFCCEVICDDGTSVKLCT - INSL3 P51460 REKLCGHHFVRALVRVCGGPRWSTEA.......
x51 ....AAATNPARYCCLSGCTQQDLLTLCPY - RLN1 P04808 VIKLCGRELVRAQIAICGMSTWS..........x
109 ....PYVALFEKCCLIGCTKRSLAKYC - BBXA P26732 VHTYCGRHLARTLADLCWEAGVD..........x
25 ........GIVDECCLRPCSVDVLLSYC - BBXB P26733 ARTYCGRHLADTLADLCF--GVE..........
x23 ........GVVDECCFRPCTLDVLLSYCG - BBXC P26735 SQFYCGDFLARTMSILCWPDMP...........x
25 ........GIVDECCYRPCTTDVLKLYCDKQI - BBXD P26736 GHIYCGRYLAYKMADLCWRAGFE..........x
25 ........GIADECCLQPCTNDVLLSYC - LIRP P15131 VARYCGEKLSNALKLVCRGNYNTMF........
x58 ........GVFDECCRKSCSISELQTYCGRR - MIP I P07223 RRGVCGSALADLVDFACSSSNQPAMV......
.x29 ....QGTTNIVCECCMKPCTLSELRQYCP - MIP II P25289 PRGICGSNLAGFRAFICSNQNSPSMV......
.x44 ....QRTTNLVCECCFNYCTPDVVRKYCY - MIP III P80090 PRGLCGSTLANMVQWLCSTYTTSSKV.......
x30 ....ESRPSIVCECCFNQCTVQELLAYC - MIP V P31241 PRGICGSDLADLRAFICSRRNQPAMV.......x
44 ....QRTTNLVCECCYNVCTVDVFYEYCY - MIP VII P91797 PRGLCGNRLARAHANLCFLLRNTYPDIFPR...
x86 ..EVMAEPSLVCDCCYNECSVRKLATYC - ILP P22334 AEYLCGSTLADVLSFVCGNRGYNSQP.......
x31 ........GLVEECCYNVCDYSQLESYCNPYS - INS P01308 NQHLCGSHLVEALYLVCGERGFFYTPKT.....
x35 ........GIVEQCCTSICSLYQLENYCN - IGF1 P01343 PETLCGAELVDALQFVCGDRGFYF.........
x12 ........GIVDECCFRSCDLRRLEMYCAPLK - IGF2 P01344 SETLCGGELVDTLQFVCGDRGFYF.........
x12 ........GIVEECCFRSCDLALLETYCATPA
57Biomolecular Sequence Motif Descriptors
- Exact word e.g. EcoRI restriction site GAATTC
- Consensus e.g. TATA box TATAWAWR
- Regular expression e.g. insulins PROSITE pattern
- C-C-P-x(2-4)-C-STDNEKPI-x(3)-LIVMFS-x(3)-C
- Weight matrix position-specific weighting of
substitutions - Generalised profiles (hidden markov models)
position-specific weighting of substitutions and
indels
58Example of weight matrix
- Splice donnor sites of vertebrates frequency ()
of the four bases at each position - log transformation ? weight matrix
- Base Position
- -3 -2 -1 1 2 3 4 5 6
- A 33 60 8 0 0 49 71 6 15
- C 37 13 4 0 0 3 7 5 19
- G 18 14 81 100 0 45 12 84 20
- T 12 13 7 0 100 3 9 5 46
- Cons. M A G G T R A G T
-
59Searching for distantly related homologues in
sequence databases
- 1- search for homologues (e.g. BLAST)
- 2- align homologues (e.g. CLUSTAL, MEME)
- 3- compute a profile from the multiple alignment
- 4- compare the profile to a sequence database
(e.g. MAST, pfsearch) - pfsearch http//www.isrec.isb-sib.ch/profile/prof
ile.html - MEME/MAST http//meme.sdsc.edu/meme/website/
60PSI-BLAST
- Position-Specific Iterated BLAST
- 1- classical BLAST search
- 2- compute a profile with significant BLAST hits
- 3- BLAST search based on the profile
- 4 -repeat steps 2-3 up to convergence
- More sensitive than Smith-Waterman
- 40 times faster
61Comparison of a sequence to a database of protein
motifs
- Databases PROSITE, PFAM, PRODOM, , INTERPRO
- Search tools
- ProfileScan http//hits.isb-sib.ch/cgi-bin/PFSCA
N