Title: Atelier de BioInformatique (Universit
1Atelier de BioInformatique(Université Paris
Pierre et Marie Curie - Paris 6)
motifs
Nadia Pisanti
Phylogénie-systématique
structures
Henry Soldano
Mathilde Carpentier
Cyril Gallut
Dominique Bouvier
HIV - co-mutations impossibles
Joel Pothier
Anne Vanet
duplications
Isabelle Gonçalves
Anne-Laure Abraham
Sophie Brouillet
Eduardo Rocha
Bernard Billoud
Emmanuelle Ollivier
Marie Touchon
Alexis Sarrazin
Génomique comparative
Martine Boccara
Guillaume Achaz
Petits ARNs
Etienne Loire
répétitions
2Recherche de motifs stricts répétés KMR (1972)
k
k
k
k
2k
2k
- Les occurrences de motif strictement répétés de
longueur 2k sont construits à partir des
ensembles de motifs strictement répétés de
longueur k qui sont juxtaposés
Algorithme en O(n.log(kmax)) pour trouver les
patterns répétés de longueur kmax
3Motifs flexibles KMRC
Un motif nest plus défini comme une succession
de symboles, mais comme une succession de cliques
de symboles
S caaaabaaacb
2 2 sC 21111111121
c1
c2
- Ici m est un motif flexible répété de longueur
3. - m c1-c1-c2 aux positions 4 et 8
- Note plusieurs motifs peuvent exister à la même
position ici c1-c1-c1 a aussi une occurrence en
position 4
Soldano et al., Pat. Recog. Lett.,16233-245, 1995
4Motifs flexibles KMRC (2)
Comme dans KMR, les motifs de longueur 2-k sont
construits à partir des motifs de longueur k.
Ici, un motif est une clique de motifs
similaires, et à une position dans la chaine
peuvent exister plusieurs cliques de motifs.
Lalgorithme est en O(n.log(k).gk) (g étant la
dégénescence moyenne le nombre moyen de cliques
auxquelles appartient un symbole)
En biologie, lidentité nest généralement pas
pertinente, mais la similarité est intéressante
5Motifs flexibles dans les séquences (KMRC)
Cet algorithme peut être utilisé pour trouver
des motifs flexibles (flous) dans plusieurs
séquences de protéines (alignement multiple par
blocs)
Les cliques de symboles définissent la
similarité Exemples - ensembles recouvrant
daminoacides regroupés par leurs propriétés
(hydrophobes, hydrophiles, petits, gros,
polaires, chargés, etc) - ensembles recouvrant
daminoacides regroupés par un seuil sur leurs
valeurs de score dans une matrice de similarité
(ex BLOSUM or PAM)
6Seuil -gt cliques
Matrices de similaritéex PAM250
La similarité nest pas transitive !
7Motifs flexibles dans les structures (KMRC)
Trouver les motifs 3D dans plusieurs structures
de protéines Les structures sont décrites comme
des chaînes de symboles, et les structures
similaires doivent être composées de symboles
similaires -gt Utilisation de coordonnées
internes discretisées (angles) comme alphabet
f,y ou a,t angles
8Description linéaire de la structure 3D des
protéines
C
a
i2
Ri2
Ri1
Ri1
C
a
i1
C
a
w
N
i1
i1
F,Y,w
i
N
i1
a
C
a,t
i
i
C
y
i
i
C
a
t
i
i
C
a
f
i
N
Ri
i
Ri
i
C
N
i-1
i
C
i-1
C
a
i-1
C
a
Ri-1
i-1
Ri-1
R
R
i2
i
O
'
O
'
a
i-1
i
C
a
i
i
C
a
i2
t
N
'
i1
C
a
i
C
a
i-1
N
'
N
'
i1
i
i
O
'
i
R
R
i-1
i1
9Des coordonnées internes aux symboles
a
Besoin absolu de similarité (KMRC), pas
didentité !
10Motifs 3D flexibles KMRC
Trouver des motifs flexibles de symboles a Ici,
les cliques de symboles sont des sous ensembles
recouvrant dangles a La similarité est un point
critique (lidentité manquerait les similarités
structurales).
-180
180
0
a10 , a20 , a30 , a40 , a50
a20 , a30 , a40 , a50 , a60
11Motifs 3D flexibles KMRC Exemples
3 Cytochromes P450 TERP,BM3,CAM
PMWIATKHADVMQIG VTRYLSSQRLIKEAC GHWIATRGQLIREAY P
THTAYRGLTLNWFQPASIRKLEENIRRIAQASVQR KNWKKAHNILLPSF
SQQAMKGYHAMMVDIAVQLVQK PEQRQFRALANQVVGMPVVDKLENRIQ
ELACSLIES CDFMTDCALYYPLHVVMTALGVP IEVPEDMTRLTLDTI
GLCGFNYR CNFTEDYAEPFPIRIFMLLAGLP EDDEPLMLKLTQDF I
TSMVRALDEAMNK EDIPHLKYLTDQMT FHETIATFYDYFNGFTVDRR
S FQEDIKVMNDLVDKIIADRKA FAEAKEALYDYLIPIIEQRRQ CPK
DDVMSLLAN EQSDDLLTHMLN KPGTDAISIVAN
Modélisation du cytochrome EryF Jean et al.,
Proteins, (1997), 28, 1-16.
12Escan
Même principe mais ici représentation en
points - Un motif de taille k k points reliés
par des distances similaires (i.e. dans une même
clique) - Pas dordre séquentiel - Croissance des
motifs k-gtk1
(Escalier et al., Journal of Computational
Biology (1998), 5(1) 41-56)
133DMSS Catalytic Site Atlas
RPBS http//bioserv.rpbs.jussieu.frAlland C.,
et al. Nucleic Acid Res. (2005) 33 W44 - W49.
143DMSS (2)
15Similarité nature des éléments OU relations
entre eux
Bach BWV846
16Similarité séries de notes de même hauteur?-gt
plutôt séries de notes transposés
Bach BWV846
17-gt Similarité des relations entre éléments
Bach BWV846
18Motifs relationels (KMRRel)
Ici, des motifs similaires sont définis non plus
comme des successions de symboles similaires,
mais par des successions déléments qui partagent
les mêmes inter-relations.
r13
r13
r23
r12
r23
r12
r13 r12 r23
Pattern m
Exemple de relations être au dessus de,
être en dessous de, être de même niveau que,
19Un pas plus loin motifs relationels
flexibles(KMRRel)
Les relations entre éléments ne sont pas
forcément les mêmes, il suffit quelles soient
similaires
rc
rb
rb
ra
ra
ra
CR2 CR1 CR1
Motif m
ra
rb
rc
CR1
CR2
Cliques de relations être au dessus de,
être de même niveau que, être en dessous
de, être de même niveau que,
Cliques de relations
20Applications générales
Musique détecter phrasés dans plusieurs
clés. Structures 3D des protéines distance entre
atomes vue comme une relation. Nombres et suite
numérique. Points dans le plan/espace avec des
distances ou positions.
N. Pisanti, et al , Lecture Note in Computer
Science (proceedings CPM, Combinatorial Pattern
Matching, Volume 3537, may 2005, pages 229 - 240.
21Application aux structures 3D distances (1)
Les relations entre les points sont définies sur
leurs distances internes (discrétisées) r(i,j)
rk ssi rk dist(i,j) lt rk ? Les relations
r(i,j) et r(i,j) sont considérées comme
similaires si elles appartiennent à un même
sous-ensemble rk, rk1, rk2, cad. si r(i,
j) - r(i, j) 2 Ceci implique pour les
distances euclidiennes dist(i,j) -
dist(i,j) lt 3?
r1
r2
r3
rk1
rk2
rk
d(i,j)
d(i ,j)
22Application aux structures 3D distances (2)
Cliques de relations 1 2 3 4 5 6 7 8
9 10 . (définies sur les distances)
23Application aux structures 3D pectates lyases
Ex alignement structural multiple de 4 pectate
et pectines lyases 1PCL,1IDJ,2BSP,1PLU
1PCL AEWDAAVIDNSTNVWVDHVT 1IDJ
WGGDAITLDDCDLVWIDHVT 2BSP SQYDNITINGGTHIWIDHCT
1PLU KDGDMIRVDDSPNVWVDHNE 1PCL
LRVTFHNNVFDRVTERAPRV 1IDJ DLVTMKGNYIYHTSGRSPKV
2BSP LKITLHHNRYKNIVQKAPRV 1PLU
RNITYHHNYYNDVNARLPLQ 1PCL TERAPRVRFGSIHAYNNVYL
1IDJ GRSPKVQDNTLLHCVNNYFY 2BSP
VQKAPRVRFGQVHVYNNYYE 1PLU NARLPLQRGGLVHAYNNLYT
1PCL AQTMTSSLATSINNNAGYGK 1IDJ
SASAYTSVASRVVANAGQGN 2BSP SIDASANVKSNVINQAGAGK
1PLU SPVSAQCVKDKLPGYAGVGK
24MAFIA 2-diagonales -gt m-diagonales
m-diagonale en m dimensions ici, les
3-diagonales sont les combinaisons de trois
2-diagonales de dimension 2.
25Graphes de colonnes
Protein 1
Protein 2
- un résidu est un noeud - si deux résidus sont
dans une 2-diagonale, ils sont connectés par un
lien
Protein 3
Sélection des meilleures m-diagonales (les plus
connectées)
26Exemple motifs 3D cytochromes P450
27GAKUSA gibbs sampling
Amélioration prise en compte de la similarité
des symboles, c-a-d le flou nécessaire pour les
structures (et les séquences). Lexistence dun
angle à une position du motif augmente la
probabilité des angles similaires à cet angle à
cette même position.
S1
P(Sij)
S2
S3
Si
28Exemple cytochromes P450
29Projet EVOLREP 3D-gt1D et 1D-gt3D
- 3D-gt1D Etude exhaustive des répétitions
internes structurales (3D) dans les protéines, et
examen de la ressemblance des séquences
nucléiques de ces répétitions structurales - 1D-gt3D Etude exhaustive des répétitions
nucléiques codantes proches ( intra-géniques )
et examen de la ressemblance de leur structure 3D - But Etudier la pression de sélection sur les
séquences dues à la structure 3D
30Swelfe dérivé de lalgorithme de Smith et
Waterman
Alignement local par programmation dynamique
i
i-1
S1
S2
j-1
j
S3
Max (ou 0)
Substitution (score(i,j))
gap
- Suppression de la diagonale (identité)
- Sélection du meilleur chemin
- Suppression de la région correspondante/ou du
chemin - Conservation des k meilleurs scores
31Systèmes de scores
Au niveau des séquences nucléiques
Substitution S 0,5 x ?(i,j) x log4(pipj)
?(i,j) 1 si i ? j ?(i,j) -1 si i j pi ,
pj fréquences des bases i, j Gaps ouverture
4 extension 1 Au niveau des séquences
protéiques Substitutions matrice
Blosum62 Gaps ouverture 8 extension 3 Au
niveau des structures Substitution
30(1-pi)(1-pj)(1-?) ? - ?angle et RMS lt
4,5 Å pi , pj fréquence de langle i, j dans la
PDB ? 0,4 Gaps ouverture 200 extension 50
32Exemple duplication 3D symétrique axialement
Analyse intégrée dune duplication directe
proche interne (DDPI) dans la protéine 1a9x
(carbamyl phosphate synthétase) et son gène.
33Résultats globaux (1)
Critères de sélection (3D) RMS des 2
fragments superposés lt 4,5 Å Score gt 350 (12
paires dangles égaux successifs) Score /
longueur gt 25 Modèle probabiliste destimation
des duplications attendues (Mixture Transition
Distribution)
Répartition des scores
Effectifs des duplications
Score de la séquence protéique correspondant à la
duplication 3D (matrice BLOSUM62, gap 10)
80
Score blosum
0
Duplications 3D largement non détectables par des
méthodes danalyse de la séquence
34Résultats globaux (2)
Échantillon de départ 7952 séquences
protéiques nucléiques structures
744 structures
401
10
218
115
129
340
48
721 séquencesprotéiques
302 séquencesnucléiques
35Classification
Familles de structuresCytochromesP450
36Reconnaissance de repliements FROST
ProteinDataBank (PDB)
1) Cœurs
2) Stats -gt Energie
--------------
A
L -1.2
A
I -2.2
...
Marin A., et al. (2002), Proteins, 49(4) 493-509
37coeur
--------------
38Séquence sur coeur
V
I -2.3
L
N -4.2
GGINVLAGSLLNNS
L
G -5.1
-gt énergie de la séquence sur le cœur
compatibilité séquence/structure
39A suivre
Problème définition des coeurs (ANR PROTEUS- X,
IRISA, MIG, ENS, ABI)