Atelier de BioInformatique (Universit - PowerPoint PPT Presentation

1 / 39
About This Presentation
Title:

Atelier de BioInformatique (Universit

Description:

Atelier de BioInformatique (Universit Paris Pierre et Marie Curie - Paris 6) motifs Nadia Pisanti Phylog nie-syst matique structures Henry Soldano Mathilde Carpentier – PowerPoint PPT presentation

Number of Views:138
Avg rating:3.0/5.0
Slides: 40
Provided by: wwwabiSnv
Category:

less

Transcript and Presenter's Notes

Title: Atelier de BioInformatique (Universit


1
Atelier de BioInformatique(Université Paris
Pierre et Marie Curie - Paris 6)
motifs
Nadia Pisanti
Phylogénie-systématique
structures
Henry Soldano
Mathilde Carpentier
Cyril Gallut
Dominique Bouvier
HIV - co-mutations impossibles
Joel Pothier
Anne Vanet
duplications
Isabelle Gonçalves
Anne-Laure Abraham
Sophie Brouillet
Eduardo Rocha
Bernard Billoud
Emmanuelle Ollivier
Marie Touchon
Alexis Sarrazin
Génomique comparative
Martine Boccara
Guillaume Achaz
Petits ARNs
Etienne Loire
répétitions
2
Recherche de motifs stricts répétés KMR (1972)
k
k
k
k
2k
2k
- Les occurrences de motif strictement répétés de
longueur 2k sont construits à partir des
ensembles de motifs strictement répétés de
longueur k qui sont juxtaposés
Algorithme en O(n.log(kmax)) pour trouver les
patterns répétés de longueur kmax
3
Motifs flexibles KMRC
Un motif nest plus défini comme une succession
de symboles, mais comme une succession de cliques
de symboles
S caaaabaaacb
2 2 sC 21111111121
c1
c2
  • Ici m est un motif flexible répété de longueur
    3.
  • m c1-c1-c2 aux positions 4 et 8
  • Note plusieurs motifs peuvent exister à la même
    position ici c1-c1-c1 a aussi une occurrence en
    position 4

Soldano et al., Pat. Recog. Lett.,16233-245, 1995
4
Motifs flexibles KMRC (2)
Comme dans KMR, les motifs de longueur 2-k sont
construits à partir des motifs de longueur k.
Ici, un motif est une clique de motifs
similaires, et à une position dans la chaine
peuvent exister plusieurs cliques de motifs.
Lalgorithme est en O(n.log(k).gk) (g étant la
dégénescence moyenne le nombre moyen de cliques
auxquelles appartient un symbole)
En biologie, lidentité nest généralement pas
pertinente, mais la similarité est intéressante
5
Motifs flexibles dans les séquences (KMRC)
Cet algorithme peut être utilisé pour trouver
des motifs flexibles (flous) dans plusieurs
séquences de protéines (alignement multiple par
blocs)
Les cliques de symboles définissent la
similarité Exemples - ensembles recouvrant
daminoacides regroupés par leurs propriétés
(hydrophobes, hydrophiles, petits, gros,
polaires, chargés, etc) - ensembles recouvrant
daminoacides regroupés par un seuil sur leurs
valeurs de score dans une matrice de similarité
(ex BLOSUM or PAM)
6
Seuil -gt cliques
Matrices de similaritéex PAM250
La similarité nest pas transitive !
7
Motifs flexibles dans les structures (KMRC)
Trouver les motifs 3D dans plusieurs structures
de protéines Les structures sont décrites comme
des chaînes de symboles, et les structures
similaires doivent être composées de symboles
similaires -gt Utilisation de coordonnées
internes discretisées (angles) comme alphabet
f,y ou a,t angles
8
Description  linéaire  de la structure 3D des
protéines
C
a
i2
Ri2
Ri1
Ri1
C
a
i1
C
a
w
N
i1
i1
F,Y,w
i
N
i1
a
C
a,t
i
i
C
y
i
i
C
a
t
i
i
C
a
f
i
N
Ri
i
Ri
i
C
N
i-1
i
C
i-1
C
a
i-1
C
a
Ri-1
i-1
Ri-1
R
R
i2
i
O
'
O
'
a
i-1
i
C
a
i
i
C
a
i2
t
N
'
i1
C
a
i
C
a
i-1
N
'
N
'
i1
i
i
O
'
i
R
R
i-1
i1
9
Des coordonnées internes aux symboles
a
Besoin absolu de similarité (KMRC), pas
didentité !
10
Motifs 3D flexibles KMRC
Trouver des motifs flexibles de symboles a Ici,
les cliques de symboles sont des sous ensembles
recouvrant dangles a La similarité est un point
critique (lidentité manquerait les similarités
structurales).
-180
180
0
a10 , a20 , a30 , a40 , a50
a20 , a30 , a40 , a50 , a60
11
Motifs 3D flexibles KMRC Exemples
3 Cytochromes P450 TERP,BM3,CAM
PMWIATKHADVMQIG VTRYLSSQRLIKEAC GHWIATRGQLIREAY P
THTAYRGLTLNWFQPASIRKLEENIRRIAQASVQR KNWKKAHNILLPSF
SQQAMKGYHAMMVDIAVQLVQK PEQRQFRALANQVVGMPVVDKLENRIQ
ELACSLIES CDFMTDCALYYPLHVVMTALGVP IEVPEDMTRLTLDTI
GLCGFNYR CNFTEDYAEPFPIRIFMLLAGLP EDDEPLMLKLTQDF I
TSMVRALDEAMNK EDIPHLKYLTDQMT FHETIATFYDYFNGFTVDRR
S FQEDIKVMNDLVDKIIADRKA FAEAKEALYDYLIPIIEQRRQ CPK
DDVMSLLAN EQSDDLLTHMLN KPGTDAISIVAN
Modélisation du cytochrome EryF Jean et al.,
Proteins, (1997), 28, 1-16.
12
Escan
Même principe mais ici représentation en
points - Un motif de taille k k points reliés
par des distances similaires (i.e. dans une même
clique) - Pas dordre séquentiel - Croissance des
motifs k-gtk1
(Escalier et al., Journal of Computational
Biology (1998), 5(1) 41-56)
13
3DMSS Catalytic Site Atlas
RPBS http//bioserv.rpbs.jussieu.frAlland C.,
et al. Nucleic Acid Res. (2005) 33 W44 - W49.
14
3DMSS (2)
15
Similarité nature des éléments OU relations
entre eux
Bach BWV846
16
Similarité séries de notes de même hauteur?-gt
plutôt séries de notes transposés
Bach BWV846
17
-gt Similarité des relations entre éléments
Bach BWV846
18
Motifs relationels (KMRRel)
Ici, des motifs similaires sont définis non plus
comme des successions de symboles similaires,
mais par des successions déléments qui partagent
les mêmes inter-relations.
r13
r13
r23
r12
r23
r12
r13 r12 r23
Pattern m
Exemple de relations être au dessus de,
être en dessous de, être de même niveau que,
19
Un pas plus loin motifs relationels
flexibles(KMRRel)
Les relations entre éléments ne sont pas
forcément les mêmes, il suffit quelles soient
similaires
rc
rb
rb
ra
ra
ra
CR2 CR1 CR1
Motif m
ra
rb
rc
CR1
CR2
Cliques de relations être au dessus de,
être de même niveau que, être en dessous
de, être de même niveau que,
Cliques de relations
20
Applications générales
Musique détecter phrasés dans plusieurs
clés. Structures 3D des protéines distance entre
atomes vue comme une relation. Nombres et suite
numérique. Points dans le plan/espace avec des
distances ou positions.
N. Pisanti, et al , Lecture Note in Computer
Science (proceedings CPM, Combinatorial Pattern
Matching, Volume 3537, may 2005, pages 229 - 240.
21
Application aux structures 3D distances (1)
Les relations entre les points sont définies sur
leurs distances internes (discrétisées) r(i,j)
rk ssi rk dist(i,j) lt rk ? Les relations
r(i,j) et r(i,j) sont considérées comme
similaires si elles appartiennent à un même
sous-ensemble rk, rk1, rk2, cad. si r(i,
j) - r(i, j) 2 Ceci implique pour les
distances euclidiennes dist(i,j) -
dist(i,j) lt 3?
r1
r2
r3
rk1
rk2
rk
d(i,j)
d(i ,j)
22
Application aux structures 3D distances (2)
Cliques de relations 1 2 3 4 5 6 7 8
9 10 . (définies sur les distances)
23
Application aux structures 3D pectates lyases
Ex alignement structural multiple de 4 pectate
et pectines lyases 1PCL,1IDJ,2BSP,1PLU
1PCL AEWDAAVIDNSTNVWVDHVT 1IDJ
WGGDAITLDDCDLVWIDHVT 2BSP SQYDNITINGGTHIWIDHCT
1PLU KDGDMIRVDDSPNVWVDHNE 1PCL
LRVTFHNNVFDRVTERAPRV 1IDJ DLVTMKGNYIYHTSGRSPKV
2BSP LKITLHHNRYKNIVQKAPRV 1PLU
RNITYHHNYYNDVNARLPLQ 1PCL TERAPRVRFGSIHAYNNVYL
1IDJ GRSPKVQDNTLLHCVNNYFY 2BSP
VQKAPRVRFGQVHVYNNYYE 1PLU NARLPLQRGGLVHAYNNLYT
1PCL AQTMTSSLATSINNNAGYGK 1IDJ
SASAYTSVASRVVANAGQGN 2BSP SIDASANVKSNVINQAGAGK
1PLU SPVSAQCVKDKLPGYAGVGK
24
MAFIA 2-diagonales -gt m-diagonales
m-diagonale en m dimensions ici, les
3-diagonales sont les combinaisons de trois
2-diagonales de dimension 2.
25
Graphes de colonnes
Protein 1
Protein 2
- un résidu est un noeud - si deux résidus sont
dans une 2-diagonale, ils sont connectés par un
lien
Protein 3
Sélection des meilleures m-diagonales (les plus
connectées)
26
Exemple motifs 3D cytochromes P450
27
GAKUSA gibbs sampling
Amélioration prise en compte de la similarité
des symboles, c-a-d le flou nécessaire pour les
structures (et les séquences). Lexistence dun
angle à une position du motif augmente la
probabilité des angles similaires à cet angle à
cette même position.
S1
P(Sij)
S2
S3
Si
28
Exemple cytochromes P450
29
Projet EVOLREP 3D-gt1D et 1D-gt3D
  • 3D-gt1D Etude exhaustive des répétitions
    internes structurales (3D) dans les protéines, et
    examen de la ressemblance des séquences
    nucléiques de ces répétitions structurales
  • 1D-gt3D Etude exhaustive des répétitions
    nucléiques codantes proches ( intra-géniques )
    et examen de la ressemblance de leur structure 3D
  • But Etudier la pression de sélection sur les
    séquences dues à la structure 3D

30
Swelfe dérivé de lalgorithme de Smith et
Waterman
Alignement local par programmation dynamique
i
i-1
S1
S2
j-1
j
S3
Max (ou 0)
Substitution (score(i,j))
gap
  • Suppression de la diagonale (identité)
  • Sélection du meilleur chemin
  • Suppression de la région correspondante/ou du
    chemin
  • Conservation des k meilleurs scores

31
Systèmes de scores
Au niveau des séquences nucléiques
Substitution S 0,5 x ?(i,j) x log4(pipj)
?(i,j) 1 si i ? j ?(i,j) -1 si i j pi ,
pj fréquences des bases i, j Gaps ouverture
4 extension 1 Au niveau des séquences
protéiques Substitutions matrice
Blosum62 Gaps ouverture 8 extension 3 Au
niveau des structures Substitution
30(1-pi)(1-pj)(1-?) ? - ?angle et RMS lt
4,5 Å pi , pj fréquence de langle i, j dans la
PDB ? 0,4 Gaps ouverture 200 extension 50
32
Exemple duplication 3D symétrique axialement
Analyse intégrée dune duplication directe
proche interne (DDPI) dans la protéine 1a9x
(carbamyl phosphate synthétase) et son gène.
33
Résultats globaux (1)
Critères de sélection (3D) RMS des 2
fragments superposés lt 4,5 Å  Score gt 350 (12
paires dangles égaux successifs) Score /
longueur gt 25 Modèle probabiliste destimation
des duplications attendues (Mixture Transition
Distribution)
Répartition des scores
Effectifs des duplications
Score de la séquence protéique correspondant à la
duplication 3D (matrice BLOSUM62, gap 10)
80
Score blosum
0
Duplications 3D largement non détectables par des
méthodes danalyse de la séquence
34
Résultats globaux (2)
Échantillon de départ 7952 séquences
protéiques nucléiques structures
744 structures
401
10
218
115
129
340
48
721 séquencesprotéiques
302 séquencesnucléiques
35
Classification
Familles de structuresCytochromesP450
36
Reconnaissance de repliements FROST
ProteinDataBank (PDB)
1) Cœurs
2) Stats -gt Energie
--------------
A
L -1.2
A
I -2.2
...
Marin A., et al. (2002), Proteins, 49(4) 493-509
37
coeur
--------------
38
Séquence sur coeur
V
I -2.3
L
N -4.2
GGINVLAGSLLNNS
L
G -5.1
-gt énergie de la séquence sur le cœur
compatibilité séquence/structure
39
A suivre
Problème définition des coeurs (ANR PROTEUS- X,
IRISA, MIG, ENS, ABI)
Write a Comment
User Comments (0)
About PowerShow.com