Changement de repr - PowerPoint PPT Presentation

About This Presentation
Title:

Changement de repr

Description:

Etude comparative des codages des acides amin s. Alignement de s quences ... Le score d'un alignement d pend de la longueur de la zone de similitude que l'on ... – PowerPoint PPT presentation

Number of Views:38
Avg rating:3.0/5.0
Slides: 25
Provided by: dela95
Category:

less

Transcript and Presenter's Notes

Title: Changement de repr


1
Changement de représentation et alignement de
séquences.
  • Hugues DELALIN

Encadrement E. Mephu Nguifo
2
Plan
  1. Présentation
  2. Etude comparative des codages des acides aminés
  3. Alignement de séquences

3
Présentation
  • CRIL Apprentissage symbolique
  • Bioinformatique
  • E. MEPHU NGUIFO
  • H. FU
  • H. DELALIN
  • Projets Génopole Lille

4
Etude comparative des codages des acides aminés
  • Huaiguo FUEncadrement E. MEPHU NGUIFO

5
Codage des Acides Aminés
Huaiguo FU Poster, ECCB02
  • Idée Stocker des informations en plus du
    caractère.Ex Alanine A 65 (ASCII)
    01000001
  • But Comparer 4 méthodes de représentation
    binaire des acides aminés afin de trouver la
    meilleure représentation possible.

Hyd Cha Pol Sma Ali Aro
Ala 1 0 0 1 0 0
6
Codage des Acides Aminés
Huaiguo FU Poster, ECCB02
  • 2 codages basés sur les propriétés
    physico-chimiques des AAs- Dickerson Geis
    (1969)- Sallantin, Marlière Saurin (1984)
  • 2 codages obtenus par des méthodes dintelligence
    artificielle (IA)- Gracy Mephu- De la Maza
    (1994)

7
Codage des Acides Aminés
Huaiguo FU Poster, ECCB02
  • Méthode de comparaison
  • Clusterisation de chaque représentation
    (algorithme Ward )
  • Analyse manuelle de chaque cluster.
  • Validation grâce à lalgorithme C4.5

8
Codage des Acides Aminés
Huaiguo FU Poster, ECCB02
  • Résultats
  • Les codages obtenus par apprentissage
    automatique peuvent refléter une certaine réalité
    biologique.
  • Ce nest pas forcément les codages basés sur les
    propriétés des AA qui les représentent le mieux.
  • Utilisation possible dans différentes applications

9
Alignement de séquences
  • Hugues DELALIN
  • Encadrement E. MEPHU NGUIFO

10
Alignement de séquences.
  • Lobjectif de tels algorithmes est de révéler des
    régions proches.
  • Nécessité de mettre en œuvre des procédures de
    calcul et des modèles biologiques afin de
    quantifier la notion de ressemblance entre
    séquences.
  • On se base sur le principe de parcimonie.

11
Calcul dun score.
  • Score peut mesurer rapprochement ou éloignement.
  • Attribution dun score élémentaire pour chaque
    position.

A T G C
A 1 0 0 0
T 0 1 0 0
G 0 0 1 0
C 0 0 0 1
Exemple A T T G C C Score
3 T T G C C C A T T G C C
Score 1 T T G C C C A T T G C C
Score 5 T T G C C C
12
Gestion des gaps.
  • Fixe chaque insertion dune base a le même
    coût.
  • Affine définition dun coût de création de gap
    et dun coût dextension.
  • Variable en fonction de lendroit où on se trouve
    dans la séquence. (Argos et Vingron, 1990)

13
Remarques
  • Le score dun alignement dépend de la longueur de
    la zone de similitude que lon considère.
  • On peut nuancer le calcul du score en donnant
    plus ou moins dimportance aux pénalités et aux
    associations possibles entre résidus.

14
Matrices de substitution.
  • Séquences dADN- coût dun  match  gt 0.-
    coût dun  mismatch  lt 0.
  • Séquences protéiques- matrices liées à
    lévolution. (Dayhoff et al., 1978) (PAM)
  • (Jones et al., 1992)- matrices liées aux
    caractéristiques physico-chimiques. (Henikoff
    et Henikoff, 1992) (BLOSUM)

15
Needleman Wunsh (1970).
V T E E R D A F
L 2 -2 -3 -3 -3 -4 -2 2
T 0 3 0 0 -1 0 1 -3
S -1 1 0 0 0 0 1 -3
H -2 -1 1 1 2 1 -1 -2
E -2 0 4 4 -1 3 0 -5
A 0 1 0 0 -2 0 2 -4
L 2 -2 -3 -3 -3 -4 -2 2
16
Needleman Wunsh (1970).
V T E E R D A F
L 2 -2 -3 -3 -3 -4 -2 2
T 0 3 0 0 -1 0 1 -3
S -1 1 0 0 0 0 1 -3
H -2 -1 1 1 2 5 1 -2
E -2 0 4 4 -1 7 2 -5
A 0 1 0 0 -2 2 4 -4
L 2 -2 -3 -3 -3 -4 -2 2
17
Needleman Wunsh (1970).
V T E E R D A F
L 2 -2 -3 -3 -3 -4 -2 2
T 0 3 0 0 -1 0 1 -3
S -1 1 0 0 7 0 1 -3
H -2 -1 1 1 2 5 1 -2
E -2 0 4 4 -1 7 2 -5
A 0 1 0 0 -2 2 4 -4
L 2 -2 -3 -3 -3 -4 -2 2
18
Needleman Wunsh (1970).
V T E E R D A F
L 14 7 6 6 4 4 0 2
T 10 12 9 9 6 4 3 -3
S 8 10 9 9 7 4 3 -3
H 6 7 9 8 9 5 1 -2
E 2 4 8 8 3 7 2 -5
A 2 3 2 2 0 2 4 -4
L 2 -2 -3 -3 -3 -4 -2 2
19
Needleman Wunsh (1970).
Résultat VT-EERDAF LTSHE--AL
V T E E R D A F
L 14 7 6 6 4 4 0 2
T 10 12 9 9 6 4 3 -3
S 8 10 9 9 7 4 3 -3
H 6 7 9 8 9 5 1 -2
E 2 4 8 8 3 7 2 -5
A 2 3 2 2 0 2 4 -4
L 2 -2 -3 -3 -3 -4 -2 2
20
Utilisation des représentations binaires.
  • On utilise les algorithmes classiques.
  • Les scores élémentaires ne sont plus obtenus
    grâce à une matrice de substitution.
  • Une opération booléenne entre les représentations
    des 2 acides aminés que lon compare sert de base
    au calcul des scores élémentaires.

21
Choix de lopérateur booléen.
  • ET logique si on ne sintéresse quà la présence
    des attributs.
  • XOR le OU exclusif si on sintéresse autant à
    labsence quà la présence des attributs.

Exemple A ? 0001 L ? 0011 A ET L? 0001 A XOR
L ? 1101
22
Exemple de résultat
  • Algorithme de Smith et Waterman (1981)
  • EMBOSS (BLOSUM62)
  • Identité 34/173 (19.7)
  • Gaps 55/173 (31,8)
  • d1qqp1_ 1 TTSAGESADPVT---TTVENY-------GGETQIQRR
    QHTDVSFIMDRFV 40
  • .... .. ..
    ..
  • d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQ-
    --------AERFF 62
  • BINALIGN (Gracy Mephu, 12 attributs)
  • Identité 54/221 (24.4)
  • Gaps 42/221 (19.0)
  • d1qqp1_ 1 TTSAGESADPVT_T__TVENY__GGETQ_IQRRQHTD
    VSFIM_DRFVKVT 43
  • ...... . ... ...
    ........... ....
  • d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQA
    ERFFKTHLFDWVT 71

23
Perspectives
  • Coût en temps dexécution et espace mémoire.
  • Mesure de la qualité des alignements obtenus à
    partir de - bases connues (CASA, SCOP)-
    alignements corrigés manuellement.
  • Alignement de structures (DSSP).

24
Références
  • Hubbard TJ, Ailey B, Brenner SE, Murzin AG,
    Chothia C. SCOP a structural classification of
    proteins database. Nucleic Acids Res. 1999
    27254-256.http//scop.mrc-lmb.cam.ac.uk/scop/
  • Kabsch W. Sander C. Dictionary of protein
    secondary structure Pattern recognition of
    hydrogen-bonded and geometrical features,
    Biopolymers. 1983 222577-2637.http//www.sander.
    ebi.ac.uk/dssp/
  • Kahsay R, Dongre N, Guang G, Wang G, Dunbrack RL
    Jr. CASA A Server for The Critical Assessment of
    Sequence Alignment Accuracy, Bioinformatics.
    Submitted.http//capb.dbi.udel.edu/casa/
Write a Comment
User Comments (0)
About PowerShow.com