Title: Diapositive 1
1Christelle Reynès
Utilisation des algorithmes génétique en analyse
de données de protéomique
2Le contexte
La protéomique
Les algorithmes génétiques
Problématiques biologiques
Mise au point dun AG adapté
LE CONTEXTE
2/27
3Le contexte
La protéomique
Les algorithmes génétiques
Problématiques biologiques
Mise au point dun AG adapté
La protéomique
Étude du patrimoine en protéine des individus
Permet de recueillir une information dynamique et
spécifique
Produit des données de très grande dimension
- interactions entre protéines
3/27
4Le contexte
La protéomique
Problématiques biologiques
Les algorithmes génétiques
Mise au point dun AG adapté
Les Algorithmes Génétiques (AG)
? permettent de résoudre problèmes doptimisation
complexes
4/27
5Le contexte
Problématiques biologiques
Recherche de biomarqueurs en SELDI
Mise au point dun AG adapté
Alignement de gels délectrophorèse 2D
PROBLEMATIQUES BIOLOGIQUES
5/27
6Le contexte
Problématiques biologiques
Recherche de biomarqueurs en SELDI
Mise au point dun AG adapté
Alignement de gels délectrophorèse 2D
Recherche de biomarqueurs en SELDI
6/27
7Le contexte
Problématiques biologiques
Recherche de biomarqueurs en SELDI
Mise au point dun AG adapté
Alignement de gels délectrophorèse 2D
Caractéristiques des données
- variabilité de la position en abscisse
- variabilité de la hauteur des pics (jusquà 50
!)
- beaucoup dinformation dans un spectre (sérum)
Choix utiliser un seuil pour utiliser des
données plus stables
utiliser un petit sous-ensemble de pics
complémentaires (comité)
7/27
8Le contexte
Problématiques biologiques
Recherche de biomarqueurs en SELDI
Mise au point dun AG adapté
Alignement de gels délectrophorèse 2D
Alignement de gels délectrophorèse 2D
Electrophorèse 2D technique de séparation des
protéines en fonction
de leur poids et
de leur charge électrique
Objectif repérer des protéines
différentiellement exprimées entre plusieurs
conditions
8/27
9Le contexte
Problématiques biologiques
Recherche de biomarqueurs en SELDI
Mise au point dun AG adapté
Alignement de gels délectrophorèse 2D
Alignement de gels délectrophorèse 2D
Difficultés
- souvent plus de 1000 spots
- tous les spots nont pas de correspondant
- impossible de trouver une transformation
globale assez précise
Choix
- utilisation de landmarks
- adaptation de la méthode Procuste
- découpage du gel en zones homogènes
- recherche dune transformation simple dans
chaque zone
9/27
10Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
MISE AU POINT DUN AG ADAPTE
10/27
11Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Le codage passage entre deux disciplines
traduire le problème doptimisation et ses
solutions sous une forme chromosomique
Objectif
Chaque solution doit être entièrement décrite par
un vecteur numérique.
2 méthodes codage binaire (0/1) ou codage réel
11/27
12Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Linitialisation
Objectif
constitution dune population initiale de
solutions
?
aléatoire exploration espace des solutions
Deux possibilités
dirigée quand on a une information a priori
12/27
13Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Utilisation des landmarks pour linitialisation
landmarks spots pour lesquels on connaît les
correspondances
? Possibilité dutiliser Procuste (Schönemann
Carroll, 1970)
13/27
14Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Utilisation des landmarks pour linitialisation
landmarks spots pour lesquels on connaît les
correspondances
? Possibilité dutiliser Procuste (Schönemann
Carroll, 1970)
13/27
15Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Utilisation des landmarks pour linitialisation
landmarks spots pour lesquels on connaît les
correspondances
? Possibilité dutiliser Procuste (Schönemann
Carroll, 1970)
Généralisation à plus de deux gels
On cherche à minimiser
où
13/27
16Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Utilisation des landmarks pour linitialisation
landmarks spots pour lesquels on connaît les
correspondances
? Possibilité dutiliser Procuste (Schönemann
Carroll, 1970)
Généralisation à plus de deux gels
On cherche à minimiser
où
Problème pas de solution analytique directe
où Z tableau moyen des
Minimisation obtenue en optimisant successivement
un des tout en gardant les autres fixés
13/27
17Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Insertion dans lAG
Appariements toujours inconnus (!...)
Nombre de spots très élevé et potentiellement
très différent entre gels
On calcule le gel moyen Z avec autant que lignes
que A, sans tenir compte des zéros pour calculer
les moyennes.
14/27
18Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Choix de la fitness pour les spectres SELDI
Rappel
on veut obtenir un petit sous-ensemble de pics
capables de réaliser la discrimination entre
groupes
fitness a ? bien classés b ? nb pics
fitness a ? bien classés b ? nb pics
équilibre
Pourcentage de bien classés calculé en divisant
le jeu de données en test/apprentissage.
15/27
19Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Choix de la fitness pour les gels 2D
fitness a ? erreur moyenne b ? nb matchs
équivalent au critère de Procuste
16/27
20Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Opérateur de sélection
sélectionner les solutions les plus performantes
au sens du critère (le fitness)
Objectif
seul opérateur dépendant du problème
Règle générale de sélection plus un individu
est adapté au sens du fitness plus sa probabilité
dapparaître dans la génération suivante
augmente.
17/27
21Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Lopérateur de croisement
combiner les caractéristiques des individus
précédemment sélectionnés
Objectif
opérateur indépendant du problème
Chaque individu de la population courante a une
probabilité q de subir un cross-over
18/27
22Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Lopérateur de mutation
permettre lexploration de lespace des solutions
Objectif
opérateur indépendant du problème
Règle générale de mutation on doit pouvoir
passer de toute solution à toute autre en un
nombre fini ditérations.
Chaque individu de la population courante a une
probabilité p de subir une mutation.
Application aux spectres SELDI
toutes possibilités envisagées
- ajout dun pic et du seuil correspondant
- suppression dun pic et du seuil correspondant
- déplacement du seuil
? On peut passer de tout comité à tout autre en
un nombre fini ditérations.
19/27
23Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
La convergence
- Le critère de convergence 2 types possibles
- critère de convergence réelle de lensemble de
la population
ex. pas dévolution significative du fitness
pendant 10 générations successives
- Nombre maximum de générations atteint
20/27
24Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Résultats pour lalignement de deux gels
Observation de la convergence évolution au
cours des générations
erreur moyenne
critère global
nombre de matchs
générations
21/27
25Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Alignement de plus de trois gels
22/27
26Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Résultats alignement local
23/27
27Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Bilan alignement des gels
- Efficacité globale des AGs pour trouver de
bonnes transformations tout en tenant compte de
différentes contraintes (souplesse)
- LAG a permis lutilisation de Procrustes
généralisée dans le cas dappariements inconnus
- Amélioration globale des résultats par découpage
du gel
- Efficacité de lutilisation des erreurs comme
critère de découpage
- Obtention dune transformation homogène malgré
le découpage
- Temps de calcul important pouvant être amélioré
- Nécessité dun travail en amont pour déterminer
les landmarks
24/27
28Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Résultats pour les spectres SELDI
? 98 bien classés en prédiction
? 100 bien classés en description
25/27
29Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Bilan pour les spectres SELDI
- Codage binaire des données ? limiter problèmes
de variabilité de lintensité
- Utilisation dAG ? optimisation dun problème
combinatoire complexe
- Efficacité globale de la méthode pour obtenir
une bonne discrimination en utilisant peu de pics
- Généralisation à plus de deux groupes
? Faible augmentation du temps de calcul
? Résultats précis et interprétables (un comité
par comparaison et obtention de probabilités
globales daffectation)
- Résultats reproductibles
Perspectives
- Application à un jeu de données plus important
? vraie validation croisée
- Identification chimique des pics retenus
- Méthode indépendante ? possible étude dautre
données (Clinprot,) et comparaisons
26/27
30Le contexte
Codage et initialisation
Fitness et sélection
Problématiques biologiques
Croisement
Mise au point dun AG adapté
Mutation
Résultats et bilan
Bilan applications protéomiques
- AG applicables à tout problème doptimisation
- Codage des solutions généralement simple
(longueur des vecteurs très variable)
- Définition des mutations doit permettre
dobtenir toute solution à partir de nimporte
quelle solution (convergence)
- Taux de mutation et de croisement importants
pour la vitesse de convergence
- Elitisme nécessaire pour assurer la convergence
- Principale difficulté compréhension du
contexte biologique et de ses enjeux,
construction dune fonction de fitness adaptée
27/27