Title: Codage informatique des proprits chimiques et structurales des molcules' Introduction la notion de d
1Codage informatique des propriétés chimiques et
structurales des molécules.Introduction à la
notion de descripteur
Luc Morin-Allory
Institut de Chimie Organique et Analytique,
ICOA UMR CNRS-U. Orléans 6005, LRC CEA M09
http//www.univ-orleans.fr/icoa/
2Les 3 approches complémentaires de la chimie
thérapeutique à lICOA
Synthèse organique
Chimie analytique
Modélisation Chemoinformatique
Conception
Purification
Synthèse
Chimiothèque environ 5000 produits dont 480 en
plaques
3Plan
- Les espaces chimiques
- Descripteurs
- Applications
- Visualisation
- Filtrage
- Similarité-diversité- représentativité
- QSAR/ Criblage
- Bibliographie
4Trois siècles de relations structure -propriété
- 1868 Crum-Brown and Fraser
- Physiological activity must be a function of
the chemical structure - 1893 Richet
- détermine que la toxicité de produits est
inversement proportionnelle à leur solubilité
aqueuse - 1899 Meyer et 1901 Overton
- Relation linéaire entre activité de narcotiques
et leur coef de partage eau-huile -
Des molécules similaires ont des propriétés
similaires
Actions biologiques
5Relations structure propriétés
f
propriété
structure
- -Doit être parfaitement définie
-- Sera représentée par des descripteurs
- A un domaine d'applicabilité limité
6Vers lespace chimique
- Il existe une notion simple celle dun ensemble
de produits chimiques caractérisés, une
chimiothèque - A cette notion simple sont associées
immédiatement les bases de données chimiques - Cela implique de stocker dans un système
informatique une information permettant de
caractériser chaque produit - Nom
- Registry Number(CAS)
- Formule brute
- Formule développée
- Position(s) des noyaux dans lespace
(structure(s) 3D) - Autres représentations plus adaptées aux SI
(INCHI)
7Vers lespace chimique
- On peut envisager des ensembles de tailles
diverses, finis (de taille connue ou non) ou
infinis - Les produits de mon laboratoire
- Les produits de la chimiothèque nationale
- Les produits commercialisés dans le monde
- Quelle taille ?
- Les produits déjà décrits par des chimistes
- Quelle taille ?
- Les produits que lon pourrait facilement
synthétiser - Quelle taille ?
- Les produits que lon peut imaginer
- Quelle taille ?
iResearch 15 106 Chemcats 24 106
CAS RN 38 106
8Cardinal de ces ensembles
- Les produits que lon peut imaginer
- The number of molecules in chemical space might
be very large but is finite if one limits oneself
to a maximal molecular size of interest, for
example, 300-500 Daltons as an upper limit for
drug-type compounds,13 which would provide
1014-10200 molécules.1. - Les produits que lon pourrait facilement
synthétiser - Par exemple2 en se limitant à 11 atomes lourds
on lestime à 26.4 106 produits au minimum - Dautres travaux lestiment pour les
Drug-like entre 10 20 et 10 24
1 a) S. Petit-Zeman, Charting chemical space
finding new tools to explore biology. 4th Horizon
Symposium, Palazzo Arzaga, Italy, October 23
25, 2003 b) R. S. Bohacek, C. McMartin, W.
C.Guida, Med. Res. Rev. 1996, 16, 3 50. 2)
Virtual Exploration of the Chemical Universe up
to 11 Atoms of C, N, O, FAssembly of 26.4
Million Structures (110.9 Million Stereoisomers)
and Analysis for New Ring Systems,
Stereochemistry, Physicochemical Properties,
Compound Classes, and Drug Discovery. (FINK,
T. REYMOND, J.-L. J. Chem. Inf. Model. (J.
Chem. Inf. Comput. Sci.) 47 (2007) 2, 342-353
9Dun ensemble à un espace
- Ces ensembles sont trop grands pour pouvoir être
utilisés dune façon exhaustive - Donc il faut choisir quelles molécules utiliser
et on arrive toujours à des notions très liées - Notion de similarité
- Notion de diversité
- Notion de représentativité
- On va donc définir un espace dans lequel
représenter les produits de cet ensemble - Deux produits éloignés seront dissimilaires
deux produits proches seront similaires dans cet
espace
10Dun ensemble à des espaces
- Il faut donc pouvoir caractériser chaque molécule
par un certain nombre de valeurs numériques puis
les positionner dans un espace défini par un
repère multidimensionnel - Chaque valeur est ce que lon appelle un
descripteur. Elle se calcule à partir de la
structure selon des règles définies - Cet espace est un espace chimique
- Le référentiel choisi défini cet espace il est
en général à haute dimensionnalité - Il y a autant despaces chimiques que de
référentiels possibles
11Définition
- Un descripteur moléculaire est le résultat final
dune procédure mathématique et logique qui
transforme linformation chimique encodée dans la
représentation symbolique dune molécule en une
valeur numérique utile ou en un résultat dune
expérience standardisée.(Todeschini et
Consonni, Handbook of molecular descriptors ,
Wiley-VCH, 2000)
12Généralités sur les descripteurs
- On recense actuellement plus de 3300 descripteurs
- On peut toujours en imaginer de nouveaux
- Un descripteur est justifié sil est utile dans
un modèle
www.moleculardescriptors.eu
13Principe
- On part de la formule brute, développée ou de la
structure 3D de la molécule
- On effectue une série de calculs à partir de ces
informations
- On obtient une valeur numérique ( mono ou multi
dimensionnelle)
14Différentes représentations pour obtenir les
descripteurs
3D interne Non lié au référentiel ou à
lenvironnement
Richesse de linformation
Complexité et temps de calcul
3D externe (4D) orientation de la molécule ou
exploration de lespace autour de la molécule
15Taxinomie des descripteurs
- Certains sont des valeurs physico-chimiques
accessibles par lexpérience (MM, ?) - Dautres sont différentes approches de calcul de
ces grandeurs (différents logP calculés) - Dautres sont des grandeurs empiriques facilement
interprétables (charges datomes) - Dautres sont des valeurs binaires caractérisant
la présence ou labsence dune propriété ou dun
fragment - Dautres, enfin, ne sont pas directement
interprétables (matrices de connectivité
chromatisées)
16Des descripteurs particuliers
- Fingerprints structuraux encodent la présence ou
labsence dun fragment - Leur taille est très variable ( MACCS 168 bits,
SSKeys-3DS 32 bits, Daylight 512 ou 1024 bits ) (
codage très variable)
17Exemple de descripteurs
18- Le résultat du calcul des descripteurs un
tableau multidimensionnel chaque ligne
correspond à un produit, chaque colonne à un
descripteur - On arrive donc à traiter un ensemble de points
dans un espace à haute dimensionnalité - Méthodes danalyse de données analyses
factorielles, NN, GA
19Mesurer les distances
- Pour tout calcul de similarité apparait alors la
distance entre points - La simple distance euclidienne entre points est
en général une mauvaise solution - Sur des données réelles normalisations puis
- Sur des données binaires Tanimoto et autres
20Visualisation
- On ne peut pas visualiser simplement la diversité
dans un espace à haute dimensionnalité - Solution on utilise un espace réduit le plus
représentatif possible comme le premier plan
factoriel dune ACP
21Trouver un sous ensemble
- La méthode la plus simple un échantillonnage
aléatoire si le ratio taille échantillon/ taille
population est assez grand vous aurez un
échantillon représentatif - Pour obtenir un sous ensemble divers les méthodes
sont beaucoup plus lourdes méthodes de
clustering, apprentissage automatique
22Sélection aléatoire
23Sélection par diversité
24aléatoire vs diversité
25Quelques applications
26Filtrage
- Le traitement le plus simple éliminer une
partie des produits dune chimiothèque sur des
critères variés - Drug like et lead like
- Produits réactifs / faux
positifs/frequent hitters
Régles de Lipinski et similaires descripteurs
classiques ( MM, Log P, Liaisons H,)
Présence de fonctions chimiques particulières,
Bits
27(No Transcript)
28Sélection de plaques
- Vous avez un ensemble de plaques filles déjà
faites - Vous ne pouvez tester quune faible partie
dentre elles - Comment les choisir? Hasard ? Mesure simple
de la diversité ? IA ?
29Pour en savoir et faire plus
- Current Computer-Aided Drug DesignVolume 4,
Number 3, September 2008Pp. 156-168, Collections
of Compounds How to Deal with them? Julie
Dubois, Stéphane Bourg, Christel Vrain and Luc
Morin-Allory - ScreeningAssistant
- http//www.univ-orleans.fr/icoa/screeningassistant
/
30Current Computer-Aided Drug DesignVolume 4,
Number 3, September 2008
- Collections of Compounds How to Deal with them?
Pp. 156-168 Julie Dubois, Stéphane Bourg,
Christel Vrain and Luc Morin-Allory Calculating
the Protonation States of Proteins and Small
Molecules Implications to Ligand-Receptor
Interactions Pp. 169-179 Rooplekha Mitra, Radhey
Shyam, Indranil Mitra, Maria A. Miteva and Emil
Alexov Ligand-Based Approaches in Virtual
Screening Pp. 180-190 Dominique Douguet ISIDA -
Platform for Virtual Screening Based on Fragment
and Pharmacophoric Descriptors Pp. 191-198
Alexandre Varnek, Denis Fourches, Dragos Horvath,
Olga Klimchuk, Cedric Gaudin, Philippe Vayer,
Vitaly Solovev, Frank Hoonakker, Igor V. Tetko
and Gilles Marcou Pharmacophores of 5-HT4
Receptor Ligands Experience of CERMN and
Implications for Drug Design Pp. 199-208 Ronan
Bureau, Thibault Varin, Alban Lepailleur, Cyril
Daveu, Stephane Lemaître, Jean-Charles Lancelot,
Aurelien Lesnard, Sabrina Butt Gueulle, François
Dauphin and Sylvain Rault How to Measure the
Similarity Between Protein Ligand-Binding Sites?
Pp. 209-220 Esther Kellenberger, Claire Schalon
and Didier Rognan Docking and High Throughput
Docking Successes and the Challenge of Protein
Flexibility Pp. 221-234 Claudio N. Cavasotto and
Narender Singh Docking and Biomolecular
Simulations on Computer Grids Status and Trends
Pp. 235-249 Alexandru-Adrian Tantar, Sébastien
Conilleau, Benjamin Parent, Nouredine Melab,
Lorraine Brillet, Sylvaine Roy, El-Ghazali Talbi
and Dragos Horvath Combining Ligand- and
Structure-Based Methods in Drug Design Projects
Pp. 250-258 Olivier Sperandio, Maria A. Miteva
and Bruno O. Villoutreix
31- Société Française de Chemoinformatique
- Environ 80 membres actifs ( 50 académiques, 50
industriels) - 20 laboratoires publics et 20 labos privés
- www.univ-orleans.fr/GFC
32