Codage informatique des proprits chimiques et structurales des molcules' Introduction la notion de d - PowerPoint PPT Presentation

1 / 32

About This Presentation

Title:

Codage informatique des proprits chimiques et structurales des molcules' Introduction la notion de d

Description:

Physiological activity must be a function of the chemical structure ' ... On recense actuellement plus de 3300 descripteurs. On peut toujours en imaginer de ... – PowerPoint PPT presentation

Number of Views:168

Avg rating:3.0/5.0

Slides: 33

Provided by: arnoul

Category:

more less

Transcript and Presenter's Notes

Title: Codage informatique des proprits chimiques et structurales des molcules' Introduction la notion de d

1
Codage informatique des propriétés chimiques et
structurales des molécules.Introduction à la
notion de descripteur
Luc Morin-Allory
Institut de Chimie Organique et Analytique,
ICOA UMR CNRS-U. Orléans 6005, LRC CEA M09
http//www.univ-orleans.fr/icoa/
2
Les 3 approches complémentaires de la chimie
thérapeutique à lICOA
Synthèse organique
Chimie analytique
Modélisation Chemoinformatique
Conception
Purification
Synthèse
Chimiothèque environ 5000 produits dont 480 en
plaques
3
Plan

Les espaces chimiques
Descripteurs
Applications
Visualisation
Filtrage
Similarité-diversité- représentativité
QSAR/ Criblage
Bibliographie

4
Trois siècles de relations structure -propriété

1868 Crum-Brown and Fraser
Physiological activity must be a function of
the chemical structure
1893 Richet
détermine que la toxicité de produits est
inversement proportionnelle à leur solubilité
aqueuse
1899 Meyer et 1901 Overton
Relation linéaire entre activité de narcotiques
et leur coef de partage eau-huile

Des molécules similaires ont des propriétés
similaires
Actions biologiques
5
Relations structure propriétés
f
propriété
structure

-Doit être parfaitement définie

-- Sera représentée par des descripteurs
- A un domaine d'applicabilité limité
6
Vers lespace chimique

Il existe une notion simple celle dun ensemble
de produits chimiques caractérisés, une
chimiothèque
A cette notion simple sont associées
immédiatement les bases de données chimiques
Cela implique de stocker dans un système
informatique une information permettant de
caractériser chaque produit
Nom
Registry Number(CAS)
Formule brute
Formule développée
Position(s) des noyaux dans lespace
(structure(s) 3D)
Autres représentations plus adaptées aux SI
(INCHI)

7
Vers lespace chimique

On peut envisager des ensembles de tailles
diverses, finis (de taille connue ou non) ou
infinis
Les produits de mon laboratoire
Les produits de la chimiothèque nationale
Les produits commercialisés dans le monde
Quelle taille ?
Les produits déjà décrits par des chimistes
Quelle taille ?
Les produits que lon pourrait facilement
synthétiser
Quelle taille ?
Les produits que lon peut imaginer
Quelle taille ?

iResearch 15 106 Chemcats 24 106
CAS RN 38 106
8
Cardinal de ces ensembles

Les produits que lon peut imaginer
The number of molecules in chemical space might
be very large but is finite if one limits oneself
to a maximal molecular size of interest, for
example, 300-500 Daltons as an upper limit for
drug-type compounds,13 which would provide
1014-10200 molécules.1.
Les produits que lon pourrait facilement
synthétiser
Par exemple2 en se limitant à 11 atomes lourds
on lestime à 26.4 106 produits au minimum
Dautres travaux lestiment pour les
Drug-like entre 10 20 et 10 24

1 a) S. Petit-Zeman, Charting chemical space
finding new tools to explore biology. 4th Horizon
Symposium, Palazzo Arzaga, Italy, October 23
25, 2003 b) R. S. Bohacek, C. McMartin, W.
C.Guida, Med. Res. Rev. 1996, 16, 3 50. 2)
Virtual Exploration of the Chemical Universe up
to 11 Atoms of C, N, O, FAssembly of 26.4
Million Structures (110.9 Million Stereoisomers)
and Analysis for New Ring Systems,
Stereochemistry, Physicochemical Properties,
Compound Classes, and Drug Discovery. (FINK,
T. REYMOND, J.-L. J. Chem. Inf. Model. (J.
Chem. Inf. Comput. Sci.) 47 (2007) 2, 342-353
9
Dun ensemble à un espace

Ces ensembles sont trop grands pour pouvoir être
utilisés dune façon exhaustive
Donc il faut choisir quelles molécules utiliser
et on arrive toujours à des notions très liées
Notion de similarité
Notion de diversité
Notion de représentativité
On va donc définir un espace dans lequel
représenter les produits de cet ensemble
Deux produits éloignés seront dissimilaires
deux produits proches seront similaires dans cet
espace

10
Dun ensemble à des espaces

Il faut donc pouvoir caractériser chaque molécule
par un certain nombre de valeurs numériques puis
les positionner dans un espace défini par un
repère multidimensionnel
Chaque valeur est ce que lon appelle un
descripteur. Elle se calcule à partir de la
structure selon des règles définies
Cet espace est un espace chimique
Le référentiel choisi défini cet espace il est
en général à haute dimensionnalité
Il y a autant despaces chimiques que de
référentiels possibles

11
Définition

Un descripteur moléculaire est le résultat final
dune procédure mathématique et logique qui
transforme linformation chimique encodée dans la
représentation symbolique dune molécule en une
valeur numérique utile ou en un résultat dune
expérience standardisée.(Todeschini et
Consonni, Handbook of molecular descriptors ,
Wiley-VCH, 2000)

12
Généralités sur les descripteurs

On recense actuellement plus de 3300 descripteurs
On peut toujours en imaginer de nouveaux
Un descripteur est justifié sil est utile dans
un modèle

www.moleculardescriptors.eu
13
Principe

On part de la formule brute, développée ou de la
structure 3D de la molécule

On effectue une série de calculs à partir de ces
informations

On obtient une valeur numérique ( mono ou multi
dimensionnelle)

14
Différentes représentations pour obtenir les
descripteurs
3D interne Non lié au référentiel ou à
lenvironnement
Richesse de linformation
Complexité et temps de calcul
3D externe (4D) orientation de la molécule ou
exploration de lespace autour de la molécule
15
Taxinomie des descripteurs

Certains sont des valeurs physico-chimiques
accessibles par lexpérience (MM, ?)
Dautres sont différentes approches de calcul de
ces grandeurs (différents logP calculés)
Dautres sont des grandeurs empiriques facilement
interprétables (charges datomes)
Dautres sont des valeurs binaires caractérisant
la présence ou labsence dune propriété ou dun
fragment
Dautres, enfin, ne sont pas directement
interprétables (matrices de connectivité
chromatisées)

16
Des descripteurs particuliers

Fingerprints structuraux encodent la présence ou
labsence dun fragment
Leur taille est très variable ( MACCS 168 bits,
SSKeys-3DS 32 bits, Daylight 512 ou 1024 bits ) (
codage très variable)

17
Exemple de descripteurs
18

Le résultat du calcul des descripteurs un
tableau multidimensionnel chaque ligne
correspond à un produit, chaque colonne à un
descripteur
On arrive donc à traiter un ensemble de points
dans un espace à haute dimensionnalité
Méthodes danalyse de données analyses
factorielles, NN, GA

19
Mesurer les distances

Pour tout calcul de similarité apparait alors la
distance entre points
La simple distance euclidienne entre points est
en général une mauvaise solution
Sur des données réelles normalisations puis
Sur des données binaires Tanimoto et autres

20
Visualisation

On ne peut pas visualiser simplement la diversité
dans un espace à haute dimensionnalité
Solution on utilise un espace réduit le plus
représentatif possible comme le premier plan
factoriel dune ACP

21
Trouver un sous ensemble

La méthode la plus simple un échantillonnage
aléatoire si le ratio taille échantillon/ taille
population est assez grand vous aurez un
échantillon représentatif
Pour obtenir un sous ensemble divers les méthodes
sont beaucoup plus lourdes méthodes de
clustering, apprentissage automatique

22
Sélection aléatoire
23
Sélection par diversité
24
aléatoire vs diversité
25
Quelques applications

Filtrages
Diversité

26
Filtrage

Le traitement le plus simple éliminer une
partie des produits dune chimiothèque sur des
critères variés
Drug like et lead like
Produits réactifs / faux
positifs/frequent hitters

Régles de Lipinski et similaires descripteurs
classiques ( MM, Log P, Liaisons H,)
Présence de fonctions chimiques particulières,
Bits
27
(No Transcript)
28
Sélection de plaques

Vous avez un ensemble de plaques filles déjà
faites
Vous ne pouvez tester quune faible partie
dentre elles
Comment les choisir? Hasard ? Mesure simple
de la diversité ? IA ?

29
Pour en savoir et faire plus

Current Computer-Aided Drug DesignVolume 4,
Number 3, September 2008Pp. 156-168, Collections
of Compounds How to Deal with them? Julie
Dubois, Stéphane Bourg, Christel Vrain and Luc
Morin-Allory
ScreeningAssistant
http//www.univ-orleans.fr/icoa/screeningassistant
/

30
Current Computer-Aided Drug DesignVolume 4,
Number 3, September 2008

Collections of Compounds How to Deal with them?
Pp. 156-168 Julie Dubois, Stéphane Bourg,
Christel Vrain and Luc Morin-Allory Calculating
the Protonation States of Proteins and Small
Molecules Implications to Ligand-Receptor
Interactions Pp. 169-179 Rooplekha Mitra, Radhey
Shyam, Indranil Mitra, Maria A. Miteva and Emil
Alexov Ligand-Based Approaches in Virtual
Screening Pp. 180-190 Dominique Douguet ISIDA -
Platform for Virtual Screening Based on Fragment
and Pharmacophoric Descriptors Pp. 191-198
Alexandre Varnek, Denis Fourches, Dragos Horvath,
Olga Klimchuk, Cedric Gaudin, Philippe Vayer,
Vitaly Solovev, Frank Hoonakker, Igor V. Tetko
and Gilles Marcou Pharmacophores of 5-HT4
Receptor Ligands Experience of CERMN and
Implications for Drug Design Pp. 199-208 Ronan
Bureau, Thibault Varin, Alban Lepailleur, Cyril
Daveu, Stephane Lemaître, Jean-Charles Lancelot,
Aurelien Lesnard, Sabrina Butt Gueulle, François
Dauphin and Sylvain Rault How to Measure the
Similarity Between Protein Ligand-Binding Sites?
Pp. 209-220 Esther Kellenberger, Claire Schalon
and Didier Rognan Docking and High Throughput
Docking Successes and the Challenge of Protein
Flexibility Pp. 221-234 Claudio N. Cavasotto and
Narender Singh Docking and Biomolecular
Simulations on Computer Grids Status and Trends
Pp. 235-249 Alexandru-Adrian Tantar, Sébastien
Conilleau, Benjamin Parent, Nouredine Melab,
Lorraine Brillet, Sylvaine Roy, El-Ghazali Talbi
and Dragos Horvath Combining Ligand- and
Structure-Based Methods in Drug Design Projects
Pp. 250-258 Olivier Sperandio, Maria A. Miteva
and Bruno O. Villoutreix