Codage informatique des proprits chimiques et structurales des molcules' Introduction la notion de d - PowerPoint PPT Presentation

1 / 32
About This Presentation
Title:

Codage informatique des proprits chimiques et structurales des molcules' Introduction la notion de d

Description:

Physiological activity must be a function of the chemical structure ' ... On recense actuellement plus de 3300 descripteurs. On peut toujours en imaginer de ... – PowerPoint PPT presentation

Number of Views:168
Avg rating:3.0/5.0
Slides: 33
Provided by: arnoul
Category:

less

Transcript and Presenter's Notes

Title: Codage informatique des proprits chimiques et structurales des molcules' Introduction la notion de d


1
Codage informatique des propriétés chimiques et
structurales des molécules.Introduction à la
notion de descripteur
Luc Morin-Allory
Institut de Chimie Organique et Analytique,
ICOA UMR CNRS-U. Orléans 6005, LRC CEA M09
http//www.univ-orleans.fr/icoa/
2
Les 3 approches complémentaires de la chimie
thérapeutique à lICOA
Synthèse organique
Chimie analytique
Modélisation Chemoinformatique
Conception
Purification
Synthèse
Chimiothèque environ 5000 produits dont 480 en
plaques
3
Plan
  • Les espaces chimiques
  • Descripteurs
  • Applications
  • Visualisation
  • Filtrage
  • Similarité-diversité- représentativité
  • QSAR/ Criblage
  • Bibliographie

4
Trois siècles de relations structure -propriété
  • 1868 Crum-Brown and Fraser
  •  Physiological activity must be a function of
    the chemical structure 
  • 1893 Richet
  • détermine que la toxicité de produits est
    inversement proportionnelle à leur solubilité
    aqueuse
  • 1899 Meyer et 1901 Overton
  • Relation linéaire entre activité de narcotiques
    et leur coef de partage eau-huile

Des molécules similaires ont des propriétés
similaires
Actions biologiques
5
Relations structure propriétés
f
propriété
structure
  • -Doit être parfaitement définie

-- Sera représentée par des descripteurs
- A un domaine d'applicabilité limité
6
Vers lespace chimique
  • Il existe une notion simple celle dun ensemble
    de produits chimiques caractérisés, une
    chimiothèque
  • A cette notion simple sont associées
    immédiatement les bases de données chimiques
  • Cela implique de stocker dans un système
    informatique une information permettant de
    caractériser chaque produit
  • Nom
  • Registry Number(CAS)
  • Formule brute
  • Formule développée
  • Position(s) des noyaux dans lespace
    (structure(s) 3D)
  • Autres représentations plus adaptées aux SI
    (INCHI)

7
Vers lespace chimique
  • On peut envisager des ensembles de tailles
    diverses, finis (de taille connue ou non) ou
    infinis
  • Les produits de mon laboratoire
  • Les produits de la chimiothèque nationale
  • Les produits commercialisés dans le monde
  • Quelle taille ?
  • Les produits déjà décrits par des chimistes
  • Quelle taille ?
  • Les produits que lon pourrait facilement
    synthétiser
  • Quelle taille ?
  • Les produits que lon peut imaginer
  • Quelle taille ?

iResearch 15 106 Chemcats 24 106
CAS RN 38 106
8
Cardinal de ces ensembles
  • Les produits que lon peut imaginer
  • The number of molecules in chemical space might
    be very large but is finite if one limits oneself
    to a maximal molecular size of interest, for
    example, 300-500 Daltons as an upper limit for
    drug-type compounds,13 which would provide
    1014-10200 molécules.1.
  • Les produits que lon pourrait facilement
    synthétiser
  • Par exemple2 en se limitant à 11 atomes lourds
    on lestime à 26.4 106 produits au minimum
  • Dautres travaux lestiment pour les
     Drug-like  entre 10 20 et 10 24

1 a) S. Petit-Zeman, Charting chemical space
finding new tools to explore biology. 4th Horizon
Symposium, Palazzo Arzaga, Italy, October 23
25, 2003 b) R. S. Bohacek, C. McMartin, W.
C.Guida, Med. Res. Rev. 1996, 16, 3 50. 2)
Virtual Exploration of the Chemical Universe up
to 11 Atoms of C, N, O, FAssembly of 26.4
Million Structures (110.9 Million Stereoisomers)
and Analysis for New Ring Systems,
Stereochemistry, Physicochemical Properties,
Compound Classes, and Drug Discovery. (FINK,
T. REYMOND, J.-L. J. Chem. Inf. Model. (J.
Chem. Inf. Comput. Sci.) 47 (2007) 2, 342-353
9
Dun ensemble à un espace
  • Ces ensembles sont trop grands pour pouvoir être
    utilisés dune façon exhaustive
  • Donc il faut choisir quelles molécules utiliser
    et on arrive toujours à des notions très liées
  • Notion de similarité
  • Notion de diversité
  • Notion de représentativité
  • On va donc définir un espace dans lequel
    représenter les produits de cet ensemble
  • Deux produits éloignés seront dissimilaires
    deux produits proches seront similaires dans cet
    espace

10
Dun ensemble à des espaces
  • Il faut donc pouvoir caractériser chaque molécule
    par un certain nombre de valeurs numériques puis
    les positionner dans un espace défini par un
    repère multidimensionnel
  • Chaque valeur est ce que lon appelle un
    descripteur. Elle se calcule à partir de la
    structure selon des règles définies
  • Cet espace est un espace chimique
  • Le référentiel choisi défini cet espace il est
    en général à haute dimensionnalité
  • Il y a autant despaces chimiques que de
    référentiels possibles

11
Définition
  • Un descripteur moléculaire est le résultat final
    dune procédure mathématique et logique qui
    transforme linformation chimique encodée dans la
    représentation symbolique dune molécule en une
    valeur numérique utile ou en un résultat dune
    expérience standardisée.(Todeschini et
    Consonni, Handbook of molecular descriptors ,
    Wiley-VCH, 2000)

12
Généralités sur les descripteurs
  • On recense actuellement plus de 3300 descripteurs
  • On peut toujours en imaginer de nouveaux
  • Un descripteur est justifié sil est utile dans
    un modèle

www.moleculardescriptors.eu
13
Principe
  • On part de la formule brute, développée ou de la
    structure 3D de la molécule
  • On effectue une série de calculs à partir de ces
    informations
  • On obtient une valeur numérique ( mono ou multi
    dimensionnelle)

14
Différentes représentations pour obtenir les
descripteurs
3D interne Non lié au référentiel ou à
lenvironnement
Richesse de linformation
Complexité et temps de calcul
3D externe (4D) orientation de la molécule ou
exploration de lespace autour de la molécule
15
Taxinomie des descripteurs
  • Certains sont des valeurs physico-chimiques
    accessibles par lexpérience (MM, ?)
  • Dautres sont différentes approches de calcul de
    ces grandeurs (différents logP calculés)
  • Dautres sont des grandeurs empiriques facilement
    interprétables (charges datomes)
  • Dautres sont des valeurs binaires caractérisant
    la présence ou labsence dune propriété ou dun
    fragment
  • Dautres, enfin, ne sont pas directement
    interprétables (matrices de connectivité
    chromatisées)

16
Des descripteurs particuliers
  • Fingerprints structuraux encodent la présence ou
    labsence dun fragment
  • Leur taille est très variable ( MACCS 168 bits,
    SSKeys-3DS 32 bits, Daylight 512 ou 1024 bits ) (
    codage très variable)

17
Exemple de descripteurs
18
  • Le résultat du calcul des descripteurs un
    tableau multidimensionnel chaque ligne
    correspond à un produit, chaque colonne à un
    descripteur
  • On arrive donc à traiter un ensemble de points
    dans un espace à haute dimensionnalité
  • Méthodes danalyse de données analyses
    factorielles, NN, GA

19
Mesurer les distances
  • Pour tout calcul de similarité apparait alors la
    distance entre points
  • La simple distance euclidienne entre points est
    en général une mauvaise solution
  • Sur des données réelles normalisations puis
  • Sur des données binaires Tanimoto et autres

20
Visualisation
  • On ne peut pas visualiser simplement la diversité
    dans un espace à haute dimensionnalité
  • Solution on utilise un espace réduit le plus
    représentatif possible comme le premier plan
    factoriel dune ACP

21
Trouver un sous ensemble
  • La méthode la plus simple un échantillonnage
    aléatoire si le ratio taille échantillon/ taille
    population est assez grand vous aurez un
    échantillon représentatif
  • Pour obtenir un sous ensemble divers les méthodes
    sont beaucoup plus lourdes méthodes de
    clustering, apprentissage automatique

22
Sélection aléatoire
23
Sélection par diversité
24
aléatoire vs diversité
25
Quelques applications
  • Filtrages
  • Diversité

26
Filtrage
  • Le traitement le plus simple éliminer une
    partie des produits dune chimiothèque sur des
    critères variés
  • Drug like et lead like
  • Produits réactifs / faux
    positifs/frequent hitters

Régles de Lipinski et similaires descripteurs
classiques ( MM, Log P, Liaisons H,)
Présence de fonctions chimiques particulières,
Bits
27
(No Transcript)
28
Sélection de plaques
  • Vous avez un ensemble de plaques filles déjà
    faites
  • Vous ne pouvez tester quune faible partie
    dentre elles
  • Comment les choisir? Hasard ? Mesure simple
    de la diversité ? IA ?

29
Pour en savoir et faire plus
  • Current Computer-Aided Drug DesignVolume 4,
    Number 3, September 2008Pp. 156-168, Collections
    of Compounds How to Deal with them? Julie
    Dubois, Stéphane Bourg, Christel Vrain and Luc
    Morin-Allory
  • ScreeningAssistant
  • http//www.univ-orleans.fr/icoa/screeningassistant
    /

30
Current Computer-Aided Drug DesignVolume 4,
Number 3, September 2008
  • Collections of Compounds How to Deal with them?
    Pp. 156-168 Julie Dubois, Stéphane Bourg,
    Christel Vrain and Luc Morin-Allory Calculating
    the Protonation States of Proteins and Small
    Molecules Implications to Ligand-Receptor
    Interactions Pp. 169-179 Rooplekha Mitra, Radhey
    Shyam, Indranil Mitra, Maria A. Miteva and Emil
    Alexov Ligand-Based Approaches in Virtual
    Screening Pp. 180-190 Dominique Douguet ISIDA -
    Platform for Virtual Screening Based on Fragment
    and Pharmacophoric Descriptors Pp. 191-198
    Alexandre Varnek, Denis Fourches, Dragos Horvath,
    Olga Klimchuk, Cedric Gaudin, Philippe Vayer,
    Vitaly Solovev, Frank Hoonakker, Igor V. Tetko
    and Gilles Marcou Pharmacophores of 5-HT4
    Receptor Ligands Experience of CERMN and
    Implications for Drug Design Pp. 199-208 Ronan
    Bureau, Thibault Varin, Alban Lepailleur, Cyril
    Daveu, Stephane Lemaître, Jean-Charles Lancelot,
    Aurelien Lesnard, Sabrina Butt Gueulle, François
    Dauphin and Sylvain Rault How to Measure the
    Similarity Between Protein Ligand-Binding Sites?
    Pp. 209-220 Esther Kellenberger, Claire Schalon
    and Didier Rognan Docking and High Throughput
    Docking Successes and the Challenge of Protein
    Flexibility Pp. 221-234 Claudio N. Cavasotto and
    Narender Singh Docking and Biomolecular
    Simulations on Computer Grids Status and Trends
    Pp. 235-249 Alexandru-Adrian Tantar, Sébastien
    Conilleau, Benjamin Parent, Nouredine Melab,
    Lorraine Brillet, Sylvaine Roy, El-Ghazali Talbi
    and Dragos Horvath Combining Ligand- and
    Structure-Based Methods in Drug Design Projects
    Pp. 250-258 Olivier Sperandio, Maria A. Miteva
    and Bruno O. Villoutreix

31
  • Société Française de Chemoinformatique
  • Environ 80 membres actifs ( 50 académiques, 50
    industriels)
  • 20 laboratoires publics et 20 labos privés
  • www.univ-orleans.fr/GFC

32
  • Merci de votre attention
Write a Comment
User Comments (0)
About PowerShow.com