Title: Bienvenue
1Bienvenue à GATTACA
"Le travail terminé, le résultat est apparu au
milieu de la nuit, sous les néons du centre
informatique de lInstitut Pasteur de Paris. Un
long mot de dix mille lettres, A, T, G, C sur un
listing dordinateur. Merveilleux. Lennemi
sétalait sur une feuille de papier".
Pierre Sonigo. Ni dieu ni gène. Seuil
2Une nécessité
Explosion de la quantité de données biologiques
http//www.ddbj.nig.ac.jp/statistics-e.html
3Une évolution
In vivo
In situ
In vitro
In silico
4Une évolution
Activité biologique
Études biochimiques
Séquence protéique
Gène
GATTACA
5Une évolution
ANALYSES DE SEQUENCES
Activité biologique
Études biochimiques
Séquence protéique
Gène
GATTACA
6Une histoire
Première banque de séquences protéiques (PIR)
lt 1980
Algorithme de comparaison de séquences (Needleman)
Banques de données (EMBL, GENBANK)
1980
Début de la micro-informatique
Développement de lInternet et des réseaux
Apparition des logiciels dalignement (FASTA et
BLAST)
1990
Projets de séquençage de génomes complets
2000
Séquençage du génome humain (Première ébauche)
7Bioinformatique ?
Analyse "in silico" de l'information biologique
contenue dans les séquences nucléiques et
protéiques
Bioinformatics
Ensemble de méthodes et de logiciels qui
permettent de gérer, manipuler, traiter et
analyser les données biologiques
computational biology
Biologie
Informatique
Mathématiques
Statistiques
8Thèmes et objectifs
- Acquérir, stocker, gérer les données gtgt bases
de données
- Développer des outils gtgt analyse/prédiction/visu
alisation
- Analyser, interpréter, prédire gtgt fonction du
gène/protéine
Tenter de répondre aux problèmes posés par la
biologie évolution, fonctionnement,
pathologies, thérapies
Gén Transcript Proté
ome
Interact Métabol Physi
9Banques de données
Collections de données (bibliographie, séquences,
structures) organisées à laide de bases de
données, interrogeables et distribués (Internet).
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR,
AsDb, BBDB, BCGD, Beanref, Biolmage,
BioMagResBank, BIOMDB, BIND, BLOCKS, BovGBASE,
BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,
CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP,
ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG,
CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP,
DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD,
DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc,
EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB,
ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS,
GENBANK GeneCards, Genline, GenLink, GENOTK,
GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb,
GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb,
HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN,
HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT,
Kabat, KDNA, Klotho, LGIC, MAD, MaizeDb, MDB,
Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5
Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us,
MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase,
OMIA, OMIM, OPD, ORDB, ORPHANET, OWL, PAHdb,
PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE,
PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, ProDom,
Prolysis, PROSITE, PROTOMAP, PubChem, PubMed,
RatMAP, RDP, REBASE, RGP, SBASE, SCOP,
SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD,
SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList,
SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL,
SWISS-PROT, Taxonomy, TelDB, TGN, tmRDB, TOPS,
TRANSFAC, TRR, UniGene, Uniprot, URNADB, V BASE,
VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD,
YPM,
Multitude de banques généralistes ou spécialisées
10Portails de bioinformatique
NCBI National Center for Biotechnology
Information gtgt BLAST, ORFinder, Genbank,
TaxBrowser, PubMed, PubChem, OMIM
EBI The European Bioinformatics Institute gtgt
EMBL, ClustalW, Align
EXPASY Proteomics server EXpert Protein
Analysis System gtgt Swiss-Prot, Enzyme, Swiss-2D
Page, Tools and software, Prolune
KEGG Kyoto Encyclopedia of Genes and Genomes gtgt
DDBJ, Genes, Pathway, Ligand
11Entrez au NCBI
Compounds
BioAssays
Substances
Literature
Organism
Expression
12Comparaison de séquences
La comparaison de séquences comme méthode de
prédiction Activité principale en bioinformatique
Alignement processus de comparaison de
séquences permettant d'obtenir le maximum de
correspondances entre les lettres qui les
composent. Il est quantifié par un score de
similarité
Similarité mesure du degré de ressemblance
entre séquences, quantifié par un score, calculé
à laide dune matrice de score.
Homologie parenté évolutive. Inférence déduite
à partir du degré de similitude. Mais deux
séquences similaires ne sont pas forcément
dérivées d'un ancêtre commun.
13Comparer pour prédire
Alignement de séquences
Matrice de score
Score de similitude
nt identiques gt 70 aa identiques gt 25
Degré dhomologie
Prédiction propriétés, structure, fonction
14Score et matrice de scores
Score dalignement Sscores élémentaires -
Spénalités
Matrice de score table décrivant la probabilité
quun acide aminé ou un nucléotide soit remplacé
par un autre au cours de l'évolution.
Les pénalités attribuées aux brèches qui
peuvent résulter dinsertion/délétion. Elles
doivent être suffisamment coûteuses pour éviter
les alignements sans signification biologique.
15Matrices nucléiques
A C G T
A 1 0 0 0
C 0 1 0 0
G 0 0 1 0
T 0 0 0 1
A C G T
A 3 0 1 0
C 0 3 0 1
G 1 0 3 0
T 0 1 0 3
Matrice unitaire
Matrice transition-transversion
16Matrice protéique
17Alignement global
Alignement de 2 séquences sur la totalité de leur
longueur
18Homme gorille !
1 HBB_GORGO 2 HBB_HUMAN Length 147
Identity 146/147 (99.3) Similarity 147/147
(100.0) Gaps 0/147 ( 0.0) Score 777.0
19Alignement multiple
Alignement de plusieurs séquences sur la totalité
de leur longueur
20Homme cousin du gorille !
21Alignement local
Alignement sur des segments de séquences
Comparer une séquence inconnue avec une banque de
séquences
FASTA (Fast Alignment Search Tool) BLAST (Basic
Local Alignment Search Tool)
22Mysterious sequence
gtMysterious_Sequence CCAGGAAAGCGACTTCACCGCACCTGATG
TGTGGTACCCTGGCGGCATGGTGAGCAGAGTGCCCTATCCC AGTCCCAC
TTGTGTCAAAAGCGAAATGGGCCCCTGGATGGATAGCTACTCCGGACCTT
ACGGGGACATGC GTTTGGAGACTGCCAGGGACCATGTTTTGCCCATTGA
CTATTACTTTCCACCCCAGAAGACCTGCCTGAT CTGTGGAGATGAAGCT
TCTGGGTGTCACTATGGAGCTCTCACATGTGGAAGCTGCAAGGTCTTCTT
CAAA AGAGCCGCTGAAGGGAAACAGAAGTACCTGTGCGCCAGCAGAAAT
GATTGCACTATTGATAAATTCCGAA
Database All GenBankEMBLDDBJPDB sequences
(but no EST, STS, GSS,environmental samples or
phase 0, 1 or 2 HTGS sequences) 6,705,617
sequences 23,530,056,687 total letters Query
Length350
23Enseignement
Les outils bioinformatiques
Les banques de données bibliographiques
Les banques de données de séquences
Les outils dalignement
Analyses simples dune séquence (SMS)
Traduction, recherche dORF
Calcul Tm, Recherche damorces
Paramètres physicochimiques dune protéine
Structures secondaires
Modélisation tridimensionnelle
24Bibliographie
Introduction à la bioinformatiqueC.Gibas,
P.Jambeck. O'ReillyBioinformatics for
dummiesJ.M. Claverie, C. Notredame. Wiley
Publishing Bioinformatique. Génomique et
post-génomiqueF. Dardel, F. Képès. Editions de
l'école polytechnique Travaux dirigés de
biochimie, biologie moléculaire et
bioinformatiqueG. Coutouly, E.Klein, E.
Barbieri, M. Kriat. Edition Doin