Title: Introduction la Bioinformatique
1Introduction à la Bioinformatique
David Perret INSERM U564 4, rue Larrey 49033
Angers Cedex 01 02.41.35.47.32 david.perret_at_etud.u
niv-angers.fr
Université dAngers - Maîtrise de Biologie
Cellulaire
1
2Quest-ce quun génôme ?
Des gènes portions dADN codant des
protéines portions d ADN codant des ARN ARNr,
ARNt, ARNsn, portions d ADN codant des ARN non
traduits Eléments régulateurs promoteurs,
enhancers, Eléments requis pour la réplication
des chromosomes origines de réplication,
télomères, centromères, Séquences non
fonctionnelles séquences non codantes séquences
répétées pseudogènes
2
Université dAngers - Maîtrise de Biologie
Cellulaire
3Taille des génômes ?
Mycoplasma genitalium 0,6 Mb
Prokaryotes
Escherichia coli 4,7 Mb
Eukaryotes
Saccharomyces. cerevisiae 13,5 Mb
C. elegans 100 Mb
Fugu rubripes 400 Mb
Homo sapiens 3400 Mb
Amphibiens 100 000 Mb
Amoeba dubia 700 000 Mb
3
Université dAngers - Maîtrise de Biologie
Cellulaire
4Gènes et éléments fonctionnels dans les génomes
E. coli
?
H. sapiens
Taille du génôme x1000 Nombre de gènes x10
4
Université dAngers - Maîtrise de Biologie
Cellulaire
5Proportion déléments fonctionnels dans le
génôme humain
85 dADN sans fonctions connues
5
Université dAngers - Maîtrise de Biologie
Cellulaire
6Gène protéique eucaryote type
promoteur
exons
introns
site de polyadénylation
ADN
TRANSCRIPTION
préARNm
signaux dépissage
ARNm
donneur
accepteur
ATG
STOP
AG
GT
AG
GT
point de branchement
Protéine
6
Université dAngers - Maîtrise de Biologie
Cellulaire
7Structure dun gène protéique humain
7
Université dAngers - Maîtrise de Biologie
Cellulaire
8Doù provient la complexité du génôme humain ?
- Pseudogènes après la duplication dun gène
- Evolution vers une nouvelle fonction
- Inactivation dun gène
8
Université dAngers - Maîtrise de Biologie
Cellulaire
9Doù provient la complexité du génome humain ?
- Rétropseudogènes
- 23000 à 33000 dans le génome humain
- dérivé de gènes ubiquitaires
9
Université dAngers - Maîtrise de Biologie
Cellulaire
10Lalignement des séquences biologiques pourquoi
?
- Identification de gènes homologues
- Recherches de contraintes fonctionnelles
communes à un ensemble de gènes ou de protéines - Prédictions de fonctions
- Prédictions de structures dARN et de protéines
- Reconstitution des relations évolutives entre
séquences (phylogénie) - Choix damorces pour la PCR
10
Université dAngers - Maîtrise de Biologie
Cellulaire
11Prédiction de fonction par homologie ?
- Mais
- Le concept de fonction est flou
- Activité biochimique identique ?
- Distribution tissulaire identique ?
- Compartimentation identique ?
- Protéines homologues de fonctions différentes ?
- Homologues ligands dun même récepteur
- Homologues recrutées pour des fonctions
- très différentes
Prot1 TKRKLCGDSSPD Prot2 AKRKSCGDSSPD
SIMILARITE
HOMOLOGIE
CONSERVATION STRUCTURALE
FONCTION CONSERVEE
11
Université dAngers - Maîtrise de Biologie
Cellulaire
12Histoire
1865 (Mendel) Théorie de lhérédité
1944 (Avery) ADN, support de linformation
génétique
1951 (Watson Crick) L ADN est une double
hélice
1951 (Sanger) Séquençage de linsuline
1970 Needleman Wunsch
1978(Dayhoff) Matrices PAM
1970 Needleman Wunsch
2000/2001 1ier brouillon du génome humain
1980/1986 Création de lEMBL (1980) ,de GenBank
(1982) et de la DDBJ (1986).Création de SwissProt
(1986)
1990 (Altschul) BLAST
1981 (Smith Waterman) Smith Waterman
1990 (Henikoff) Matrices BLOSUM
12
Université dAngers - Maîtrise de Biologie
Cellulaire
13Les banques de données de séquences biologiques
accessibilité sur Internet
Articles et livres 1968 -gt 1985 Cassettes
informatiques 1982 -gt1992 Disquettes 1984 -gt
1990 CD-ROM 1989 -gt ? Serveur FTP 1989 -gt
? WWW 1993 -gt ? DVD 2001 -gt ?
13
Université dAngers - Maîtrise de Biologie
Cellulaire
14Les étapes du séquençage dun génome
Séquence non-terminée contigs non-orientés et
non-ordonnés, gaps
HTG
2
Séquence non-terminée contigs orientés et
ordonnés, gaps
3
HUM
Séquence terminée
14
Université dAngers - Maîtrise de Biologie
Cellulaire
15Les banques de données de séquences biologiques
définition
Une collection de données structurées
indexées (table des matières) périodiquement
mise à jour contenant des références croisées
avec dautres banques. Elles comportent
souvent des outils associés (logiciels)
nécessaires pour laccession à la banque la
mise à jour de la banque Il existe
essentiellement deux catégories de banques de
données généralistes GenBank, EMBL, DDBJ,
SwissProt, PIR, spéciaisées PDB, ProSite,
BLOCKS, Pfam, Swiss-3Dimage, ...
15
Université dAngers - Maîtrise de Biologie
Cellulaire
16Les banques de données de séquences biologiques
structure dune entrée de la banque
Identification de la séquence
ID IL6_HUMAN STANDARD PRT 212
AA. AC P05231 DT 13-AUG-1987 (Rel. 05,
Created) DT 13-AUG-1987 (Rel. 05, Last sequence
update) DT 01-MAR-2002 (Rel. 41, Last
annotation update) DE Interleukin-6 precursor
(IL-6) (B-cell stimulatory factor 2) (BSF-2) DE
(Interferon beta-2) (Hybridoma growth factor). GN
IL6 OR IFNB2. OS Homo sapiens (Human). OC
Eukaryota Metazoa Chordata Craniata
Vertebrata Euteleostomi OC Mammalia
Eutheria Primates Catarrhini Hominidae Homo.
OX NCBI_TaxID9606 RN 1 RP SEQUENCE
FROM N.A., AND PARTIAL SEQUENCE. RX
MEDLINE87065033 PubMed3491322 NCBI, ExPASy,
EBI, Israel, Japan RA Hirano T., Yasukawa K.,
Harada H., Taga T., Watanabe Y., Matsuda T., RA
Kashiwamura S.-I., Nakajima K., Koyama K.,
Iwamatsu A., Tsunasawa S., RA Sakiyama F.,
Matsui H., Takahara Y., Taniguchi T., Kishimoto
T. RT "Complementary DNA for a novel human
interleukin (BSF-2) that induces RT B
lymphocytes to produce immunoglobulin." RL
Nature 32473-76(1986). CC -!- FUNCTION IL6 IS
A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC
FUNCTIONS IT PLAYS AN ESSENTIAL ROLE IN THE
FINAL DIFFERENTIATION CC OF B-CELLS INTO
IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC
PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS
DIFFERENTIATION, IN CC HEPATOCYTES IT
INDUCES ACUTE PHASE REACTANTS. CC -!-
SUBCELLULAR LOCATION Secreted. CC -!-
SIMILARITY BELONGS TO THE IL-6 SUPERFAMILY. DR
EMBL X04430 CAA28026.1 -. EMBL / GenBank /
DDBJ CoDingSequence DR EMBL M14584
AAA52728.1 -. EMBL / GenBank / DDBJ
CoDingSequence .. DR PDB 1IL6 04-FEB-98.
ExPASy / RCSB DR PDB 2IL6 04-FEB-98.
ExPASy / RCSB ... DR Pfam PF00489 IL6
1. KW Cytokine Glycoprotein Growth factor
Signal Polymorphism KW 3D-structure.
Numéro unique daccession (Accession Number - AC)
Données taxinomiques
Références bibliographiques
Annotations
Références croisées avec dautres banques de
données
Mots-clefs
16
Université dAngers - Maîtrise de Biologie
Cellulaire
17Les banques de données de séquences biologiques
structure dune entrée de la banque
FT SIGNAL 1 29 FT CHAIN
30 212 INTERLEUKIN-6. FT DISULFID
72 78 FT DISULFID 101 111
FT CARBOHYD 73 73 N-LINKED
(GLCNAC...). FT VARIANT 32 32 P
-gt S. FT
/FTIdVAR_013075. FT VARIANT 162 162
D -gt V. FT
/FTIdVAR_013076. FT MUTAGEN 173 173
A-gtV ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN
185 185 W-gtR NO LOSS OF ACTIVITY. FT
MUTAGEN 204 204 S-gtP 13
ACTIVITY. FT MUTAGEN 210 210
R-gtK,E,Q,T,A,P LOSS OF ACTIVITY. FT MUTAGEN
212 212 M-gtT,N,S,R LOSS OF
ACTIVITY. SQ SEQUENCE 212 AA 23718 MW
1F1ED1FE1B734079 CRC64 MNSFSTSAFG
PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS
ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL
NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ
NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT
TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR
QM //
Annotation de la séquence
Séquence
Fin de lentrée
- La séquence peut être formatée le format FASTA
Entrée de SwissProt
Numéro unique daccession
Informations diverses (nom, espèce, )
gtspP05231IL6_HUMAN Interleukin-6 precursor
(IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLL
LVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALR
KETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITG
LL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTP
DPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM
17
Université dAngers - Maîtrise de Biologie
Cellulaire
18Les banques de données de séquences biologiques
laquelle choisir ?
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR,
AsDb, BBDB, BCGD, Beanref, Biolmage,
BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP,
BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH,
CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri,
COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC,
dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP,
DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC,
EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME,
EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB,
GENATLAS, Genbank, GeneCards, Genline, GenLink,
GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase,
gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS,
HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC, HlVdb,
HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN,
ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG,
Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel,
MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat,
MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR,
MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA,
OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD,
Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB,
PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,
PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP,
SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD,
SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList,
SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL
Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS,
TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR,
VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc
...
18
Université dAngers - Maîtrise de Biologie
Cellulaire
19Les banques de données de séquences biologiques
accessibilité sur Internet
- Banques généralistes
- GenBank (Etats-Unis - 1982) http//www.ncbi.nlm
.nih.gov/GenBank/ - DNA DataBank of Japan (Japon - 1986)
http//www.ddbj.nig.ac.jp - EMBL (Europe - 1980) http//www.ebi.ac.uk/embl/
- Banques spécialisées
- ProSite http//www.expasy.ch/prosite/
- Pfam http//www.sanger.ac.uk/Software/Pfam/inde
x.shtml - BrookHaven Protein DataBank (PDB)
http//www.rcsb.org/pdb/ - FlyBase http//flybase.harvard.edu7081/
19
Université dAngers - Maîtrise de Biologie
Cellulaire
20Une séquence symboles, structure et fonction
- Alphabet de symboles (acides aminés)
- chaque symbole a une signification propre
- chaque symbole a une certaine propension à être
placé à côté de tel ou tel voisin - chaque symbole peut être décrit par un
descripteur binaire (1 ou 0)
AA1
AA2
di1 lacide aminé i est gros di2 lacide
aminé i est chargé positivement di3 lacide
aminé i est aromatique di4 lacide aminé i est
soufré
d11 d12 d13 d14
d21 d22 d23 d24
descripteur binaire de lacide aminé 1
descripteur binaire de lacide aminé 2
Exemple descripteur binaire de la séquence GCW
Lensemble des descripteurs binaires dune
séquence contient toute linformation nécessaire
à la protéine pour adopter sa structure et donc
sa fonction.
G 0000
C 0001
W 1010
20
Université dAngers - Maîtrise de Biologie
Cellulaire
21Alignement global et alignement local
- Alignement global (Needlman Wunsch, 1970)
Protéine A
Protéine B
- Alignement local (Smith Waterman, 1981
FASTA, 1988 BLAST, 1990)
ARNm
gène
21
Université dAngers - Maîtrise de Biologie
Cellulaire
22Alignement représentation
- Opérations élémentaires dédition opérations
permettant de passer dune séquence à une
autre - insertions (i)
- délétions (d)
- substitutions (s)
A A - B C A A A A C B C A A
INsertion / DELétion INDEL
A A B C A A A A - C A A
A A B C A A A A C C A A
22
Université dAngers - Maîtrise de Biologie
Cellulaire
23Quel est le meilleur alignement ?
GTTACGA GTT-GGA
GTTAC-GA GTT--GGA
GTTACGA GTTG-GA
5 matches 1 délétion 1 substitution (CgtG)
5 matches 1 délétion 1 substitution (AgtG)
5 matches 2 délétions 1 insertion
Système de score
se score élémentaire sp pénalité dindel
23
Université dAngers - Maîtrise de Biologie
Cellulaire
24Les matrices nucléiques de substitution
- Unitaire et unitaire inverse
Matches 3
Transitions 1
Transversions 0
24
Université dAngers - Maîtrise de Biologie
Cellulaire
25Les matrices protéiques de substitution
- Matrice de substitution protéique liée au code
génétique - Nombre de mutations nécessaires pour passer du
codon d'un acide aminé au codon d'un autre acide
aminé
1 mutation sur la première base du codon
25
Université dAngers - Maîtrise de Biologie
Cellulaire
26Les matrices protéiques de substitution
- Les matrices liées aux propriétés
physico-chimiques - hydrophobie / hydrophilie (Levitt, 1976)
- propension dun acide aminé à intégrer une
structure secondaire précise (Levin, 1986).
26
Université dAngers - Maîtrise de Biologie
Cellulaire
27Les matrices protéiques de substitution
- Les matrices liées à lévolution matrices PAM
- représentent les échanges possibles et
acceptables dun acide aminé par un autre lors de - lévolution des protéines (Dayhoff,
1978). - Principe de base si deux séquences
appartiennent au même processus évolutif, et
quun acide aminé de lune a été muté pour donner
lautre, alors on peut supposer que les deux
acides aminés sont similaires - les mutations sont dites acceptées (Point
Accepted Mutation) - elles ont été conservées au cours de lévolution
de part leur caractère à ne pas altérer la
fonction de la protéine. - Les protéines évoluent via des successions de
mutations ponctuelles indépendantes les unes des
autres et acceptées dans la population.
27
Université dAngers - Maîtrise de Biologie
Cellulaire
28La matrice de substitution PAM250 (Dayhoff, 1978)
?
?
28
Université dAngers - Maîtrise de Biologie
Cellulaire
29Les matrices de substitution PAM (Dayhoff, 1978)
construction (1/4)
?
Fréquences déchanges de paires dacides aminés
Mutation fixée durablement au cours de lévolution
unité de distance évolutive 1 unité PAM une
mutation ponctuelle acceptée entre deux séquences
pour 100 résidus
Utilisation de 71 familles (1300 protéines) de
protéines à 85 identiques
Construction darbres phylogénétiques
Construction des matrices pour chaques
couples dacides aminés échangés
29
Université dAngers - Maîtrise de Biologie
Cellulaire
30Les matrices de substitution PAM (Dayhoff, 1978)
construction (2/4)
?
Mutabilité des acides aminés (mj)
- Propension dun acide aminé a être remplacé par
un autre acide - aminé
- Soit lalignement suivant
- Les acides aminés en jeu sont les suivants A,
D, E, F, W et R.
A D E F R E A D D W R E
30
Université dAngers - ISSBA - Option
Biotechnologie
31Les matrices de substitution PAM (Dayhoff, 1978)
construction (3/4)
- Calcul de la probabilité quun acide aminé i de
la matrice remplace un acide aminé j - La matrice ainsi construite est appelée 1-PAM
elle définit lunité de changement évolutif,
lunité PAM. Deux séquences sont séparées par une
distance évolutive de 1 PAM si il y a eu 1
changement observé et accepté au cours de
l'évolution pour 100 acides aminés.
- Chaque élément de la matrice est divisé par la
fréquence doccurrence de chaque acide aminé
Université dAngers - Maîtrise de Biologie
Cellulaire
31
32Les matrices de substitution PAM (Dayhoff, 1978)
construction (4/4)
- Elle est calculée en prenant le logarithme de la
matrice précedente - Cette matrice peut être utilisée pour simuler
l'évolution en utilisant un générateur de nombres
aléatoires afin de prédire le devenir de chaque
résidu et ceci en accord avec les probabilités
données dans la table. Les opérations suivantes
sont équivalentes - - applications successives de 1-PAM sur une
séquence - - multiplication de la matrice 1-PAM par
elle-même puis application à une séquence - - rééchelonnage des éléments de 1-PAM par une
constante de proportionnalité suivi de
l'application à une séquence
32
Université dAngers - Maîtrise de Biologie
Cellulaire
33Les matrices de substitution PAM (Dayhoff, 1978)
construction (4/4)
- Utilisation de la matrice PAM
Twilight Zone
Distances (en de différences)
PAM
33
Université dAngers - Maîtrise de Biologie
Cellulaire
34La matrice de substitution PAM250 (Dayhoff, 1978)
Lasparagine et lalanine sont plus mutables
que les acides aminés aromatiques
Les aromatiques sont peu mutables
34
Université dAngers - Maîtrise de Biologie
Cellulaire
35Les matrices protéiques de substitution
- Les matrices de type BLOSUM (BLOcks Substitution
Matrix) - observation de blocs dacides aminés issus de
protéines relativement éloignées - chaque bloc provient dalignements multiples
sans insertions / délétions de courtes régions
conservées - les blocs sont utilisés pour regrouper tous les
segments de séquences ayant un pourcentage
didentité minimum au sein de leur bloc - on en déduit des fréquences de substitution pour
chaque paire dacides aminés - on calcule une matrice logarithmique de
probabilité - à chaque pourcentage didentité correspond une
matrice - BLOSUM50 avec un seuil didentité de 50
- BLOSUM62 avec un seuil didentité de 62 .
35
Université dAngers - Maîtrise de Biologie
Cellulaire
36Quelle matrice de substitution choisir ?
Identité
PAM
BLOSUM
- Pas de matrice idéale
- Les matrices dérivées des mutations observées
donnent, - pour les protéines, de meilleurs résultats que
les matrices - basées sur lidentité, le code génétique ou les
propriétés - physico-chimiques.
- Matrices PAM établies par M. Dayhoff (1978)
- donnent un trop grand poids aux identités
- négligent trop les ressemblances structurales
- PAM250 séquences éloignées, faible identité
- PAM125 séquences proches, identité élevée.
- Matrices BLOSUM (1992)
- construites à partir de plus de données
- BLOSUM62 séquences proches, identité élevée
- BLOSUM30 séquences éloignées, identité faible.
- Barton, G.J. (1996), Protein Sequence Alignment
and Database Scanning , In Protein Structure
Prediction A Practical Approach (Ed. M.J.E.
Sternberg), IRL Press at Oxford University Press. - http//barton.ebi.ac.uk/papers/rev93_1/rev93_1.htm
l
100
90
90
80
50
70
62
60
50
50
100
40
120
30
30
20
250
10
0
36
Université dAngers - Maîtrise de Biologie
Cellulaire
37Alignement global et programmation dynamique
Needlemann Wunsch (1970)
- Soient 2 séquences A et B de longueur respective
m et n - Soient i et j 2 acides aminés quelconques de A
et B.
Construction dune matrice de comparaison (m,n)
Matrice transformée par laddition de scores
Chemin des scores maxima
37
Université dAngers - Maîtrise de Biologie
Cellulaire
38Alignement global et programmation dynamique
Needlemann Wunsch (1970)
Exemple Alignement global des séquences
VTEERDAF et LTSHEAL avec la matrice PAM250
i
iltx?m y j1
j
x i1 jlty?n
Matrice initiale
Transformation de la matrice initiale
38
Université dAngers - Maîtrise de Biologie
Cellulaire
39Alignement global et programmation dynamique
Needlemann Wunsch (1970)
Exemple Alignement des séquences VTEERDAF et
LTSHEAL avec la matrice PAM250
S(R,H) se(R,H) max S(x,y) se(R,H)
2 S(x,y) ? S(D,E) 7 ? S(A,E) 2 ? S(F,E)
-5 ? S(D,A) 2 ? S(D,L) -4
Matrice initiale
Matrice en cours de transformation
39
Université dAngers - Maîtrise de Biologie
Cellulaire
40Alignement global et programmation dynamique
Needlemann Wunsch (1970)
Exemple Alignement des séquences VTEERDAF et
LTSHEAL avec la matrice PAM250
substitution
insertion dans i délétion dans j
insertion dans j délétion dans i
V T - E E R D A F L T S H E - - A L
Matrice transformée et chemin des scores maxima
Listing dédition
40
Université dAngers - Maîtrise de Biologie
Cellulaire
41Alignement global limites
- Les deux séquences présentent une similarité que
lalignement global ne révèle pas
G G C T G A C C A C C - T T
G A - T C A C T T C C A T G
- Un alignement local aurait donné le résultat
suivant
G G C T G A C C A C C T T
G A T C A C - T T C C A T G
41
Université dAngers - Maîtrise de Biologie
Cellulaire
42Alignement local Smith Waterman (1981)
- Nimporte quelle cellule de la matrice de
comparaison peut être prise comme point de départ
pour le calcul des scores sommes - Tout score somme qui devient négatif stoppe la
progression du calcul. Cette nouvelle case peut
être initialisée à 0 et constituer un nouveau
point de départ.
Exemple Alignement local des séquences VTEERDAF
et LTSHEAL avec la matrice PAM250 et P 6
Matrice initiale
Matrice dont les scores négatifs ont été supprimés
42
Université dAngers - Maîtrise de Biologie
Cellulaire
43Alignement local Smith Waterman (1981)
Exemple Alignement local des séquences VTEERDAF
et LTSHEAL avec la matrice PAM250 et P 6
i
i2ltx?m y j1
j
x i1 j2lty?n
Matrice initiale
Transformation de la matrice initiale
43
Université dAngers - Maîtrise de Biologie
Cellulaire
44Alignement local Smith Waterman (1981)
Exemple Alignement local des séquences VTEERDAF
et LTSHEAL avec la matrice PAM250 et P 6
S(R,H) se(R,H) max S(x,y) se(R,H) 2 P
6 S(x,y) ? S(D,E) 7 ? S(F,E) -6 ? S(D,L)
-6
Matrice initiale
Matrice en cours de transformation
44
Université dAngers - Maîtrise de Biologie
Cellulaire
45Alignement local Smith Waterman (1981)
Exemple Alignement local des séquences VTEERDAF
et LTSHEAL avec la matrice PAM250 et P 6
substitution
insertion dans i délétion dans j
insertion dans j délétion dans i
3 E E R D A F 8 2 T S H E A L 7
Matrice transformée et chemin des scores maxima
Listing dédition
45
Université dAngers - Maîtrise de Biologie
Cellulaire
46Alignement local recherches de similitudes dans
les banques de séquences
- Pourquoi ?
- Savoir si ma séquence ressemble à d'autres déjà
connues - Trouver toutes les séquences d'une même famille
- Rechercher toutes les séquences qui contiennent
un motif donné - Outils
- grand volume de texte à traîter
- programmes classiques dalignement inutilisables
- utilisation dheuristiques
- programmes BLAST et FASTA
- le résultat n est pas garanti comme étant le
meilleur
46
Université dAngers - Maîtrise de Biologie
Cellulaire
47BLAST Basic Local Alignment Search Tool
(Altschul et al, 1990)
- Recherche de régions sans insertions / délétions
riches en similarité
- Détermination dune longueur de mot w 2 ou 3
acides aminés pour les protéines - Hachage de la séquence requête en mot de
taille w
Séquence requête
m
Liste de mots voisins de longueur w ayant un
score supérieur à un seuil T fixé par rapport au
mot m.
Chaque mot similaire au mot m est comparé
à chaque mot de taille w pris dans chaque
séquence Bi de la banque. Lorsquun mot dune
séquence Bi est identique à un mot de la liste de
mots voisins, un hit est enregistré.
Pour chaque hit, le programme effectue une
extension sans gap de lalignement dans les deux
sens. Lextension sarrête quand le score du mot
étendu diminue de plus quun seuil X fixé. Les
segments ayant un score de similarité supérieur à
un score S seuil fixé sont retenus (High Scoring
Pairs HSP).
47
Université dAngers - Maîtrise de Biologie
Cellulaire
48BLAST exemple
m(w3)
S L A A L L N K C K T P Q G Q R L V N Q W
P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D
G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N
12 ...
S(P,P) 7 S(Q,R) 1 S(G,G) 6
Liste de mots voisins
Score seuil T 13
Query 325 S L A A L L N K C K T P Q G Q R L V
N Q W 345 L A L T P
G R W Sbjct 290 T L A S V L D C T V
T P M G S R M L K R W 310
High Scoring Pairs (HSP)
48
Université dAngers - Maîtrise de Biologie
Cellulaire
49BLAST Approche à adopter
- Choix de lalgorithme
- Matrice de substitution
- Stratégie de recherche nucléique ou protéique
- Traitement du bruit de fond.
BLAST Paramètres par défaut
FASTA Paramètres par défaut
Filtrage
BLAST Adaptation des paramètres
FASTA Adaptation des paramètres
49
Université dAngers - Maîtrise de Biologie
Cellulaire
50BLAST Choix du programme
SEQUENCE
BANQUE
BLASTP
Protéique
Protéique
BLASTX
TBLASTN
T
T
BLASTN
Nucléique
Nucléique
TBLASTX
T
T
50
Université dAngers - Maîtrise de Biologie
Cellulaire
51BLAST sur Internet Requête(1/8)
http//www.ncbi.nlm.nih.gov/blast/
séquence requête
choix de la base de données
51
Université dAngers - Maîtrise de Biologie
Cellulaire
52BLAST sur Internet Paramètres (2/8)
http//www.ncbi.nlm.nih.gov/blast/
Limiter la recherche à une espèce
Filtre pour les séquences de faible complexité
E-value limite
Taille w du mot m
Choix de la matrice et gestion des indels
Position Specific Score Matrix
PSI - BLAST
Options supplémentaires
Motif PHI - BLAST
52
Université dAngers - Maîtrise de Biologie
Cellulaire
53BLAST sur Internet Format de la sortie (3/8)
http//www.ncbi.nlm.nih.gov/blast/
Limiter l affichage des résultats à une espèce
Limiter laffichage des résultats à une plage de
valeur dE-value
Pour recevoir les résultats par e-mail
53
Université dAngers - Maîtrise de Biologie
Cellulaire
54BLAST sur Internet Fichier de sortie (5/8)
http//www.ncbi.nlm.nih.gov/blast/
Séquence requête
Banques de données choisies
54
Université dAngers - Maîtrise de Biologie
Cellulaire
55BLAST sur Internet Fichier de sortie (6/8)
http//www.ncbi.nlm.nih.gov/blast/
Nombres de hits
Répartition des hits en fonction du score
55
Université dAngers - Maîtrise de Biologie
Cellulaire
56BLAST sur Internet Fichier de sortie (7/8)
http//www.ncbi.nlm.nih.gov/blast/
56
Université dAngers - Maîtrise de Biologie
Cellulaire
57BLAST sur Internet Fichier de sortie (8/8)
http//www.ncbi.nlm.nih.gov/blast/
57
Université dAngers - Maîtrise de Biologie
Cellulaire