Introduction IFT6291 BIN6000 Bioinfo' gnomique - PowerPoint PPT Presentation

1 / 22
About This Presentation
Title:

Introduction IFT6291 BIN6000 Bioinfo' gnomique

Description:

The analysis of biological information using computers and statistical ... Tache courante d'un biologiste: Est-ce qu'une nouvelle s quence a d j t compl tement ... – PowerPoint PPT presentation

Number of Views:99
Avg rating:3.0/5.0
Slides: 23
Provided by: mab66
Category:

less

Transcript and Presenter's Notes

Title: Introduction IFT6291 BIN6000 Bioinfo' gnomique


1
Introduction IFT6291 - BIN6000Bioinfo. génomique
2
  • Définition de la Bioinformatique

3
  • An interdisciplinary area at the intersection of
    biological, computer, and information sciences
    necessary to manage, process, and understand
    large amounts of data, for instance from the
    sequencing of the human genome, or from large
    databases containing information about plants and
    animals for use in discovering and developing new
    drugs.www.isye.gatech.edu/tg/publications/ecolog
    y/eolss/node2.html
  • The analysis of biological information using
    computers and statistical techniques the science
    of developing and utilizing computer databases
    and algorithms to accelerate and enhance
    biological research.www.niehs.nih.gov/dert/trc/gl
    ossary.htm
  • The collection, organization and analysis of
    large amounts of biological data, using networks
    of computers and databases.www.abc.net.au/science
    /slab/genome2001/glossary.htm
  • The science of developing computer software and
    algorithms to record and analyze biology related
    data, e.g. gene, protein, metabolic pathways and
    active drug ingredients data.www.lionbioscience.c
    om/investors/e19634/index_print_eng.html

4
  • Pour les biologistes
  • Utilisation de logiciels informatiques pour
    traiter rapidement les données biologiques.
  • Bases de données permettant de stocker et gérer
    linformation biologique.
  • Pour les informaticiens
  • Modélisation de problèmes de biologie moléculaire
  • Complexité du problème
  • Développement dune méthode algorithmique qui
    allie précision et efficacité.
  • Implémentation de lalgorithme
  • Validation sur des données simulées.
  • Application aux données biologiques
  • Inférence de résultats biologiques.

5
  • Sapplique à tout type de données biologiques
  • Séquences dADN et de protéines
  • Structures dARN et de protéines
  • Contenus en gènes des génomes
  • Arbres de phylogénie
  • Puces à ADN (microarrays)
  • Réseaux dinteractions entre protéines
  • Réseaux métaboliques

6
Défis de la Bioinformatique
  • Analyser, comprendre et organiser une masse de
    données biologiques
  • Plus de 200 génomes complètement séquencés et
    publiés, dont lhomme (23 paires de chro.) et la
    souris (20 paires de chro.)
  • Projets de séquençage de plus de 500 procaryotes
    et 400 eucaryotes
  • Projet HapMap du génome humain Construction de
    la carte des haplotypes

7
(No Transcript)
8
II- Concepts de base de la biologie moléculaire
9
Le Génome
  • Toutes les cellules dun organisme vivant
    contiennent le même code génétique
  • ADN Séquence de 4 nucléotides
  • Purines Adénine (A), Guanine (G)
  • Pyrimidines Cytosine (C ), Thymine (T)

base
base
base
phosphate
phosphate
sucre
sucre
sucre
nucléotide
atgcccaagctgaatagcgtagaggggttttcatcatttgaggacgatgt
ataa
10
  • Structure tridimentionnelle
  • Deux brins face à face maintenus par des liens
    Watson-Crick
  • A - T
  • G C
  • ADN nucléaire des eucaryotes linéaire
  • ADN des bactéries, et organelles généralement
    circulaire.

11
  • Matériel génétique contenu dans plusieurs
    macromolécules dADN Les chromosomes
  • Génome Ensemble des chromosomes dun organisme
  • Organisme diploide Deux copies de chaque
    chromosome
  • Homme 23 paires de chromosomes
  • Souris 20 paires de chromosomes
  • Taille des génomes
  • Bactéries de 500.000 pb à 13Mb
  • Eukaryotes de 8Mb (certains champignons) à 686Gb
    (certains amibes)

12
Acide ribonucléique ou ARN
  • Chaîne dacide nucléiques dont le sucre est le
    ribose et les bases possibles sont
  • Adénine (A), Cytosine (C ), Guanine (G), Uracil
    (U)
  • 3 types principaux
  • ARN messager (mRNA)
  • ARN de transfert (tRNA)
  • ARN ribosomique (rRNA)

13
  • ARN non codants (tout sauf ARNm) se replie en
    structure secondaire et tertiaire
  • Bases complémentaires
  • A-U
  • G-C

14
Les protéines
  • Séquences linéaires de 20 acides aminés
  • MPKLNSVEGFSSFEDDCPSARGFHHLRTMY
  • Responsables de la plupart des fonctions dune
    cellule
  • Longueur typique au alentour de 300 AA, étendue
    100-5000 AA
  • Structures
  • Primaire Séquence linéaire dAA
  • Structure secondaire Hélices a et feuillets b
  • Structure tertiaire Regroupement en domaines
  • Dogme La structure tri-dimentionnelle détermine
    la fonction dune protéine

15
(No Transcript)
16
Transcription et traduction
17
(No Transcript)
18
(No Transcript)
19
Défis de la biologie moléculaire
  • Décoder linformation contenue dans les séquences
    dADN et de protéines
  • Trouver les gènes
  • Différencier entre introns et exons
  • Trouver les régions répétitives dans lADN
  • Étudier lévolution des génomes
  • Génomique structurale
  • Modéliser les structures 3D des protéines et des
    ARN structurels
  • Déterminer la relation entre structure et
    fonction
  • Génomique fonctionnelle
  • Étudier la régulation des gènes
  • Déterminer les réseaux dinteraction entre les
    protéines

20
Pourquoi un cours dalgorithmique sur le texte?
  • Analyse des séquences biologiques fondamental
    pour répondre à un grand nombre de questions
    biologiques.
  • Intérêt des séquences biologiques
  • La séquence nucléotidique dun gène détermine la
    séquence dAA de la protéine
  • La séquence dune protéine détermine sa structure
    et sa fonction
  • Généralement, une similarité de séquence implique
    une similarité de structure et de fonction
    (linverse nest pas toujours vrai)

21
Problèmes Bioinformatiques nécessitant des
méthodes dalgorithmique sur le texte
  • Recherche dans les banques de données
    biologiques
  • Tache courante dun biologiste
  • Est-ce quune nouvelle séquence a déjà été
    complètement ou partiellement répertoriée?
  • Est-ce que cette séquence contient un gène?
  • Est-ce que ce gène appartient à une famille
    connue?
  • Existe-t-il dautres gènes homologues?
  • Logiciels les plus connus Smith-Waterman, FASTA
    et BLAST
  • Alignement de séquences Est-ce que deux
    séquences correspondent à deux gènes homologues?
  • Recherche de sous-motifs communs à un ensemble de
    séquences (ADN, ARN). Établissement de consensus,
    alignement multiple
  • Recherche de régions contenant des séquences
    répétées (en tandem ou transposées)
  • Recherche dhélices dARN
  • Recherche de gènes (régions promotrices, facteurs
    de transcription)

22
  • Éviter
  • Utilisation systématique de BLAST, sans
    comprendre son fonctionnement -gt interprétation
    fausse des résultats, conclusions hâtives,
    utilisation abusive
  • Compréhension des outils informatiques se
    limitant à la modification de paramètres et de
    propriétés particulières
  • Comprendre les méthodes algorithmiques utilisées
  • Quelques idées algorithmiques de base permettent
    de résoudre un grand nombre de problématiques
    bioinformatiques
  • Interêts pour un informaticien La
    bioinformatique est la source dune multitude de
    nouveaux problèmes algorithmiques et statistiques
Write a Comment
User Comments (0)
About PowerShow.com