Title: Mise%20en%20relation%20de%20Medline%20avec%20Flybase%20par%20l
1Mise en relation de Medline avec Flybase par
lidentification dans Medline des gènes décrits
dans Flybase et application à lextraction
dinformations sur les interactions génétiques ou
moléculaires à partir de publications
Le 28 mars 2002
- Ambroise Ingold (LIPN Université Paris 13)
2Plan
- Motivations
- Identification des gènes dans Medline
- Extraction dinformation sur les interactions
- Interface de la base de données
- Perspectives
3La circulation de linformation
Recherche
Données dexpériences
Publications
BdD Bibliographiques Medline
Banque de résultats dexpériences Swissprot,
Genbank
Encyclopédies en ligne Flybase
4Investigation dans les BdD
Représentation des connaissances
GED, informatique documentaire
Indexation
BdD Bibliographique
Encyclopédies en ligne
Réf. Biblio.
Réf. rés. exp.
Réf. Biblio.
Réf. rés. exp.
Indexation
Banques de résultats dexpériences
Bio-informatique
5Medline (exemple)
- MeSH Terms
- Amino Acid Sequence
- Animal
- Drosophila/genetics
- Drosophila/embryology
- Epitope Mapping
- Gene Expression
- Gene Expression Regulation, Developmental
- Genes, Insect
- Helix-Loop-Helix Motifs/genetics
- Immunohistochemistry
- In Situ Hybridization
- In Vitro
- Molecular Sequence Data
- Morphogenesis/genetics
- Sense Organs/embryology
- Support, Non-U.S. Gov't
- Gene Symbols
- da
Regulation of scute function by extramacrochaete
in vitro and in vivo. The pattern of adult
sensilla in Drosophila is established by the
dosage-sensitive interaction of two antagonistic
groups of genes. Sensilla development is promoted
by members of the achaete-scute complex and the
daughterless gene whereas it is suppressed by
whereas extramacrochaete (emc) and hairy. All
these genes encode helix-loop-helix proteins. The
products of the achaete-scute complex and
daughterless interact to form heterodimers able
to activate transcription. In this report, we
show that (1) extra-macrochaete forms
heterodimers with the achaete, scute, lethal of
scute and daughterless products (2)
extramacrochaete inhibits DNA-binding of Achaete,
Scute and Lethal of Scute/Daughterless
heterodimers and Daughterless homodimers and (3)
extramacrochaete inhibits transcription
activation by heterodimers in a yeast assay
system. In addition, we have studied the
expression patterns of scute in wild-type and
extramacrochaete mutant imaginal discs.
Expression of scute RNA during imaginal
development occurs in groups of cells, but high
levels of protein accumulate in the nuclei of
only a subset of the RNA-expressing cells. The
pattern is dynamic and results in a small number
of protein-containing cells that correspond to
sensillum precursors. extramacrochaete
loss-of-function alleles develop extra sensilla
and correspondingly display a larger number of
cells with scute protein. These cells appear to
arise from those that in the wild type already
express scute RNA hence, extramacrochaete is a
repressor of scute function whose action may take
place post-transcriptionally.
?
6Exemple de lien de Flybase vers Medline
- Flybase (Gène Wg)
- Genetic analysis demonstrates that wg is
dispensable for efficient homeotic gene
expression in the visceral mesoderm. (Tremml and
Bienz, 1989)
- Medline
- Tremml G, Bienz M. EMBO J 1989 Sep8(9)2687-93
- An essential role of even-skipped for homeotic
gene expression in the Drosophila visceral
mesoderm.
7BdD bibliographiques vs BdD factuelles
- BdD bibliographique
- Redondantes, non-ordonnées
- À jour, détaillées
- Fidèles, nuancées, contextualisées
- BdD factuelles
- Organisées, calculables
- Parcellaires, incomplètes
- Simplificatrices, hors contexte
8Exemple de couplage factuel/textuel
- Domaine dapplication
- Gènes
- Relations entre les gènes (interaction)
Identification des gènes
Medline
Flybase
Reconnaissance des interactions
BdD interactions
9Argumentaire
- Pas dindexation des gènes dans Medline (ou très
incomplète) - Les références bibliographiques dans Flybase sont
incomplètes - Pas de BdD des interactions génétiques
10Réalisation
- Système didentification des gènes
- Système dextraction dinformation sur les
interactions
11Première partie
12Identification des gènes (schéma)
Medline
109 résumés
50 résumés
Dictionnaire des gènes
Flybase
Identification
Confrontation
- Modifications
- Manuelles
- Automatiques
Mise au point
Test
13Identification des gènes (plan)
- Le dictionnaire des gènes issu de Flybase
- Méthode didentification des gènes
- Lamélioration du dictionnaire des gènes
- Les résultats
14Le dictionnaire des gènes issu de Flybase
- Exemple de gène
- Nom complet wingless
- Symbole wg
- Synonymes Spd, spade, fg, flag, Sp,
Sternopleural, Br, Bristled, int-1, Dint-1,
Dm-1et l(2)wg - Terminologie
- Label la chaîne de caractère
- Gène lentité biologique
- Définition la relation entre le gène et le
label
15Identification Indexation et interprétation des
labels
- Initially, eve expression in individual stripes
is established by different regulatory elements,
each of which responds to nonperiodic spatial
cues provided, at least in part, by the gap genes
even skipped (eve)
stripes (str)
16Élimination des sous-chaînes
Reconnaissance bloquée
- These results, along with the intermediate SOP
phenotype observed in Suppressor of Hairless
Hairless double mutant imaginal discs, suggest
that the two genes act antagonistically to commit
imaginal disc cells stably to alternative fates.
17Algorithme dinterprétation des labels
- Interprétation confirmée
- Défaut de confirmation
- Interprétation multiple
- Interprétation simple
- Confirmation de linterprétation ?
- Ambiguïté du label?
- Plusieurs interprétations ?
Oui
Non
Oui
Non
Oui
Non
18Confirmation des labels ambigus
- The different thoracic muscles of Drosophila are
affected specifically in the mutants stripe
(sr), erect wing (ewg), vertical wings (vtw), and
nonjumper (nj). We have tested the extent of this
specificity by means of a genetic analysis of
these loci, multiple mutant combinations, and
gene dosage experiments. The locus stripe
seems to have a polar organization where
different allelic combinations show quantitative
specificity in the muscle affected.
bande
stripe (sr)
Interprétation confirmée
19Confirmation des labels ambigus (algorithme)
- Confirmation de linterprétation ?
Oui
20Label ambigü non confirmé
We demonstrate that posterior stripe boundaries
are established by gap protein repressors unique
to each stripe h stripe 5 is repressed by the
giant (gt) protein on its posterior border and h
stripe 6 is repressed by the hunchback (hb)
protein on its posterior border.
bande
Défaut de confirmation
stripe (sr)
21Défaut de confirmation des labels ambigus
(algorithme)
- Confirmation de linterprétation ?
Non
Oui
22Interprétation multiple
Localization of the maternally synthesized nanos
(nos) RNA to the posterior pole of the Drosophila
embryo provides the source for a posterior-to-
anterior gradient of Nos protein. Correct spatial
regulation of nos activity is essential for
normal pattern formation.
nanos (nos)
Nitric oxide synthase (Nos)
Identification multiple
23Interprétation multiple (algorithme)
- Confirmation de linterprétation ?
- Ambiguïté du label ?
- Plusieurs interprétations ?
Non
Non
Oui
24Amélioration du dictionnaire des gènes
- Nettoyage des données
- Ajout de labels, de définitions et de gènes ou
objet assimilé manquant - Caractérisation de lambiguïté des labels
25Performance (identification des gènes)
- 88 des identifications sont exactes.
- Le programme trouve 86 des identifications
faite par lannotateur.
26Améliorations possibles
Type derreur - T
Variation orthographique 35 59 12 26 47 45
Manque du dictionnaire 20 34 20 19
Label ambigu 18 39 18 17
Confusion entre entités 13 28 13 12
Divers 4 7 3 7 7 7
Total 59 100 46 100 105 100
27Deuxième partie
- Reconnaissance des interactions
28Grandes étapes (reconnaissance des interactions)
Phrases annotées manuellement
Liste dinteractions
Phrases
Phrases annotées automatiquement
Comparaison
Comparaison
Liste dinteractions
29Calcul de lIVI
Phrase We conclude that Notch signalling
activity is directly responsible for the
accumulation of basic helix-loop- helix proteins
encoded by the Enhancer of split locus
Terme Positif Fréquence Spécificité
signalling 36 49 0,73
activity 36 66 0,55
directly 35 44 0,80
responsible 3 10 0,30
accumulation 8 10 0,80
proteins 65 127 0,51
encoded 8 22 0,36
locus 22 45 0,49
Moyenne Moyenne Moyenne 0.57
30Extraction des interactions
Phrase We conclude that Notch signalling
activity is directly responsible for the
accumulation of basic helix-loop- helix proteins
encoded by the Enhancer of split locus
Notch
Enhancer of split
31Performance de la reconnaissance des interactions
32Comparaison 2G et nG
33Troisième partie
- Interface de la base de données
34Formulaire dannotation(graphiques synthétiques)
35Formulaire dannotation(comparaison des
annotations)
36Formulaire dannotation(autres informations)
37Conclusion (Bilan)
- Le couplage factuel-textuel
- Identification des gènes Flybase dans Medline
- Confrontation encyclopédie/texte
- Méthode didentification automatique des gènes
- Étude usage
- Reconnaissance interactions
- Cooccurrence
- Indice de pertinence
- Simplicité, robustesse
38Conclusion (perspective)
- Autres domaines dapplications
- Couplage avec des résultats dexpériences
- Interface Homme-Machine / Recherche documentaire