L - PowerPoint PPT Presentation

About This Presentation
Title:

L

Description:

RNIL (accept , d marrage pr vu d but novembre) CODEX-termes (accept , d marrage pr vu ... JULES VERNE (accept dans son principe, en phase de n gociation avec le minist re de ... – PowerPoint PPT presentation

Number of Views:35
Avg rating:3.0/5.0
Slides: 24
Provided by: emm133
Category:
Tags: accepte

less

Transcript and Presenter's Notes

Title: L


1
Laction nationale de RD SYNTAX
  • Constat initial
  • Objectif
  • Durée
  • Contenu
  • Partenaires
  • Organisation
  • Budget
  • Recoupements et apports
  • Autres projets

2
Constat initial
  • nombreux travaux menés à lINRIA sur la création,
    la gestion ou la diffusion de documents
  • organisation des bases documentaires
  • traitement des contenus textuels de ces bases
  • différents logiciels ont été réalisés mais jamais
    réunis dans des contextes opérationnels
  • maturation de lingénierie documentaire et
    linguistique
  • Technologies validées
  • Couches basses étiquetage morpho-syntaxique,
    chunking
  • Modules de plus haut niveau extraction de
    termes, classification de documents, etc.
  • Stabilisation des technologies autour de XML
    (W3C)
  • Mise en place du comité de normalisation ISO
    TC37/SC4 sur les ressources linguistiques

3
Objectif
  • rassembler sur des plates-formes homogènes
    différents résultats existants pour répondre à
    des besoins dintégration et de gestion de
    documents spécialisés 
  • intégration les documents proviennent de
    sources multiples
  • gestion  indexation, classification et
    extraction dinformations terminologiques 
  • documents spécialisés  documents présents sur un
    Intranet dentreprise (? documents quelconques
    sur Internet)
  • cela suppose
  • de compléter certains développements issus de
    projets INRIA ou industriels
  • de standardiser des formats déchange entre de
    tels composants
  • de valider lensemble dans des conditions proches
    de lopérationnel

4
Contenu (1)
  • 3 sous-thèmes
  • gestion dinformations entrantes
  • acquisition et gestion de terminologies/lexiques
    multilingues
  • plate-forme de modélisation et de gestion de
    référentiels XML

5
Sous-thème 1 gestion dinformations entrantes
  • tâches
  • acquisition de textes
  • gestion de formats hétérogènes (Word, LateX, )
  • documents natifs XML
  • intégration dans une base semi-structurée
  • méta-données
  • identification dinformations structurantes
    (date, auteur, noms propres)
  • annotation par les utilisateurs
  • annotation de surface, enrichissement
  • publication des annotations
  • classification (taxonomie existante ou non)
  • recherche de thèmes et segmentation (statistique)
  • identification de clefs dindexation
    (linguistique)

6
Sous-thème 1 gestion dinformations entrantes
documents hétérogènes
documents natifs XML
poste dannotation qualifier établir
des liens etc.
base de documents
métadonnées format vocabulaire
édition accès
annotation de surface date, entités
nommées personnes, lieux,
structure
indexation
Segmentation (autour de la notion de thème)
critères lexicaux (statistiques) Topic
Detection Tracking
classification non contrôlée
classification contrôlée (ontologies, )
7
Sous-thème 2 acquisition et gestion de
terminologies/lexiques multilingues
  • tâches
  • extraction de termes à partir de textes
  • étiqueteur morphosyntaxique (Part Of Speech
    tagger)
  • chunker à base dautomates (Xerox), de patterns
    syntaxiques (IRIN) ou de statistiques
    markoviennes
  • bases de lien termes-textes
  • reprise de bases lexicales existantes
  • édition collaborative des bases terminologiques

8
Sous-thème 2 acquisition et gestion de
terminologies/lexiques multilingues
rédacteur technique traducteur terminologue
liens
ontologies
base de textes
poste dédition collaborative
graphe de termes
extraction de termes
reconnaissance de termes
Part Of Speech tagger
chunker
importation de bases lexicales (Outilex)
variabilité
9
Sous-thème 3 modélisation et gestion de
référentiels XML
  • tâches
  • modélisation des structures (UML)
  • gestion du référentiel de modélisation
  • règles de passage et de génération de schéma XML,
    génération dynamique de modèles
  • récupération de sous-schémas XML existants,
    cohérence des référentiels
  • Force de proposition et de validation vis-à-vis
    du TC37/SC4 (cf. Normalangues)

10
Sous-thème 3 modélisation et gestion de
référentiels XML
répertoires (ISO) gestion du référentiel de
modélisation
modélisation
catégories de données (genre, nombre, date de
révision, ) ensemble des descripteurs
élémentaires
squelette format
UML spécification des éléments à identifier
autres formats
schéma XML
valider (contrôler les postes dédition)
données externes
filtre
échantillon
réutilisation de données existantes
11
Durée et phasage (1)
  • 3 ans
  • 3 à 6 mois de discussion avec les partenaires
  • affiner le programme de travail
  • définir lorganisation à mettre en place
  • mettre au point les contrats (propriété des
    résultats)
  • 2 ans de travaux
  • 6 à 9 mois de dissémination des résultats
  • sous-thème 3 permanent tout au long de laction
  • sous-thèmes 1 et 2
  • reposent sur le sous-thème 3
  • sont relativement indépendants car ne sont reliés
    que par les ontologies

12
Durée et phasage (2)
  • sous-thème 1
  • Définition de larchitecture logicielle globale,
    les protocoles dinteraction et la mise en place
    de la base de documents et de la base de liens
  • En parallèle identification précise des besoins
    des industriels (scénario dexpérimentation)
  • Mise en conformité (formats, API) des composants
    à intégrer
  • Intégration
  • sous-thème 2
  • Chaîne dextraction de termes
  • en parallèle, spécification précise de la
    plate-forme globale (identification des outils à
    intégrer)
  • Couplage à loutil de gestion de la base de liens
  • Intégration (outil dédition de terminologies)
  • sous-thème 3
  • répertoire de catégories de données
  • API, de filtres, catalogue de méta-modèles et le

13
Organisation
  • Principes
  • l'INRIA apportera des résultats de travaux de
    recherche et du personnel
  • les partenaires apporteront certains travaux
    antérieurs et du personnel
  • tous les développements réalisés seront
    réutilisables par tous les partenaires
  • chaque industriel adaptera à son contexte propre
    les résultats obtenus
  • pour chaque sous-thème, une équipe personnel
    INRIA personnel fourni par partenaires
    intéressés
  • ces équipes pourront être hébergées par l'INRIA
  • elles seront coordonnées par un comité
    scientifique réduit
  • des séminaires techniques à intervalle régulier
  • étroite collaboration avec le groupe miroir
    français du TC37/SC4

14
Critères de réussite
  • transfert technologique 
  • utilisation opérationnelle des plates-formes par
    au moins 2 partenaires industriels
  • diffusion de composants par une ou des sociétés
    de technologie issues ou non de lINRIA
  • impact sur le domaine publication de normes
    pour lingénierie des langues et du document
  • création dune dynamique dans la communauté
    française
  • une des retombées mobilisation pour des
    réponses à des appels à propositions
  • meilleure connaissance par les équipes INRIA des
    besoins opérationnels des industriels
  • relance des travaux de recherches
  • meilleur dialogue entre ces équipes

15
Budget charges
  • conduite de laction 1 personne sur  3 ans
    ... 36 h x m
  • gestion dinformations entrantes 
    114 h x m
  • acquisition et gestion de terminologies/lexiques
    multilingues 60 h x m
  • plate-forme de modélisation et de gestion de
    référentiels   50 h x m

total 260 h x m
16
Budget financement
  • autres projets dont RNIL et CODEX-termes
    (Technolangue) 44 hommes x mois
  • 6 partenaires industriels à 18 h x m chacun
    108 hommes x mois
  • DirDRI (action nationale de RD)
  • 3 personnes sur 2 ans
  • léquivalent d1 personne à plein temps pour
    assurer la conduite de laction sur 3 ans
  • 108 hommes x mois

total 260 h x m
17
Autres projets
  • projets Technolangue
  • RNIL (accepté, démarrage prévu début novembre)
  • CODEX-termes (accepté, démarrage prévu début
    novembre)
  • projet ITEA
  • JULES VERNE (accepté dans son principe, en phase
    de négociation avec le ministère de lindustrie)
  • rassemble TMM, Philips (Eindhoven), quelques PME
    et lINRIA
  • projets RNTL
  • OUTILEX (accepté, démarrage prévu début octobre)
  • concerne la modélisation de données lexicales
  • XMINER (accepté, a démarré début juillet)
  • projet européen E-content
  • INTERA (accepté, démarrage prévu début octobre)
  • développe des outils de modélisation de données
    XML en lien avec la standardisation

18
Technolangue RNIL (1)
  • objectif définir, valider et diffuser des
    normes internationales pour lingénierie
    linguistique
  • participation à la définition de normes
    internationales pour représenter et gérer des
    ressources linguistiques
  • validation des propositions normatives
  • développement de librairies informatiques
    facilitant la mise aux normes des produits ou des
    composants logiciels issus de lindustrie
  • production de jeux de test
  • diffusion dinformations
  • production dune lettre dinformation
    électronique régulière
  • organisation de séminaires techniques

19
Technolangue RNIL (2)
  • Partenaires
  • académiques et labos de recherche
  • AFNOR, ATILF, Imag (Clips), Limsi, université de
    Jussieu (Talana/Lattice et laboratoire de
    linguistique formelle), université de Nantes
    (IRIN), université de Rennes(RESO)
  • gros industriels
  • CEA, XRCE, EDF RD, Systran, EADS
  • (Dassault Aviation observateur)
  • PME
  • Softissimo, Sinequa, Lucid-ID, J-way
  • INRIA
  • Atoll, Langue Dialogue, SYNTAX

20
Technolangue RNIL (3)
  • Coût
  • coût total 700 000 euros (TTC)
  • aide accordée 450 000 euros (TTC)
  • Durée
  • 36 mois

21
Technolangue CODEX-termes
  • objectif
  • élaboration dun composant complet et performant
    dextraction terminologique
  • production de données terminologiques dans le
    domaine du TALN et pour la CN 36
  • partenaires
  • AILF (Association des Informaticiens de Langue
    Française), CNSX SA (PME de Carquefou), DASSAULT
    AVIATION, EADS Corporate Research Center, lIRIN,
    le LORIA (projet LD), LUCIDI.T, National
    Institute of Informatics (Japon)
  • coût total 600 000 euros (TTC)
  • aide demandée 350 000 euros (TTC)
  • durée prévue 24 mois

22
Recoupements et apports
  • gestion dinformations entrantes lt---- XMINER
  • acquisition de textes lt---- XMINER  
  • intégration dans base semi-structurée lt----
    XMINER
  • annotation par les utilisateurs lt---- OPERA
    (Annotea)
  • classification lt---- ACACIA (Corese), TEXMEX,
    CORTEX, ORPAILLEUR
  • acquisition/gestion de terminologies multilingues
    lt---- CODEX-termes
  • extraction de termes à partir de textes lt----
    CODEX-termes, TEXMEX, ORPAILLEUR
  • bases de lien termes-textes lt---- Dassault
    Aviation
  • import de bases lexicales existantes lt----
    OUTILEX
  • édition collaborative des bases terminologiques
    lt---- CODEX-termes, Lucid-IT
  • modélisation et gestion de référentiels XML lt----
    JULES VERNE, INTERA

23
Priorités immédiates
  • Validation dune convention de participation
  • Engagement des partenaires
  • Mise en place du comité de pilotage
  • Stabilisation de lannexe technique
  • Base priorités définies aujourdhui
  • Mise en place dun groupe de travail (comité
    scientifique?)
  • Responsables de sous-thème
  • Localisation des forces de travail
  • Lancement du travail technique
  • Rodage cf. Projets technolangues
  • Activation effective dès signature des
    conventions par une masse critique de partenaires
Write a Comment
User Comments (0)
About PowerShow.com