Title: L
1Laction nationale de RD SYNTAX
- Constat initial
- Objectif
- Durée
- Contenu
- Partenaires
- Organisation
- Budget
- Recoupements et apports
- Autres projets
2Constat initial
- nombreux travaux menés à lINRIA sur la création,
la gestion ou la diffusion de documents - organisation des bases documentaires
- traitement des contenus textuels de ces bases
- différents logiciels ont été réalisés mais jamais
réunis dans des contextes opérationnels - maturation de lingénierie documentaire et
linguistique - Technologies validées
- Couches basses étiquetage morpho-syntaxique,
chunking - Modules de plus haut niveau extraction de
termes, classification de documents, etc. - Stabilisation des technologies autour de XML
(W3C) - Mise en place du comité de normalisation ISO
TC37/SC4 sur les ressources linguistiques
3Objectif
- rassembler sur des plates-formes homogènes
différents résultats existants pour répondre à
des besoins dintégration et de gestion de
documents spécialisés - intégration les documents proviennent de
sources multiples - gestion indexation, classification et
extraction dinformations terminologiques - documents spécialisés documents présents sur un
Intranet dentreprise (? documents quelconques
sur Internet) - cela suppose
- de compléter certains développements issus de
projets INRIA ou industriels - de standardiser des formats déchange entre de
tels composants - de valider lensemble dans des conditions proches
de lopérationnel
4Contenu (1)
- 3 sous-thèmes
- gestion dinformations entrantes
- acquisition et gestion de terminologies/lexiques
multilingues - plate-forme de modélisation et de gestion de
référentiels XML
5Sous-thème 1 gestion dinformations entrantes
- tâches
- acquisition de textes
- gestion de formats hétérogènes (Word, LateX, )
- documents natifs XML
- intégration dans une base semi-structurée
- méta-données
- identification dinformations structurantes
(date, auteur, noms propres) - annotation par les utilisateurs
- annotation de surface, enrichissement
- publication des annotations
- classification (taxonomie existante ou non)
- recherche de thèmes et segmentation (statistique)
- identification de clefs dindexation
(linguistique)
6Sous-thème 1 gestion dinformations entrantes
documents hétérogènes
documents natifs XML
poste dannotation qualifier établir
des liens etc.
base de documents
métadonnées format vocabulaire
édition accès
annotation de surface date, entités
nommées personnes, lieux,
structure
indexation
Segmentation (autour de la notion de thème)
critères lexicaux (statistiques) Topic
Detection Tracking
classification non contrôlée
classification contrôlée (ontologies, )
7Sous-thème 2 acquisition et gestion de
terminologies/lexiques multilingues
- tâches
- extraction de termes à partir de textes
- étiqueteur morphosyntaxique (Part Of Speech
tagger) - chunker à base dautomates (Xerox), de patterns
syntaxiques (IRIN) ou de statistiques
markoviennes - bases de lien termes-textes
- reprise de bases lexicales existantes
- édition collaborative des bases terminologiques
8Sous-thème 2 acquisition et gestion de
terminologies/lexiques multilingues
rédacteur technique traducteur terminologue
liens
ontologies
base de textes
poste dédition collaborative
graphe de termes
extraction de termes
reconnaissance de termes
Part Of Speech tagger
chunker
importation de bases lexicales (Outilex)
variabilité
9Sous-thème 3 modélisation et gestion de
référentiels XML
- tâches
- modélisation des structures (UML)
- gestion du référentiel de modélisation
- règles de passage et de génération de schéma XML,
génération dynamique de modèles - récupération de sous-schémas XML existants,
cohérence des référentiels - Force de proposition et de validation vis-à-vis
du TC37/SC4 (cf. Normalangues)
10Sous-thème 3 modélisation et gestion de
référentiels XML
répertoires (ISO) gestion du référentiel de
modélisation
modélisation
catégories de données (genre, nombre, date de
révision, ) ensemble des descripteurs
élémentaires
squelette format
UML spécification des éléments à identifier
autres formats
schéma XML
valider (contrôler les postes dédition)
données externes
filtre
échantillon
réutilisation de données existantes
11Durée et phasage (1)
- 3 ans
- 3 à 6 mois de discussion avec les partenaires
- affiner le programme de travail
- définir lorganisation à mettre en place
- mettre au point les contrats (propriété des
résultats) - 2 ans de travaux
- 6 à 9 mois de dissémination des résultats
- sous-thème 3 permanent tout au long de laction
- sous-thèmes 1 et 2
- reposent sur le sous-thème 3
- sont relativement indépendants car ne sont reliés
que par les ontologies
12Durée et phasage (2)
- sous-thème 1
- Définition de larchitecture logicielle globale,
les protocoles dinteraction et la mise en place
de la base de documents et de la base de liens - En parallèle identification précise des besoins
des industriels (scénario dexpérimentation) - Mise en conformité (formats, API) des composants
à intégrer - Intégration
- sous-thème 2
- Chaîne dextraction de termes
- en parallèle, spécification précise de la
plate-forme globale (identification des outils à
intégrer) - Couplage à loutil de gestion de la base de liens
- Intégration (outil dédition de terminologies)
- sous-thème 3
- répertoire de catégories de données
- API, de filtres, catalogue de méta-modèles et le
13Organisation
- Principes
- l'INRIA apportera des résultats de travaux de
recherche et du personnel - les partenaires apporteront certains travaux
antérieurs et du personnel - tous les développements réalisés seront
réutilisables par tous les partenaires - chaque industriel adaptera à son contexte propre
les résultats obtenus - pour chaque sous-thème, une équipe personnel
INRIA personnel fourni par partenaires
intéressés - ces équipes pourront être hébergées par l'INRIA
- elles seront coordonnées par un comité
scientifique réduit - des séminaires techniques à intervalle régulier
- étroite collaboration avec le groupe miroir
français du TC37/SC4
14Critères de réussite
- transfert technologique
- utilisation opérationnelle des plates-formes par
au moins 2 partenaires industriels - diffusion de composants par une ou des sociétés
de technologie issues ou non de lINRIA - impact sur le domaine publication de normes
pour lingénierie des langues et du document - création dune dynamique dans la communauté
française - une des retombées mobilisation pour des
réponses à des appels à propositions - meilleure connaissance par les équipes INRIA des
besoins opérationnels des industriels - relance des travaux de recherches
- meilleur dialogue entre ces équipes
15Budget charges
- conduite de laction 1 personne sur 3 ans
... 36 h x m - gestion dinformations entrantes
114 h x m - acquisition et gestion de terminologies/lexiques
multilingues 60 h x m - plate-forme de modélisation et de gestion de
référentiels 50 h x m
total 260 h x m
16Budget financement
- autres projets dont RNIL et CODEX-termes
(Technolangue) 44 hommes x mois - 6 partenaires industriels à 18 h x m chacun
108 hommes x mois - DirDRI (action nationale de RD)
- 3 personnes sur 2 ans
- léquivalent d1 personne à plein temps pour
assurer la conduite de laction sur 3 ans - 108 hommes x mois
total 260 h x m
17Autres projets
- projets Technolangue
- RNIL (accepté, démarrage prévu début novembre)
- CODEX-termes (accepté, démarrage prévu début
novembre) - projet ITEA
- JULES VERNE (accepté dans son principe, en phase
de négociation avec le ministère de lindustrie) - rassemble TMM, Philips (Eindhoven), quelques PME
et lINRIA - projets RNTL
- OUTILEX (accepté, démarrage prévu début octobre)
- concerne la modélisation de données lexicales
- XMINER (accepté, a démarré début juillet)
- projet européen E-content
- INTERA (accepté, démarrage prévu début octobre)
- développe des outils de modélisation de données
XML en lien avec la standardisation
18Technolangue RNIL (1)
- objectif définir, valider et diffuser des
normes internationales pour lingénierie
linguistique - participation à la définition de normes
internationales pour représenter et gérer des
ressources linguistiques - validation des propositions normatives
- développement de librairies informatiques
facilitant la mise aux normes des produits ou des
composants logiciels issus de lindustrie - production de jeux de test
- diffusion dinformations
- production dune lettre dinformation
électronique régulière - organisation de séminaires techniques
19Technolangue RNIL (2)
- Partenaires
- académiques et labos de recherche
- AFNOR, ATILF, Imag (Clips), Limsi, université de
Jussieu (Talana/Lattice et laboratoire de
linguistique formelle), université de Nantes
(IRIN), université de Rennes(RESO) - gros industriels
- CEA, XRCE, EDF RD, Systran, EADS
- (Dassault Aviation observateur)
- PME
- Softissimo, Sinequa, Lucid-ID, J-way
- INRIA
- Atoll, Langue Dialogue, SYNTAX
20Technolangue RNIL (3)
- Coût
- coût total 700 000 euros (TTC)
- aide accordée 450 000 euros (TTC)
- Durée
- 36 mois
21Technolangue CODEX-termes
- objectif
- élaboration dun composant complet et performant
dextraction terminologique - production de données terminologiques dans le
domaine du TALN et pour la CN 36 - partenaires
- AILF (Association des Informaticiens de Langue
Française), CNSX SA (PME de Carquefou), DASSAULT
AVIATION, EADS Corporate Research Center, lIRIN,
le LORIA (projet LD), LUCIDI.T, National
Institute of Informatics (Japon) - coût total 600 000 euros (TTC)
- aide demandée 350 000 euros (TTC)
- durée prévue 24 mois
22Recoupements et apports
- gestion dinformations entrantes lt---- XMINER
- acquisition de textes lt---- XMINER
- intégration dans base semi-structurée lt----
XMINER - annotation par les utilisateurs lt---- OPERA
(Annotea) - classification lt---- ACACIA (Corese), TEXMEX,
CORTEX, ORPAILLEUR - acquisition/gestion de terminologies multilingues
lt---- CODEX-termes - extraction de termes à partir de textes lt----
CODEX-termes, TEXMEX, ORPAILLEUR - bases de lien termes-textes lt---- Dassault
Aviation - import de bases lexicales existantes lt----
OUTILEX - édition collaborative des bases terminologiques
lt---- CODEX-termes, Lucid-IT - modélisation et gestion de référentiels XML lt----
JULES VERNE, INTERA
23Priorités immédiates
- Validation dune convention de participation
- Engagement des partenaires
- Mise en place du comité de pilotage
- Stabilisation de lannexe technique
- Base priorités définies aujourdhui
- Mise en place dun groupe de travail (comité
scientifique?) - Responsables de sous-thème
- Localisation des forces de travail
- Lancement du travail technique
- Rodage cf. Projets technolangues
- Activation effective dès signature des
conventions par une masse critique de partenaires