Programme Technolangue AGILE TILT - PowerPoint PPT Presentation

About This Presentation
Title:

Programme Technolangue AGILE TILT

Description:

Production et alignement XML des normes en fran ais et en anglais ... TILT. Alignement. D veloppement d'un programme d'alignement sp cifique. Sur la base de ... – PowerPoint PPT presentation

Number of Views:54
Avg rating:3.0/5.0
Slides: 18
Provided by: NW146
Category:

less

Transcript and Presenter's Notes

Title: Programme Technolangue AGILE TILT


1
Programme TechnolangueAGILE / TILT
  • Trésor Informatisé de la Langue Technique

2
PARTENAIRES
  • AFNOR
  • ATILF
  • LINGWAY
  • Durée du projet 24 mois
  • Fin du projet 28/11/2004

3
OBJECTIFS
  • Sur un échantillon de 1 000 normes
  • Constituer un corpus du français technique
    utilisé dans les normes
  • Aligner les versions en français et en anglais de
    ce corpus
  • Mettre le corpus technique français à la
    disposition de la communauté scientifique
  • Permettre de mieux répondre aux besoins des
    utilisateurs de normes

4
Travail réalisé
  • Production et alignement XML des normes en
    français et en anglais
  • Production de données linguistiques bilingues
    français anglais
  • Production dapplicatifs dexploitation de corpus

5
Spécificité du traitement des normes AFNOR
  • DTD XML AFNOR complexe
  • Difficultés
  • différences dans les fichiers source EN et FR
  • erreurs dans la conversion XML des PDF anglais
    (perte de numérotations de titres, despaces
    entre les mots, tableaux et listes mal rendus)
  • éléments non pris en compte par le programme
    (tableaux, formules)
  • Résultat sous ensemble des normes exploité pour
    lalignement

6
Extraction de bases terminologique et
phraséologique
  • Méthodologie
  • Travail dalignement
  • Extraction et exploitation de la terminologie et
    de la phraséologie

7
Méthodologie
  • 1 génération de format XML  brut 
  • 2 comparaison avec XML AFNOR
  • 3 génération dun fichier XML anglais de
    structure analogue au français
  • 4 alignement entre les version française et
    anglaise

8
Alignement
  • Développement dun programme dalignement
    spécifique
  • Sur la base de certaines balises
  • Titres (de sections, figures et tableaux)
  • Paragraphes
  • Listes
  • Références externes
  • Termes et définitions
  • ? Près de 160 000 paires alignées

9
Extraction de terminologie
  • Sur la base de certaines balises
  • Termes
  • Titres
  • Extraction via logiciel Lingway ALIBI
  • Validation des alignements par traductrice AFNOR
  • Analyse linguistique pour
  • Extraire les patrons pertinents
  • Lemmatiser
  • ? 12 000 paires retenues

10
Exploitation de la terminologie
  • Par AFNOR
  • Croisement avec le thesaurus TIT
  • Près de 1 300 entrées FR  validées 
  • Environ 1 200 traductions EN proposées
  • Fourniture dune base terminologique de 12 000
    termes bilingues validés sur les normes
  • Par Lingway
  • 2 200 paires retenues et intégrées au
    dictionnaire Lingway, avec connexion manuelle à
    la couche conceptuelle

11
PRESENTATION DES RESULTATS
  • Un corpus XMLisé du français technique contenu
    de 1 083 normes en français aligné avec le corpus
    en anglais XMLisé
  • Une méthodologie de balisage pour pouvoir traiter
    tout le fonds normatif

12
Fonctions orientées utilisateur final
13
RESSOURCES ACCESSIBLES A LA COMMUNAUTE
  • Ensemble du corpus en français accessible pour
    les chercheurs selon les conditions daccès et de
    visualisation de Frantext
  • Ensemble du lexique linguistique
    français-anglais, extrait des normes, accessible
    gracieusement

14
PRESENTATION DES RESULTATS
  • Un lexique français-anglais de 12 000 termes
    utilisés dans les normes
  • http//portailgroupe.afnor.fr/v3/espace_informatio
    n/top.htm
  • Un outil de production automatique de résumé de
    norme
  • Des outils dinterrogation du corpus exploitant
    les divers balisages
  • http//stella.atilf.fr/dendien/tilt.htm
  • www.atilf.fr/tilt

15
BILAN POUR LES PARTENAIRES AFNOR
  • Méthodologie de balisage pour pouvoir traiter
    tout le fonds normatif
  • Aide à la traduction
  • Possibilité de production automatique de résumés
    de normes
  • Règles dexclusion introduites au processus de
    production
  • Intérêt pour le logiciel Lingway KM

16
BILAN POUR LES PARTENAIRES LINGWAY
  • Démonstration de la faisabilité technique des
    applications autour des normes extraction
    semi-automatique de terminologie bilingue,
    recherche sémantique mono et multilingue et
    production automatique de résumés
  • Amélioration de Lingway KM

17
BILAN POUR LES PARTENAIRES LATILF
  • Progression dans lexploitation de ressources
    textuelles
  • Ouverture et maintenance dune base Fantext-Afnor
    de corpus de langue technique issue des normes
    AFNOR
  • Enrichissement de la base morphosyntaxique
    MORPHALOU
  • Définition de nouveaux outils
  • Possibilité détude du lexique technique des
    normes dans le cadre de notre programme de veille
    lexicale
Write a Comment
User Comments (0)
About PowerShow.com