Normalisation pour les corpus et les lexiques multilingues PowerPoint PPT Presentation

presentation player overlay
1 / 25
About This Presentation
Transcript and Presenter's Notes

Title: Normalisation pour les corpus et les lexiques multilingues


1
Normalisation pour les corpus et les lexiques
multilingues
  • Laurent Romary
  • INRIA MPG
  • EPAL 2007
  • Symposium  Corpus dapprentissage en ligne 
  • Grenoble, 7 juin 2007

2
Objectifs généraux
  • Partager des ressources (corpus annotés)
  • Contexte  déclaration de Berlin
  • http//oa.mpg.de/openaccess-berlin/berlindeclarati
    on.html
  • Partager des outils (annotation, visualisation,
    accès)
  • Partager des pratiques
  • E.g. recueil de données, manuels dannotation,
    méthodes dévaluation
  • Hypothèse la définition et la diffusion de
    normes internationales devraient nous permettre
    de progresser dans ce sens

3
Lexicométrie et corpus multilingues
  • Notion de corpus parallèle ou comparable
  • Point de vue linguistique rôle de lexpert
  • Point de vue technique
  • Adoption de formats  similaires  codage
    primaire, niveaux dannotation
  • Comparaisons de la sémantique des annotations
  • E.g. définition transversale de concepts
    génériques paramétrant un étiquetage
    morpho-syntaxique
  • Est-il réaliste/justifié de vouloir disposer dun
    répertoire de catégories de données dans le
    domaine des langues?

4
Lexicométrie et corpus multilingues (suite)
  • Représentation consistante des structures
    lexicales
  • Savoir choisir (spécifier) la structure lexicale
    qui convient au recueil de données envisagé
  • Croiser les observations avec des dictionnaires
    existants
  • interopérabilité
  • Deux aspects
  • Organisation générale des entrées lexicales
    (méta-modèle)
  • Choix des catégories de données permettant de
    décorer un modèle particulier

5
Concepts fondamentaux
  •  Couverture linguistique 
  • conditions de production contenu linéaire
  •  Je sais que le langage courant est plein de
    pièges. 
  • gt S. de Beauvoir, 1976 M. Yaguello, 1978
    TALN 2004
  •  Corpus 
  • collection de données caractérisée par une même
    couverture linguistique
  • Goriot, chap. I
  • Le Monde 09/1986 ? articles sportifs du Monde
    09/1986
  • corpus contingent vs. intentionnel (Sinclair
    1996, Habert et al 1997, Véronis 2000)
  •  Ressource 
  • unité physique de dépôt de données relatives à un
    corpus
  • Goriot scanné (image)
  • Goriot texte brut (Word)
  • Goriot étiqueté arboré (XML Tiger)

6
Concepts fondamentaux
  •  Niveau de description 
  • ensemble cohérent dinformations explicitées
    relatif à un corpus
  • fichier audio, texte brut, texte formaté, texte
    balisé TEI, texte segmenté, morpho-syntaxe,
    syntaxe, référence, discours
  • analyse humaine ou traitement automatique
  • instancié par un schéma dannotation (Ide
    Romary, 2001)
  • données primaires et secondaires
  • considération pratique reconstitution de la
    couverture
  • continuum théorique (texte balisé TEI ?)
  •  Méta-données 
  • identification et gestion des données

7
Organisation linguistique
Corpus
8
Organisation opérationnelle
Corpus
9
Méta-données
  • Complémentarité des initiatives internationales
  • Dublin Core, OLAC, IMDI, TEI
  • convergence sur les descripteurs du TC 37 de
    lISO
  • répertoire de catégories de données rôles,
    codes de langue
  • Méta-données utiles pour la FReeBank
  • pertinence vis-à-vis de corpus, ressource et
    niveau de description
  • prévoir des méta-données plus fines à terme
  • documentation des étiquettes morpho-syntaxiques
  • caractérisation de données  primaires  /
     secondaires 
  • Méta-données codées sous forme den-têtes TEI
  • dissémination de bonnes pratiques pour la
    représentation et la transcription
  • diffusion au format OLAC et IMDI
  • moissonnage de la FReeBank par les portails
    correspondants

10
Exemple  types de discours 
  • Classification stable dans OLAC
  • drama, formulaic discourse, interactive
    discourse, language play, oratory, narrative,
    procedural discourse, singing, unintelligible
    speech
  • Caractérise la composante  niveau de
    description 
  • utilisation de lttextClassgt/ltclassCodegt dans
    len-tête TEI
  • A définir
  • opérationnalité de la classification
  • percolation vers la composante  corpus  ?

11
Exemple  rôles 
  • Ensemble complexe de rôles dans OLAC
  • caractérisation des agents intervenant dans la
    création, gestion et distribution de données
    linguistiques
  • Distribution vis-à-vis de larchitecture de la
    FReeBank
  • Corpus
  • Depositor
  • Ressource
  • Depositor, Compiler, Editor, Researcher, Sponsor
  • Niveau de description
  • Gestion de lannotation Editor, Researcher,
    Annotator, Data inputter, Developer, Sponsor
  • Contenu informationnel Author, Translator,
    Interpreter, Interviewer, Responder, Participant,
    Performer, Signer, Recorder, Research
    participant, Singer, Speaker

12
Normalisation ?
  • Standard
  • Pratique dun groupe de personnes, dune
    communauté, choix dun industriel pour un produit
  • Avantage flexibilité
  • Difficulté maintenance (documentation,
    évolution, compatibilité avec dautres standards)
  • Norme
  • Officialisation dune telle pratique par une
    décision consensuelle sous légide dune
    organisation  reconnue  et  pérenne 
  • E.g. W3C, TEI, ISO, IEC, CEN

13
Que normaliser?
  • Documentation des données
  • Permettre lidentification des données existantes
    et de leurs principales caractéristiques
    (conditions de recueil, description du contenu,
    droits associés)
  • Transcription
  • Passage dun matériau primaire brut à une
    représentation élémentaire peu sensible aux choix
    théoriques (texte, phonétique)
  • Annotation
  • Accompagne létude dun phénomène, stabilise
    lobservation

14
Bases de travail
  • Quelles initiatives devons nous considérer?
  • De multiples projets ont visité le domaine
  • EAGLES, ISLE, Mate, NITE, OLAC, ATLAS
  • Quelques points de référence
  • W3C
  • TEI
  • ISO
  • Autres?

15
Le W3C
  • World Wide Web Consortium
  • Principalement des industriels, 3 partenaires
    académiques (MIT, ERCIM, Keio)
  • Apporte des normes (recommandations) horizontales
  • XML, XSLT, chemins, pointeurs, liens
  • RDF, RDFS, OWL
  • SVG, SMIL
  • SOAP, WSDL

16
La TEI
  • Text Encoding Initiative
  • Consortium académique à forte orientation
    sciences humaines
  • Création  1987  TEI P3  1992  TEI P4 (XML) 
    2002  TEI P5 (plus modulaire) 2004-2007
  • Les éléments principaux
  • En-tête  base documentaire riche
  • Composants de base  prose, poésie, théâtre,
    oral
  • Modules spécifiques liens (cf. alignement
    multilingue), noms et dates, apparat critique etc.

17
ISO
  • Organisation internationale de standardisation
  • Association travaillant pour le compte de ses
    membres les organisations nationales de
    normalisation (AFNOR, ANSI, DIN, BSI etc.)
  • Organisé en comités techniques et sous-comités
  • Couvre tous les domaines

18
ISO - exemples
  • ISO-IEC/JTC1
  • E.g. ISO 10646 / Unicode pour lidentification et
    la représentatioin universelle de caractères
  • ISO/TC 37 (Terminologie et autres ressources
    linguistiques)
  • SC 1 Méthodes en terminologie
  • SC 2 e.g. Codes langues ISO 639-1 (en, fr)
  • SC 3 Terminologies informatisés ISO 16642 (TMF)
  • SC 4 Ressources linguistiques

19
LISO/TC 37/SC 4
  • Objectif définir des plates-formes de
    représentation et dannotation de ressources
    linguistiques
  • Mécanismes de base e.g. structures de traits
  • Répertoires de catégories de données
  • Processus souple de spécification dun format
    dannotation
  • Domaines abordés/à aborder
  • Morpho-syntaxe, syntaxe, contenus sémantiques,
    discours, lexiques, données multilingues,
    langages de requêtes, évaluation
  • http//www.tc37sc4.org

20
LMF le modèle
Lexical DB
Lexical extension for morphology
Lexical Entry
Lexical Entry
1..1
1..1
Lexical extensions
1..1
1..1
Morphology
Morphology
21
Méta-modèle dun lexique morphologique
22
Décoration du modèle
1..1
/lemma/ /POS/
1..1
Global Info
/word form/ /gender/ /number/ /tense/
23
Une entrée du DCR
Entry Identifier grammatical gender Profile mo
rpho-syntax Definition (fr) Catégorie
grammaticale reposant, selon les langues et
les systèmes, sur la distinction naturelle
entre les sexes ou sur des critères formels
(Source TLFi) Definition (en) Grammatical
category (Source TLFi (Trad.)) Conceptual
Domain /feminine/, /masculine/, /neuter/
Object Language fr Name genre Conceptual
Domain /feminine/, /masculine/
Object Language en Name gender Name
grammatical gender
Object Language de Name Geschlecht Name
Genus Conceptual Domain /feminine/,
/masculine/, /neuter/
24
Un format compatible avec le modèle
  • ltstruct type'lexical entry'gt
  • ltfeat type'lemma'gtchatlt/featgt
  • ltfeat typegrammatical categorygtnounlt/featgt
  • ltstruct typemorphologygt
  • ltstruct typeparadigmgt
  • ltfeat typeparadigm identifier'gtfr-s-plurallt/f
    eatgt
  • lt/structgt
  • ltstruct type'inflexion'gt
  • ltfeat type'word form'gtchatlt/featgt
  • ltfeat typenumbergtsingularlt/featgt
  • lt/structgt
  • ltstruct type'inflexion'gt
  • ltfeat type'word form'gtchatslt/featgt
  • ltfeat typenumbergtplurallt/featgt
  • lt/structgt
  • lt/structgt
  • lt/structgt

25
Application directes
  • Morphalou
  • un lexique morphologique ouvert
  • Téléchargement patchfair use
  • FReeBank
  • une base de ressources libres annotées
  • Dépôt en ligne (En-têtes TEI)
  • Téléchargement dun simple clic
  • Fair use
  • Une institution de référence
  • Le CNRTL
Write a Comment
User Comments (0)
About PowerShow.com