Normalisation pour les corpus et les lexiques multilingues presentation

About This Presentation

Transcript and Presenter's Notes

Title: Normalisation pour les corpus et les lexiques multilingues

1
Normalisation pour les corpus et les lexiques
multilingues

Laurent Romary
INRIA MPG
EPAL 2007
Symposium Corpus dapprentissage en ligne
Grenoble, 7 juin 2007

2
Objectifs généraux

Partager des ressources (corpus annotés)
Contexte déclaration de Berlin
http//oa.mpg.de/openaccess-berlin/berlindeclarati
on.html
Partager des outils (annotation, visualisation,
accès)
Partager des pratiques
E.g. recueil de données, manuels dannotation,
méthodes dévaluation
Hypothèse la définition et la diffusion de
normes internationales devraient nous permettre
de progresser dans ce sens

3
Lexicométrie et corpus multilingues

Notion de corpus parallèle ou comparable
Point de vue linguistique rôle de lexpert
Point de vue technique
Adoption de formats similaires codage
primaire, niveaux dannotation
Comparaisons de la sémantique des annotations
E.g. définition transversale de concepts
génériques paramétrant un étiquetage
morpho-syntaxique
Est-il réaliste/justifié de vouloir disposer dun
répertoire de catégories de données dans le
domaine des langues?

4
Lexicométrie et corpus multilingues (suite)

Représentation consistante des structures
lexicales
Savoir choisir (spécifier) la structure lexicale
qui convient au recueil de données envisagé
Croiser les observations avec des dictionnaires
existants
interopérabilité
Deux aspects
Organisation générale des entrées lexicales
(méta-modèle)
Choix des catégories de données permettant de
décorer un modèle particulier

5
Concepts fondamentaux

Couverture linguistique
conditions de production contenu linéaire
Je sais que le langage courant est plein de
pièges.
gt S. de Beauvoir, 1976 M. Yaguello, 1978
TALN 2004
Corpus
collection de données caractérisée par une même
couverture linguistique
Goriot, chap. I
Le Monde 09/1986 ? articles sportifs du Monde
09/1986
corpus contingent vs. intentionnel (Sinclair
1996, Habert et al 1997, Véronis 2000)
Ressource
unité physique de dépôt de données relatives à un
corpus
Goriot scanné (image)
Goriot texte brut (Word)
Goriot étiqueté arboré (XML Tiger)

6
Concepts fondamentaux

Niveau de description
ensemble cohérent dinformations explicitées
relatif à un corpus
fichier audio, texte brut, texte formaté, texte
balisé TEI, texte segmenté, morpho-syntaxe,
syntaxe, référence, discours
analyse humaine ou traitement automatique
instancié par un schéma dannotation (Ide
Romary, 2001)
données primaires et secondaires
considération pratique reconstitution de la
couverture
continuum théorique (texte balisé TEI ?)
Méta-données
identification et gestion des données

7
Organisation linguistique
Corpus
8
Organisation opérationnelle
Corpus
9
Méta-données

Complémentarité des initiatives internationales
Dublin Core, OLAC, IMDI, TEI
convergence sur les descripteurs du TC 37 de
lISO
répertoire de catégories de données rôles,
codes de langue
Méta-données utiles pour la FReeBank
pertinence vis-à-vis de corpus, ressource et
niveau de description
prévoir des méta-données plus fines à terme
documentation des étiquettes morpho-syntaxiques
caractérisation de données primaires /
secondaires
Méta-données codées sous forme den-têtes TEI
dissémination de bonnes pratiques pour la
représentation et la transcription
diffusion au format OLAC et IMDI
moissonnage de la FReeBank par les portails
correspondants

10
Exemple types de discours

Classification stable dans OLAC
drama, formulaic discourse, interactive
discourse, language play, oratory, narrative,
procedural discourse, singing, unintelligible
speech
Caractérise la composante niveau de
description
utilisation de lttextClassgt/ltclassCodegt dans
len-tête TEI
A définir
opérationnalité de la classification
percolation vers la composante corpus ?

11
Exemple rôles

Ensemble complexe de rôles dans OLAC
caractérisation des agents intervenant dans la
création, gestion et distribution de données
linguistiques
Distribution vis-à-vis de larchitecture de la
FReeBank
Corpus
Depositor
Ressource
Depositor, Compiler, Editor, Researcher, Sponsor
Niveau de description
Gestion de lannotation Editor, Researcher,
Annotator, Data inputter, Developer, Sponsor
Contenu informationnel Author, Translator,
Interpreter, Interviewer, Responder, Participant,
Performer, Signer, Recorder, Research
participant, Singer, Speaker

12
Normalisation ?

Standard
Pratique dun groupe de personnes, dune
communauté, choix dun industriel pour un produit
Avantage flexibilité
Difficulté maintenance (documentation,
évolution, compatibilité avec dautres standards)
Norme
Officialisation dune telle pratique par une
décision consensuelle sous légide dune
organisation reconnue et pérenne
E.g. W3C, TEI, ISO, IEC, CEN

13
Que normaliser?

Documentation des données
Permettre lidentification des données existantes
et de leurs principales caractéristiques
(conditions de recueil, description du contenu,
droits associés)
Transcription
Passage dun matériau primaire brut à une
représentation élémentaire peu sensible aux choix
théoriques (texte, phonétique)
Annotation
Accompagne létude dun phénomène, stabilise
lobservation

14
Bases de travail

Quelles initiatives devons nous considérer?
De multiples projets ont visité le domaine
EAGLES, ISLE, Mate, NITE, OLAC, ATLAS
Quelques points de référence
W3C
TEI
ISO
Autres?

15
Le W3C

World Wide Web Consortium
Principalement des industriels, 3 partenaires
académiques (MIT, ERCIM, Keio)
Apporte des normes (recommandations) horizontales
XML, XSLT, chemins, pointeurs, liens
RDF, RDFS, OWL
SVG, SMIL
SOAP, WSDL

16
La TEI

Text Encoding Initiative
Consortium académique à forte orientation
sciences humaines
Création 1987 TEI P3 1992 TEI P4 (XML)
2002 TEI P5 (plus modulaire) 2004-2007
Les éléments principaux
En-tête base documentaire riche
Composants de base prose, poésie, théâtre,
oral
Modules spécifiques liens (cf. alignement
multilingue), noms et dates, apparat critique etc.

17
ISO

Organisation internationale de standardisation
Association travaillant pour le compte de ses
membres les organisations nationales de
normalisation (AFNOR, ANSI, DIN, BSI etc.)
Organisé en comités techniques et sous-comités
Couvre tous les domaines

18
ISO - exemples

ISO-IEC/JTC1
E.g. ISO 10646 / Unicode pour lidentification et
la représentatioin universelle de caractères
ISO/TC 37 (Terminologie et autres ressources
linguistiques)
SC 1 Méthodes en terminologie
SC 2 e.g. Codes langues ISO 639-1 (en, fr)
SC 3 Terminologies informatisés ISO 16642 (TMF)
SC 4 Ressources linguistiques

19
LISO/TC 37/SC 4

Objectif définir des plates-formes de
représentation et dannotation de ressources
linguistiques
Mécanismes de base e.g. structures de traits
Répertoires de catégories de données
Processus souple de spécification dun format
dannotation
Domaines abordés/à aborder
Morpho-syntaxe, syntaxe, contenus sémantiques,
discours, lexiques, données multilingues,
langages de requêtes, évaluation
http//www.tc37sc4.org

20
LMF le modèle
Lexical DB
Lexical extension for morphology
Lexical Entry
Lexical Entry
1..1
1..1
Lexical extensions
1..1
1..1
Morphology
Morphology
21
Méta-modèle dun lexique morphologique
22
Décoration du modèle
1..1
/lemma/ /POS/
1..1
Global Info
/word form/ /gender/ /number/ /tense/
23
Une entrée du DCR
Entry Identifier grammatical gender Profile mo
rpho-syntax Definition (fr) Catégorie
grammaticale reposant, selon les langues et
les systèmes, sur la distinction naturelle
entre les sexes ou sur des critères formels
(Source TLFi) Definition (en) Grammatical
category (Source TLFi (Trad.)) Conceptual
Domain /feminine/, /masculine/, /neuter/
Object Language fr Name genre Conceptual
Domain /feminine/, /masculine/
Object Language en Name gender Name
grammatical gender
Object Language de Name Geschlecht Name
Genus Conceptual Domain /feminine/,
/masculine/, /neuter/
24
Un format compatible avec le modèle

ltstruct type'lexical entry'gt
ltfeat type'lemma'gtchatlt/featgt
ltfeat typegrammatical categorygtnounlt/featgt
ltstruct typemorphologygt
ltstruct typeparadigmgt
ltfeat typeparadigm identifier'gtfr-s-plurallt/f
eatgt
lt/structgt
ltstruct type'inflexion'gt
ltfeat type'word form'gtchatlt/featgt
ltfeat typenumbergtsingularlt/featgt
lt/structgt
ltstruct type'inflexion'gt
ltfeat type'word form'gtchatslt/featgt
ltfeat typenumbergtplurallt/featgt
lt/structgt
lt/structgt
lt/structgt

25
Application directes

Morphalou
un lexique morphologique ouvert
Téléchargement patchfair use
FReeBank
une base de ressources libres annotées
Dépôt en ligne (En-têtes TEI)
Téléchargement dun simple clic
Fair use
Une institution de référence
Le CNRTL

Write a Comment

User Comments (0)

About PowerShow.com

Normalisation pour les corpus et les lexiques multilingues PowerPoint PPT Presentation