Title: Normalisation pour les corpus et les lexiques multilingues
1Normalisation pour les corpus et les lexiques
multilingues
- Laurent Romary
- INRIA MPG
- EPAL 2007
- Symposium Corpus dapprentissage en ligne
- Grenoble, 7 juin 2007
2Objectifs généraux
- Partager des ressources (corpus annotés)
- Contexte déclaration de Berlin
- http//oa.mpg.de/openaccess-berlin/berlindeclarati
on.html - Partager des outils (annotation, visualisation,
accès) - Partager des pratiques
- E.g. recueil de données, manuels dannotation,
méthodes dévaluation - Hypothèse la définition et la diffusion de
normes internationales devraient nous permettre
de progresser dans ce sens
3Lexicométrie et corpus multilingues
- Notion de corpus parallèle ou comparable
- Point de vue linguistique rôle de lexpert
- Point de vue technique
- Adoption de formats similaires codage
primaire, niveaux dannotation - Comparaisons de la sémantique des annotations
- E.g. définition transversale de concepts
génériques paramétrant un étiquetage
morpho-syntaxique - Est-il réaliste/justifié de vouloir disposer dun
répertoire de catégories de données dans le
domaine des langues?
4Lexicométrie et corpus multilingues (suite)
- Représentation consistante des structures
lexicales - Savoir choisir (spécifier) la structure lexicale
qui convient au recueil de données envisagé - Croiser les observations avec des dictionnaires
existants - interopérabilité
- Deux aspects
- Organisation générale des entrées lexicales
(méta-modèle) - Choix des catégories de données permettant de
décorer un modèle particulier
5Concepts fondamentaux
- Couverture linguistique
- conditions de production contenu linéaire
- Je sais que le langage courant est plein de
pièges. - gt S. de Beauvoir, 1976 M. Yaguello, 1978
TALN 2004 - Corpus
- collection de données caractérisée par une même
couverture linguistique - Goriot, chap. I
- Le Monde 09/1986 ? articles sportifs du Monde
09/1986 - corpus contingent vs. intentionnel (Sinclair
1996, Habert et al 1997, Véronis 2000) - Ressource
- unité physique de dépôt de données relatives à un
corpus - Goriot scanné (image)
- Goriot texte brut (Word)
- Goriot étiqueté arboré (XML Tiger)
6Concepts fondamentaux
- Niveau de description
- ensemble cohérent dinformations explicitées
relatif à un corpus - fichier audio, texte brut, texte formaté, texte
balisé TEI, texte segmenté, morpho-syntaxe,
syntaxe, référence, discours - analyse humaine ou traitement automatique
- instancié par un schéma dannotation (Ide
Romary, 2001) - données primaires et secondaires
- considération pratique reconstitution de la
couverture - continuum théorique (texte balisé TEI ?)
- Méta-données
- identification et gestion des données
7Organisation linguistique
Corpus
8Organisation opérationnelle
Corpus
9Méta-données
- Complémentarité des initiatives internationales
- Dublin Core, OLAC, IMDI, TEI
- convergence sur les descripteurs du TC 37 de
lISO - répertoire de catégories de données rôles,
codes de langue - Méta-données utiles pour la FReeBank
- pertinence vis-à-vis de corpus, ressource et
niveau de description - prévoir des méta-données plus fines à terme
- documentation des étiquettes morpho-syntaxiques
- caractérisation de données primaires /
secondaires - Méta-données codées sous forme den-têtes TEI
- dissémination de bonnes pratiques pour la
représentation et la transcription - diffusion au format OLAC et IMDI
- moissonnage de la FReeBank par les portails
correspondants
10Exemple types de discours
- Classification stable dans OLAC
- drama, formulaic discourse, interactive
discourse, language play, oratory, narrative,
procedural discourse, singing, unintelligible
speech - Caractérise la composante niveau de
description - utilisation de lttextClassgt/ltclassCodegt dans
len-tête TEI - A définir
- opérationnalité de la classification
- percolation vers la composante corpus ?
11Exemple rôles
- Ensemble complexe de rôles dans OLAC
- caractérisation des agents intervenant dans la
création, gestion et distribution de données
linguistiques - Distribution vis-à-vis de larchitecture de la
FReeBank - Corpus
- Depositor
- Ressource
- Depositor, Compiler, Editor, Researcher, Sponsor
- Niveau de description
- Gestion de lannotation Editor, Researcher,
Annotator, Data inputter, Developer, Sponsor - Contenu informationnel Author, Translator,
Interpreter, Interviewer, Responder, Participant,
Performer, Signer, Recorder, Research
participant, Singer, Speaker
12Normalisation ?
- Standard
- Pratique dun groupe de personnes, dune
communauté, choix dun industriel pour un produit - Avantage flexibilité
- Difficulté maintenance (documentation,
évolution, compatibilité avec dautres standards) - Norme
- Officialisation dune telle pratique par une
décision consensuelle sous légide dune
organisation reconnue et pérenne - E.g. W3C, TEI, ISO, IEC, CEN
13Que normaliser?
- Documentation des données
- Permettre lidentification des données existantes
et de leurs principales caractéristiques
(conditions de recueil, description du contenu,
droits associés) - Transcription
- Passage dun matériau primaire brut à une
représentation élémentaire peu sensible aux choix
théoriques (texte, phonétique) - Annotation
- Accompagne létude dun phénomène, stabilise
lobservation
14Bases de travail
- Quelles initiatives devons nous considérer?
- De multiples projets ont visité le domaine
- EAGLES, ISLE, Mate, NITE, OLAC, ATLAS
- Quelques points de référence
- W3C
- TEI
- ISO
- Autres?
15Le W3C
- World Wide Web Consortium
- Principalement des industriels, 3 partenaires
académiques (MIT, ERCIM, Keio) - Apporte des normes (recommandations) horizontales
- XML, XSLT, chemins, pointeurs, liens
- RDF, RDFS, OWL
- SVG, SMIL
- SOAP, WSDL
16La TEI
- Text Encoding Initiative
- Consortium académique à forte orientation
sciences humaines - Création 1987 TEI P3 1992 TEI P4 (XML)
2002 TEI P5 (plus modulaire) 2004-2007 - Les éléments principaux
- En-tête base documentaire riche
- Composants de base prose, poésie, théâtre,
oral - Modules spécifiques liens (cf. alignement
multilingue), noms et dates, apparat critique etc.
17ISO
- Organisation internationale de standardisation
- Association travaillant pour le compte de ses
membres les organisations nationales de
normalisation (AFNOR, ANSI, DIN, BSI etc.) - Organisé en comités techniques et sous-comités
- Couvre tous les domaines
18ISO - exemples
- ISO-IEC/JTC1
- E.g. ISO 10646 / Unicode pour lidentification et
la représentatioin universelle de caractères - ISO/TC 37 (Terminologie et autres ressources
linguistiques) - SC 1 Méthodes en terminologie
- SC 2 e.g. Codes langues ISO 639-1 (en, fr)
- SC 3 Terminologies informatisés ISO 16642 (TMF)
- SC 4 Ressources linguistiques
19LISO/TC 37/SC 4
- Objectif définir des plates-formes de
représentation et dannotation de ressources
linguistiques - Mécanismes de base e.g. structures de traits
- Répertoires de catégories de données
- Processus souple de spécification dun format
dannotation - Domaines abordés/à aborder
- Morpho-syntaxe, syntaxe, contenus sémantiques,
discours, lexiques, données multilingues,
langages de requêtes, évaluation - http//www.tc37sc4.org
20LMF le modèle
Lexical DB
Lexical extension for morphology
Lexical Entry
Lexical Entry
1..1
1..1
Lexical extensions
1..1
1..1
Morphology
Morphology
21Méta-modèle dun lexique morphologique
22Décoration du modèle
1..1
/lemma/ /POS/
1..1
Global Info
/word form/ /gender/ /number/ /tense/
23Une entrée du DCR
Entry Identifier grammatical gender Profile mo
rpho-syntax Definition (fr) Catégorie
grammaticale reposant, selon les langues et
les systèmes, sur la distinction naturelle
entre les sexes ou sur des critères formels
(Source TLFi) Definition (en) Grammatical
category (Source TLFi (Trad.)) Conceptual
Domain /feminine/, /masculine/, /neuter/
Object Language fr Name genre Conceptual
Domain /feminine/, /masculine/
Object Language en Name gender Name
grammatical gender
Object Language de Name Geschlecht Name
Genus Conceptual Domain /feminine/,
/masculine/, /neuter/
24Un format compatible avec le modèle
- ltstruct type'lexical entry'gt
- ltfeat type'lemma'gtchatlt/featgt
- ltfeat typegrammatical categorygtnounlt/featgt
- ltstruct typemorphologygt
- ltstruct typeparadigmgt
- ltfeat typeparadigm identifier'gtfr-s-plurallt/f
eatgt - lt/structgt
- ltstruct type'inflexion'gt
- ltfeat type'word form'gtchatlt/featgt
- ltfeat typenumbergtsingularlt/featgt
- lt/structgt
- ltstruct type'inflexion'gt
- ltfeat type'word form'gtchatslt/featgt
- ltfeat typenumbergtplurallt/featgt
- lt/structgt
-
- lt/structgt
- lt/structgt
25Application directes
- Morphalou
- un lexique morphologique ouvert
- Téléchargement patchfair use
- FReeBank
- une base de ressources libres annotées
- Dépôt en ligne (En-têtes TEI)
- Téléchargement dun simple clic
- Fair use
- Une institution de référence
- Le CNRTL