Title: Technolangue Campagnes dEvaluation EVALDA
1Technolangue Campagnes
dEvaluation(EVALDA)
- Khalid CHOUKRI
- ELRA/ELDA (choukri_at_elda.org)
- http//www.technolangue.net
- http//www.elda.org/rubrique69.html
2EVALDA / Plan
- Objectif du projet Evalda
- Descriptif des campagnes
- Synergie entre campagnes et apports
- Conclusion (Panel)
- Présentation disponible sur www.technolangue.net
3EVALDA / Définition
Le consortium propose la constitution dune
infrastructure d'évaluation des systèmes
d'ingénierie linguistique du français, pérenne
et permanente, et son exploitation par la mise
en uvre de plusieurs expérimentations
4EVALDA / Infrastructure
5EVALDA / Objectifs (1/3)
- Mise en place de briques réutilisables
- organisation, logistique, ressources
linguistiques, métriques et outils, des acteurs
(comités scientifiques, experts, partenaires). - Garantir une indépendance et une neutralité
- Optimiser la synergie et la rationalisation ..
Planning ressources réflexions (économie
déchelle) - garantir la possibilité de capitaliser les
résultats des différentes expérimentations
6EVALDA / Objectifs (2/3)
-
- Linfrastructure devra comprendre plusieurs
pôles - un pôle recherche et méthodes
- un pôle délaboration des protocoles, des
métriques et des outils dévaluation - un pôle de production et de validation des
ressources linguistiques - un pôle coordination pour la gestion et le suivi
des campagnes - un pôle logistique
- un pôle de pérennisation pour assurer la
capitalisation des connaissances, des outils et
des ressources accumulés.
7EVALDA / Partenaires
AFCP ENST LIDILEM Tagmatica APIL EPFL Lille3
-CERSATES TELIP ATALA ERSS LIMSI U-Maine ATILF
-ILF FT RD Lingway U-Mons Bell
Labs GREYC LLF U-Neuchâtel CISMEF-Rouen ICP LO
RIA VALORIA CRIM IMS LPL VECSYS CRIS INRIA
Multitel XEROX CRISCO IRISA RALI DELIC IRIT
Sinequa DFKI iSmart Softissimo DGA LATL STIM-
AP/HP ELAN LIA Synapse ELDA LIC2M Systran
8EVALDA / Objectifs (3/3)
- I. Objectifs en plus de létat de lArt
- 1. Pérenniser les produits
- Créer une/des plate-forme(s) dévaluation des
technologies linguistiques qui soit réutilisable
au-delà dEVALDA. - Constituer une base de ressources utiles
en-dehors dEVALDA. - 2. Créer des synergies entre les différentes
campagnes EVALDA - Partager et réutiliser les ressources et les
outils développés originellement pour une
campagne dans dautres campagnes. - Partager les efforts et lexpertise mise en uvre
et générée. - 3. Créer des synergies à lextérieur dEVALDA
e.g. Technovision? FP6 - Partager des ressources créées dans EVALDA avec
dautres projets. - Réutiliser dans EVALDA des ressources crées dans
dautres projets. - Intégrer les outils créés dans EVALDA dans un
cadre de développement plus large.
9EVALDA / Les thèmes
- l'oral
- la synthèse vocale,
- les transcriptions d'émissions d'actualité,
- le dialogue (pour des serveurs d'information
orales type renseignements touristiques). - l'écrit
- les analyseurs syntaxiques,
- la tâche question-réponse en recherche
dinformation, - lalignement de corpus multilingues
- la traduction automatique.
- Nécessité de trouver des sous-thèmes transversaux
10EVALDA / Les campagnes
- I. Campagnes dévaluation EVALDA
- 1. ARCADE II Evaluation de systèmes
dalignement de corpus bilingues - 2. CESART Evaluation de systèmes dextraction
de terminologie - 3. CESTA Evaluation de systèmes de traduction
automatique - 4. EASy Evaluation de systèmes dannotation
syntaxique - 5. EQueR Evaluation de systèmes de
question-réponse - 6. ESTER Evaluation de systèmes de
transcription automatique démissions - radiodiffusées
- 7. EVASy Evaluation de systèmes de synthèse de
la parole - 8. MEDIA Evaluation de systèmes de dialogue en
contexte et hors-contexte
11EVALDA / ARCADE II
- I.1. Campagne dévaluation ARCADE II (1/2)
- Objectifs
- identifier les évolutions récentes de létat de
lart de lalignement multilingue. - approfondir lévaluation sur un large éventail
de langues, incluant les langues à écriture
non-latine. - Participants 5 laboratoires publics et 2
industriels - Tâche T1 Alignement phrastique
- 5 participants
- 2 groupes des langues dont 5 langues à écriture
latine (allemand, anglais, espagnol, français,
italien) et 6 langues à écriture non-latine
(arabe, chinois, grec, japonais, persan, russe) - 2 types des corpus parallèles alignés au
français (avec ou sans segmentation en phrases) - 5 millions de mots (1 million pour chaque des
langues à écriture latine) 550 articles (150x2
arabe-fr 50x2 pour les 5 autres langues à
écriture non-latine) - Tâche T2 Traduction dentités nommées
- 3 participants
- 30x2 articles français annotés en EN (Monde
Diplomatique) et les textes parallèles en arabe - 4000 entités nommées en français à traduire en
arabe
12EVALDA / ARCADE II
- I.1. Campagne dévaluation ARCADE II (2/2)
- Innovation Intérêt
- - Recherche
- - ouverture à de nouvelles langues, notamment à
écriture non-latine - - nouvelle tâche spécifique qui est traduction
dentités nommées français et arabe - - Industrie
- - absence de projet concurrent à lheure
actuelle - - avancée technologique et méthodologique dans
lévaluation de lalignement multilingue - Ressources et Outils issus de la campagne
- - La mise au point de corpus de textes
parallèles alignés dune taille importante et
portant sur un éventail de langues très
important, dont diverses langues à de différentes
écritures - - La mise à disposition des participants du
logiciel dalignement Unicode AligneEd
13EVALDA / CESART
- I.2. Campagne dévaluation CESART (1/2)
- Objectifs
- élaborer un nouveau protocole pour l'évaluation
de systèmes d'acquisition de ressources
terminologiques - produire des ressources réutilisables sous la
forme dun package dévaluation - Participants 3 laboratoires publics et 2
industriels - Tâche T1 Extraction de candidats termes
- 4 participants
- 3 domaines spécialisés (médecine, éducation,
politique) - 1 corpus médical (CISMeF) de 9 millions de mots
français 1 corpus de léducation (SPIRAL) de
535.000 mots français 1 corpus politique (JOC)
240.000 mots français - Tâche T3 Extraction de relations
- 1 participant
- 3 corpus de domaines spécialisés
- 3 thésaurus des domaines définis
- 3 listes de termes amorces
14EVALDA / CESART
- I.2. Campagne dévaluation CESART (2/2)
- Innovation Apport
- - Prise en compte des critères dévaluation
basés sur lapplication (utilisateur) - - Évaluation automatique (quantitative)
évaluation humaine (qualitative) - Ressources et Outils issus de la campagne
- - Collection de textes médicaux extraits du site
de Santé-Canada - - Collection de textes de léducation provenant
de la revue scientifique Spirale - - Listes des termes amorces de domaines
spécialisés
15EVALDA / CESTA
- I.3. Campagne dévaluation CESTA (1/2)
- Objectifs - Alimenter lactivité de recherche
dans le domaine en fournissant une photographie
de létat de lart en France. - - Permettre le développement de cette
activité en fournissant des corpus aux
chercheurs - Participants 5 systèmes industriels et 2
académiques - Deux campagnes une campagne sur un vocabulaire
non restreint, une campagne sur un domaine
spécialisé (évaluation après enrichissement
terminologique) - Première campagne - 2 corpus anglais et arabe
de 20.000 mots 200.000 mots de masquage - - 2 traductions de référence en français
- Seconde campagne - même quantité de données que
la première campagne - - enrichissement terminologique à partir
dun corpus de développement
16EVALDA / CESTA
- I.3. Campagne dévaluation CESTA (2/2)
- Innovation Apports
- - Nouvelles paires de langues anglais?français
et arabe?français - - Expérimentation de nouvelles métriques
dévaluation - - Méta-évaluation de métriques automatiques
- - Plates-formes dévaluation humaine et
automatique - Ressources et Outils issus de la campagne
- - Corpus français de 13.000 mots étiqueté
fluidité et adéquation - - Corpus anglais-français et arabe-français
alignés de 20.000 mots chacun - - Corpus anglais-français et arabe-français
alignés de 20.000 mots chacun sur un domaine
spécialisé - - Plate-forme dévaluation pour des jugements
humains - - Plate-forme dévaluation automatique
- - Développement de deux nouvelles métriques
automatiques
17EVALDA / EASy
- I.4. Campagne dévaluation EASy (1/2)
- Objectifs - Création d'une méthodologie
d'évaluation des analyseurs syntaxiques - - Développement des outils dévaluation
des résultats - - Création à faible coût d'une ressource
linguistique validée - Participants 2 coordinateurs, 5 fournisseurs de
corpus, 13 participants - Corpus - 1 million de mots
- - 6 types de corpus issus de sources
hétérogènes - - médical (105 kmots)
- - littéraire (275 kmots)
- - méls (120 kmots)
- - général (260 kmots)
- - transcriptions de loral (100 kmots)
- - questions (140 kmots)
- 2 types dévaluation - constituants
- - relations de dépendances
18EVALDA / EASy
- I.4. Campagne dévaluation EASY (2/2)
- Innovation Apports
- - De nombreux participants
- - Constitution dun corpus de 1 million de mots
annoté en constituants et en relations
syntaxiques. - Ressources et Outils issus de la campagne
- - Collection de textes français étiquetés
syntaxiquement couvrant 6 domaines - médical, littéraire, emails, général, oral et
questions ?1 million de mots - - Outils et Guide détaillé pour les annotations
- - Outils dévaluation (en constituants et en
relations) - - Outil de visualisation des constituants et des
relations
19EVALDA / EQueR
- I.5. Campagne dévaluation EQueR (1/2)
- Objectifs - Alimenter lactivité de recherche
dans le domaine en fournissant une photographie
de létat de lart en France. - - Permettre le développement de cette
activité en fournissant des corpus aux
chercheurs - Participants 5 laboratoires publics et 3
institutions privées - Deux tâches une tâche générique (7
participants) et une tâche spécialisée (5
participants) - Tâche générique - 1,5 Go collection hétérogènes
de textes (articles de presses
LM, LMD, SDA, Sénat) - - 500 questions (factuelle,
définition, liste, oui/non)
- Tâche spécialisée - 140 Mo collection de textes
liés au domaine médical (articles
scientifiques, recommandations de bonnes
pratiques médicales - - 200 questions (factuelle,
définition, liste, oui/non)
20EVALDA / EQueR
- I.5. Campagne dévaluation EQueR (2/2)
- Innovation Apports
- - Participants - De nouveaux participants qui
navaient jamais fait dévaluation Q-R
auparavant. - - Beaucoup déquipes françaises en
comparaison avec le nombre de participants
européens à CLEF. - - Evaluation - Tâche Question-réponse sur
un corpus spécialisé. - - Un nouveau type de questions
oui/non. - Ressources (R) et Outils (O) issus de la
campagne - - Collection de textes français, 1,5 Go (articles
de presse). R - - Collection de textes français issus du domaine
médical, 140 Mo (articles scientifiques, - recommandations). R
- - Corpus général de 500 questions en
français. R - - Corpus médical de 200 questions en
français. R - - Logiciel daide à lévaluation des résultats
dans le cadre dune évaluation de systèmes - de question-réponse O
21EVALDA / ESTER
- I.6. Campagne dévaluation ESTER (1/2)
- Objectifs - promouvoir une dynamique de
l'évaluation en France - - mettre en place une structure pérenne
d'évaluation - - production et diffusion des ressources
linguistiques importantes - - mesurer et faire progresser les performances
des systèmes - Participants - 11 laboratoires publics
- - 2 institutions privées
- Trois tâches - Transcription orthographique
( catégorie temps réél) - - Segmentation (en événements sonores, en
locuteurs, suivi de locuteurs) - - Extraction dinformations (détection
dentités nommées)
22EVALDA / ESTER
- I.6. Campagne dévaluation ESTER (2/2)
- Innovation Apports
- La majorité des participants développaient pour
la première fois un système de transcription
automatique - Participation nombreuse
- Tâche de détection dentités nommées sur de
loral - Ressources et Outils issus de la campagne
- 100 h démissions radiophoniques transcrites et
annotés en EN (40 h pré existantes) - 1700 h démissions radiophoniques non transcrites
- Guides dannotations
- Package de scoring
- Ressources dérivées lexiques, alignement
phonétiques, transcription automatique
23EVALDA / EVASy
- I.5. Campagne dévaluation EVASy (1/2)
- Objectifs - Développer et mettre à
disposition des outils et méthodes dévaluation
validés par le consortium - - Mettre à jour les faiblesses et atouts
des systèmes de synthèse - Participants - ELDA, coordinateur
- - LIMSI-CNRS, responsable
scientifique - - DELIC (Université de Provence), fournisseur de
corpus - - CRISCO (Université de Caen)
- - LIA (Université dAvignon)
- - Acapela Group - ELAN
- - ICP Grenoble
- - LATL participant externe
- - MULTITEL ASLB participant externe
- Trois axes dévaluation
- Evaluation de la conversion graphème-phonème
- Evaluation de la prosodie de synthèse
- Evaluation globale de la synthèse
24EVALDA / EVASy
- I.7. Campagne dévaluation EVASy (2/2)
- Innovation Apports
- - Evaluations Poursuite de la campagne AUPELF
(maintenant AUF) 1996-1998 - - Evaluation conversion grapheme-phoneme
sur un corpus de noms propres - - Evaluation de la Prosodie nouvelle
tâche, innovation méthodologique - - Evaluation Globale nouvelle tâche,
innovation méthodologique - Ressources et Outils issus de la campagne
- Création dun corpus phonétisé demails (2.146
emails, soit 114.685 mots) - Création dun corpus phonétisé de noms propres
(4.000 couples prénoms noms) - Base de données associée aux noms propres
contexte, nationalité, origine linguistique - Création de listes de phrases SUS (Semantically
Unpredictable Sentences) - 15 listes de 10
phrases - Nouvelle verbalisation pour les tests MOS (Mean
Opinion Score) - Plate-forme dévaluation pour réaliser les tests
subjectifs (jugements humains)
25EVALDA / MEDIA
- I.8. Campagne dévaluation MEDIA (1/2)
- Objectifs
- définition dune méthodologie dévaluation de la
compréhension des systèmes de dialogues - évaluation des systèmes de compréhension de
dialogues - production et diffusion des ressources
linguistiques - mesurer et faire progresser les performances des
systèmes - Participants
- FT RD France Telecom Recherche et
Développement - IMAG Institut d'Informatique et de
Mathématiques Appliquées de Grenoble - IRIT Institut de Recherche en Informatique de
Toulouse - LIMSI Laboratoire des Systèmes et Instruments
Ile de France - LIUM Laboratoire d'Informatique de l'Université
du Maine - LORIA Laboratoire Lorrain d'Intelligence
Artificielle - LIA Laboratoire d'Informatique d'Avignon
- VALORIA Laboratoire de Recherche en
Informatique et ses Applications de Vannes et
Lorient
26EVALDA / MEDIA
- I.8. Campagne dévaluation MEDIA (2/2)
- Deux axes dévaluations
- evaluation hors-contexte du dialogue
- evaluation en-contexte du dialogue
- Innovation Apports
- Définition dun paradigme dévaluation hors et en
contexte de dialogue - Ressources et Outils issus de la campagne
- Corpus de 1250 dialogues enregistrés (WoZ) pour
la tâche dinformations touristiques - Transcriptions orthographiques, annotations en
segments sémantiques et méta-annotations (actes
de dialogues, répetitions, incises, etc) - Outil dannotation (semantizer)
- Outil dévaluation (mediaval)
27SynergiesEVALDA
- Réutilisation des ressources et outils dans
EVALDA et à lextérieur
28EVALDA / Synergies
- I. Objectifs
- 1. Créer des synergies entre les différentes
campagnes EVALDA - 2. Créer des synergies à lextérieur dEVALDA
29EVALDA / Synergies
- II. Synergies à lintérieur dEVALDA (1/3)
- II.1. EQUER ? CESART
- Réutilisation du corpus médical de la tâche
médical comme corpus de spécialité (
parallélisation avec langlais). - II.2. CESART ? CESTA
- Réutilisation du corpus médical bilingue
parallèle anglais//français de CESART pour la
2nde campagne de CESTA. - II.3. ARCADE-II ? CESTA
- Réutilisation du corpus aligné arabe//français
pour la 1ère campagne de CESTA.
30EVALDA / Synergies
- II. Synergies à lintérieur dEVALDA (2/3)
- II.4. EVASY ? EASY
- Réutilisation du corpus de 2200 emails anonymisés
(DELIC) - II.5. ESTER ? EASY
- Réutilisation dune partie des transcriptions
démissions de radio - II.6. EQUER ? EASY
- Réutilisation dun corpus de rapports du Sénat
31EVALDA / Synergies
- II. Synergies à lintérieur dEVALDA (3/3)
32EVALDA / Synergies
- II. Synergies à lextérieur dEVALDA (1/2)
33EVALDA / Synergies
- II. Synergies à lextérieur dEVALDA (2/2)
- II.1. Projet européen TC-STAR
- Développement de systèmes distribués de
traduction oral-oral en temps réel. - Réutilisation des plate-formes dévaluation
développées dans - CESTA (traduction automatique)
- EVASY (synthèse vocale)
- Réutilisation de corpus alignés produits dans
ARCADE-II (espagnol-anglais, chinois-français-angl
ais). - II.2. Projet Amaryllis (terminé)
- Réutilisation de 3000 questions du corpus sur les
notices bibliographiques dans EASY
34EVALDA / Produits
- III. Pérennisation (1/5)
- III.1. Produits dARCADE-II
- Création de corpus alignés
- Textes allemand, italien, espagnol, anglais
alignés au français (5 x 1M mots) - Arabe/français/anglais (3 x 150 articles)
- Grec/français, japonais/français,
chinois/français, russe/français, persan/français
(5 x 50 articles) - III.2. Produits de CESTA
- Création dun corpus français de 13.000 mots
étiqueté fluidité et adéquation. - Création de corpus alignés anglais/français et
arabe/français (2 x 20.000 mots) - Création dune plate-forme dévaluation
(métriques automatiques jugements humains) sous
forme de services web. - Création dune plate-forme dévaluation humaine
via Internet - Création de corpus médicaux alignés
anglais/français et arabe/français
RSC
RSC
RSC
LOG
LOG
RSC
35EVALDA / Produits
- III. Pérennisation (2/5)
- III.3. Produits de CESART
- Création de nouvelles listes de synonymes à
ajouter au thésaurus international MeSH. - Création de 2 corpus spécialisés, domaine médical
et domaine de léducation - III.4. Produits dEVASY
- Création dun corpus phonétisé demails (plus de
2000 emails) - Création dun corpus phonétisé de noms propres
(4000 couples prénoms noms) - Base de données associée aux noms propres
contexte, nationalité, origine linguistique - Création de listes de phrases SUS (Semantically
Unpredictable Sentences) (150 phrases) - Nouvelle verbalisation tests MOS (Mean Opinion
Score) - Plate-forme dévaluation pour réaliser des tests
subjectifs (jugements humains)
RSC
RSC
36EVALDA / Produits
- III. Pérennisation (3/5)
- III.5. Produits dEQueR
- Création dun corpus français denviron 1,5 Go.
- ? constitué principalement de textes
journalistiques et de textes de lois provenant de
4 sources différentes Le Monde, Le Monde
Diplomatique, SDA (équivalent de lAFP en
Suisse), et du site Web du Sénat. - Création dun corpus médical français
denviron 50 Mo. - ? constitué principalement darticles
scientifiques et de recommandations médicales
tirés du Web et plus particulièrement des sites
de Santé Canada, Orphanet, CHU Rouen, FNCLCC. - Création dun corpus général de 500 questions
en français. - Création dun corpus médical de 200 questions
en français. - Outil daide à lévaluation de système de
question-réponse
RSC
RSC
RSC
RSC
LOG
37EVALDA / Produits
- III. Pérennisation (4/5)
- III.6. Produits dESTER
- Production dun corpus de 60 h démissions
radiophoniques transcrites orthographiquement - Annotation en Entités Nommés de 100 h
démissions radiophoniques - Production dun corpus de 1700h démissions
radiophoniques - Outils dévaluation
- III.7. Produits dEASY
- Corpus étiqueté syntaxiquement de 1 million de
mots couvrant plusieurs styles de textes langue
générale (journaux, rapports), questions,
emails, transcriptions, littéraire, médical - Outils dévaluation
RSC
RSC
RSC
LOG
RSC
LOG
38EVALDA / Produits
- III. Pérennisation (5/5)
- III.8. Produits de MEDIA
- Corpus de 1250 dialogues enregistrés, transcrits
et annotés sémantiquement et en actes de dialogue - Méta annotations
- Outil dannotation sémantique
- Paradigme et outil dévaluation
- III.9. Intégration
- Dans le cadre des synergies avec TC-STAR, puis
avec CHIL - Développement dune architecture distribuée pour
lévaluation, intégrant les outils logiciels
produits par EVALDA - Pour commencer ESTER, CESTA, EVASY
RSC
RSC
LOG
LOG
39EVALDA / Dissémination
- IV. Dissémination
- Articles (conférences) - EVALDA/Technolangue.net
, CESTA, ESTER à LREC 2004 - - EVALDA, ESTER aux JEP à Fès 2004
- - CESTA à COLING 2004
- - EVASY à InterSpeech 2005, et TALN 2005
- - EQUER et EASY à TALN 2005
- - CESTA à MT Summit 2005
- Revues - EVASY soumis à Speech Communication,
Computer Speech Language, TALN - - CESTA dans Multilingual Computing
Technology 68 - Posters (conférences) - EVALDA/Technolangue.net
, MEDIA à LREC 2004 - MEDIA aux JEP à Fès
2004 - - MEDIA à InterSpeech 2005
- Stands - EVALDA/Technolangue.net à iEXPO 2004
- Sites web www.technolangue.net www.elda.org/eva
sy - www.elda.org www.limsi.fr/Recherche/CORVAL/eas
y
40Technolangue (EVALDA)
EVALDA / Conclusion
- Un cas unique en Europe
- Un exemple qui inspire plusieurs programmes
nationaux - Une capitalisation importante
- ... étendre a lEurope ?