Technolangue Campagnes dEvaluation EVALDA

About This Presentation

Title:

Technolangue Campagnes dEvaluation EVALDA

Description:

mise en uvre de plusieurs exp rimentations. EVALDA / D finition. 4. EVALDA / Infrastructure ... d riv es : lexiques, alignement phon tiques, transcription automatique ... – PowerPoint PPT presentation

Number of Views:37

Avg rating:3.0/5.0

Slides: 41

Provided by: christel78

Category:

more less

Transcript and Presenter's Notes

Title: Technolangue Campagnes dEvaluation EVALDA

1
Technolangue Campagnes
dEvaluation(EVALDA)

Khalid CHOUKRI
ELRA/ELDA (choukri_at_elda.org)
http//www.technolangue.net
http//www.elda.org/rubrique69.html

2
EVALDA / Plan

Objectif du projet Evalda
Descriptif des campagnes
Synergie entre campagnes et apports
Conclusion (Panel)
Présentation disponible sur www.technolangue.net

3
EVALDA / Définition
Le consortium propose la constitution dune
infrastructure d'évaluation des systèmes
d'ingénierie linguistique du français, pérenne
et permanente, et son exploitation par la mise
en uvre de plusieurs expérimentations
4
EVALDA / Infrastructure
5
EVALDA / Objectifs (1/3)

Mise en place de briques réutilisables
organisation, logistique, ressources
linguistiques, métriques et outils, des acteurs
(comités scientifiques, experts, partenaires).
Garantir une indépendance et une neutralité
Optimiser la synergie et la rationalisation ..
Planning ressources réflexions (économie
déchelle)
garantir la possibilité de capitaliser les
résultats des différentes expérimentations

6
EVALDA / Objectifs (2/3)

Linfrastructure devra comprendre plusieurs
pôles
un pôle recherche et méthodes
un pôle délaboration des protocoles, des
métriques et des outils dévaluation
un pôle de production et de validation des
ressources linguistiques
un pôle coordination pour la gestion et le suivi
des campagnes
un pôle logistique
un pôle de pérennisation pour assurer la
capitalisation des connaissances, des outils et
des ressources accumulés.

7
EVALDA / Partenaires
AFCP ENST LIDILEM Tagmatica APIL EPFL Lille3
-CERSATES TELIP ATALA ERSS LIMSI U-Maine ATILF
-ILF FT RD Lingway U-Mons Bell
Labs GREYC LLF U-Neuchâtel CISMEF-Rouen ICP LO
RIA VALORIA CRIM IMS LPL VECSYS CRIS INRIA
Multitel XEROX CRISCO IRISA RALI DELIC IRIT
Sinequa DFKI iSmart Softissimo DGA LATL STIM-
AP/HP ELAN LIA Synapse ELDA LIC2M Systran
8
EVALDA / Objectifs (3/3)

I. Objectifs en plus de létat de lArt
1. Pérenniser les produits
Créer une/des plate-forme(s) dévaluation des
technologies linguistiques qui soit réutilisable
au-delà dEVALDA.
Constituer une base de ressources utiles
en-dehors dEVALDA.
2. Créer des synergies entre les différentes
campagnes EVALDA
Partager et réutiliser les ressources et les
outils développés originellement pour une
campagne dans dautres campagnes.
Partager les efforts et lexpertise mise en uvre
et générée.
3. Créer des synergies à lextérieur dEVALDA
e.g. Technovision? FP6
Partager des ressources créées dans EVALDA avec
dautres projets.
Réutiliser dans EVALDA des ressources crées dans
dautres projets.
Intégrer les outils créés dans EVALDA dans un
cadre de développement plus large.

9
EVALDA / Les thèmes

l'oral
la synthèse vocale,
les transcriptions d'émissions d'actualité,
le dialogue (pour des serveurs d'information
orales type renseignements touristiques).
l'écrit
les analyseurs syntaxiques,
la tâche question-réponse en recherche
dinformation,
lalignement de corpus multilingues
la traduction automatique.
Nécessité de trouver des sous-thèmes transversaux

10
EVALDA / Les campagnes

I. Campagnes dévaluation EVALDA
1. ARCADE II Evaluation de systèmes
dalignement de corpus bilingues
2. CESART Evaluation de systèmes dextraction
de terminologie
3. CESTA Evaluation de systèmes de traduction
automatique
4. EASy Evaluation de systèmes dannotation
syntaxique
5. EQueR Evaluation de systèmes de
question-réponse
6. ESTER Evaluation de systèmes de
transcription automatique démissions
radiodiffusées
7. EVASy Evaluation de systèmes de synthèse de
la parole
8. MEDIA Evaluation de systèmes de dialogue en
contexte et hors-contexte

11
EVALDA / ARCADE II

I.1. Campagne dévaluation ARCADE II (1/2)

Objectifs
identifier les évolutions récentes de létat de
lart de lalignement multilingue.
approfondir lévaluation sur un large éventail
de langues, incluant les langues à écriture
non-latine.
Participants 5 laboratoires publics et 2
industriels
Tâche T1 Alignement phrastique
5 participants
2 groupes des langues dont 5 langues à écriture
latine (allemand, anglais, espagnol, français,
italien) et 6 langues à écriture non-latine
(arabe, chinois, grec, japonais, persan, russe)
2 types des corpus parallèles alignés au
français (avec ou sans segmentation en phrases)
5 millions de mots (1 million pour chaque des
langues à écriture latine) 550 articles (150x2
arabe-fr 50x2 pour les 5 autres langues à
écriture non-latine)
Tâche T2 Traduction dentités nommées
3 participants
30x2 articles français annotés en EN (Monde
Diplomatique) et les textes parallèles en arabe
4000 entités nommées en français à traduire en
arabe

12
EVALDA / ARCADE II

I.1. Campagne dévaluation ARCADE II (2/2)
Innovation Intérêt
- Recherche
- ouverture à de nouvelles langues, notamment à
écriture non-latine
- nouvelle tâche spécifique qui est traduction
dentités nommées français et arabe
- Industrie
- absence de projet concurrent à lheure
actuelle
- avancée technologique et méthodologique dans
lévaluation de lalignement multilingue
Ressources et Outils issus de la campagne
- La mise au point de corpus de textes
parallèles alignés dune taille importante et
portant sur un éventail de langues très
important, dont diverses langues à de différentes
écritures
- La mise à disposition des participants du
logiciel dalignement Unicode AligneEd

13
EVALDA / CESART

I.2. Campagne dévaluation CESART (1/2)

Objectifs
élaborer un nouveau protocole pour l'évaluation
de systèmes d'acquisition de ressources
terminologiques
produire des ressources réutilisables sous la
forme dun package dévaluation
Participants 3 laboratoires publics et 2
industriels
Tâche T1 Extraction de candidats termes
4 participants
3 domaines spécialisés (médecine, éducation,
politique)
1 corpus médical (CISMeF) de 9 millions de mots
français 1 corpus de léducation (SPIRAL) de
535.000 mots français 1 corpus politique (JOC)
240.000 mots français
Tâche T3 Extraction de relations
1 participant
3 corpus de domaines spécialisés
3 thésaurus des domaines définis
3 listes de termes amorces

14
EVALDA / CESART

I.2. Campagne dévaluation CESART (2/2)
Innovation Apport
- Prise en compte des critères dévaluation
basés sur lapplication (utilisateur)
- Évaluation automatique (quantitative)
évaluation humaine (qualitative)
Ressources et Outils issus de la campagne
- Collection de textes médicaux extraits du site
de Santé-Canada
- Collection de textes de léducation provenant
de la revue scientifique Spirale
- Listes des termes amorces de domaines
spécialisés

15
EVALDA / CESTA

I.3. Campagne dévaluation CESTA (1/2)
Objectifs - Alimenter lactivité de recherche
dans le domaine en fournissant une photographie
de létat de lart en France.
- Permettre le développement de cette
activité en fournissant des corpus aux
chercheurs
Participants 5 systèmes industriels et 2
académiques
Deux campagnes une campagne sur un vocabulaire
non restreint, une campagne sur un domaine
spécialisé (évaluation après enrichissement
terminologique)
Première campagne - 2 corpus anglais et arabe
de 20.000 mots 200.000 mots de masquage
- 2 traductions de référence en français
Seconde campagne - même quantité de données que
la première campagne
- enrichissement terminologique à partir
dun corpus de développement

16
EVALDA / CESTA

I.3. Campagne dévaluation CESTA (2/2)
Innovation Apports
- Nouvelles paires de langues anglais?français
et arabe?français
- Expérimentation de nouvelles métriques
dévaluation
- Méta-évaluation de métriques automatiques
- Plates-formes dévaluation humaine et
automatique
Ressources et Outils issus de la campagne
- Corpus français de 13.000 mots étiqueté
fluidité et adéquation
- Corpus anglais-français et arabe-français
alignés de 20.000 mots chacun
- Corpus anglais-français et arabe-français
alignés de 20.000 mots chacun sur un domaine
spécialisé
- Plate-forme dévaluation pour des jugements
humains
- Plate-forme dévaluation automatique
- Développement de deux nouvelles métriques
automatiques

17
EVALDA / EASy

I.4. Campagne dévaluation EASy (1/2)
Objectifs - Création d'une méthodologie
d'évaluation des analyseurs syntaxiques
- Développement des outils dévaluation
des résultats
- Création à faible coût d'une ressource
linguistique validée
Participants 2 coordinateurs, 5 fournisseurs de
corpus, 13 participants
Corpus - 1 million de mots
- 6 types de corpus issus de sources
hétérogènes
- médical (105 kmots)
- littéraire (275 kmots)
- méls (120 kmots)
- général (260 kmots)
- transcriptions de loral (100 kmots)
- questions (140 kmots)
2 types dévaluation - constituants
- relations de dépendances

18
EVALDA / EASy

I.4. Campagne dévaluation EASY (2/2)
Innovation Apports
- De nombreux participants
- Constitution dun corpus de 1 million de mots
annoté en constituants et en relations
syntaxiques.
Ressources et Outils issus de la campagne
- Collection de textes français étiquetés
syntaxiquement couvrant 6 domaines
médical, littéraire, emails, général, oral et
questions ?1 million de mots
- Outils et Guide détaillé pour les annotations
- Outils dévaluation (en constituants et en
relations)
- Outil de visualisation des constituants et des
relations

19
EVALDA / EQueR

I.5. Campagne dévaluation EQueR (1/2)
Objectifs - Alimenter lactivité de recherche
dans le domaine en fournissant une photographie
de létat de lart en France.
- Permettre le développement de cette
activité en fournissant des corpus aux
chercheurs
Participants 5 laboratoires publics et 3
institutions privées
Deux tâches une tâche générique (7
participants) et une tâche spécialisée (5
participants)
Tâche générique - 1,5 Go collection hétérogènes
de textes (articles de presses
LM, LMD, SDA, Sénat)
- 500 questions (factuelle,
définition, liste, oui/non)
Tâche spécialisée - 140 Mo collection de textes
liés au domaine médical (articles
scientifiques, recommandations de bonnes
pratiques médicales
- 200 questions (factuelle,
définition, liste, oui/non)

20
EVALDA / EQueR

I.5. Campagne dévaluation EQueR (2/2)
Innovation Apports
- Participants - De nouveaux participants qui
navaient jamais fait dévaluation Q-R
auparavant.
- Beaucoup déquipes françaises en
comparaison avec le nombre de participants
européens à CLEF.
- Evaluation - Tâche Question-réponse sur
un corpus spécialisé.
- Un nouveau type de questions
oui/non.
Ressources (R) et Outils (O) issus de la
campagne
- Collection de textes français, 1,5 Go (articles
de presse). R
- Collection de textes français issus du domaine
médical, 140 Mo (articles scientifiques,
recommandations). R
- Corpus général de 500 questions en
français. R
- Corpus médical de 200 questions en
français. R
- Logiciel daide à lévaluation des résultats
dans le cadre dune évaluation de systèmes
de question-réponse O

21
EVALDA / ESTER

I.6. Campagne dévaluation ESTER (1/2)
Objectifs - promouvoir une dynamique de
l'évaluation en France
- mettre en place une structure pérenne
d'évaluation
- production et diffusion des ressources
linguistiques importantes
- mesurer et faire progresser les performances
des systèmes
Participants - 11 laboratoires publics
- 2 institutions privées
Trois tâches - Transcription orthographique
( catégorie temps réél)
- Segmentation (en événements sonores, en
locuteurs, suivi de locuteurs)
- Extraction dinformations (détection
dentités nommées)

22
EVALDA / ESTER

I.6. Campagne dévaluation ESTER (2/2)
Innovation Apports
La majorité des participants développaient pour
la première fois un système de transcription
automatique
Participation nombreuse
Tâche de détection dentités nommées sur de
loral
Ressources et Outils issus de la campagne
100 h démissions radiophoniques transcrites et
annotés en EN (40 h pré existantes)
1700 h démissions radiophoniques non transcrites
Guides dannotations
Package de scoring
Ressources dérivées lexiques, alignement
phonétiques, transcription automatique

23
EVALDA / EVASy

I.5. Campagne dévaluation EVASy (1/2)
Objectifs - Développer et mettre à
disposition des outils et méthodes dévaluation
validés par le consortium
- Mettre à jour les faiblesses et atouts
des systèmes de synthèse
Participants - ELDA, coordinateur
- LIMSI-CNRS, responsable
scientifique
- DELIC (Université de Provence), fournisseur de
corpus
- CRISCO (Université de Caen)
- LIA (Université dAvignon)
- Acapela Group - ELAN
- ICP Grenoble
- LATL participant externe
- MULTITEL ASLB participant externe
Trois axes dévaluation
Evaluation de la conversion graphème-phonème
Evaluation de la prosodie de synthèse
Evaluation globale de la synthèse

24
EVALDA / EVASy

I.7. Campagne dévaluation EVASy (2/2)
Innovation Apports
- Evaluations Poursuite de la campagne AUPELF
(maintenant AUF) 1996-1998
- Evaluation conversion grapheme-phoneme
sur un corpus de noms propres
- Evaluation de la Prosodie nouvelle
tâche, innovation méthodologique
- Evaluation Globale nouvelle tâche,
innovation méthodologique
Ressources et Outils issus de la campagne
Création dun corpus phonétisé demails (2.146
emails, soit 114.685 mots)
Création dun corpus phonétisé de noms propres
(4.000 couples prénoms noms)
Base de données associée aux noms propres
contexte, nationalité, origine linguistique
Création de listes de phrases SUS (Semantically
Unpredictable Sentences) - 15 listes de 10
phrases
Nouvelle verbalisation pour les tests MOS (Mean
Opinion Score)
Plate-forme dévaluation pour réaliser les tests
subjectifs (jugements humains)

25
EVALDA / MEDIA

I.8. Campagne dévaluation MEDIA (1/2)
Objectifs
définition dune méthodologie dévaluation de la
compréhension des systèmes de dialogues
évaluation des systèmes de compréhension de
dialogues
production et diffusion des ressources
linguistiques
mesurer et faire progresser les performances des
systèmes
Participants
FT RD France Telecom Recherche et
Développement
IMAG Institut d'Informatique et de
Mathématiques Appliquées de Grenoble
IRIT Institut de Recherche en Informatique de
Toulouse
LIMSI Laboratoire des Systèmes et Instruments
Ile de France
LIUM Laboratoire d'Informatique de l'Université
du Maine
LORIA Laboratoire Lorrain d'Intelligence
Artificielle
LIA Laboratoire d'Informatique d'Avignon
VALORIA Laboratoire de Recherche en
Informatique et ses Applications de Vannes et
Lorient

26
EVALDA / MEDIA

I.8. Campagne dévaluation MEDIA (2/2)
Deux axes dévaluations
evaluation hors-contexte du dialogue
evaluation en-contexte du dialogue
Innovation Apports
Définition dun paradigme dévaluation hors et en
contexte de dialogue
Ressources et Outils issus de la campagne
Corpus de 1250 dialogues enregistrés (WoZ) pour
la tâche dinformations touristiques
Transcriptions orthographiques, annotations en
segments sémantiques et méta-annotations (actes
de dialogues, répetitions, incises, etc)
Outil dannotation (semantizer)
Outil dévaluation (mediaval)

27
SynergiesEVALDA

Réutilisation des ressources et outils dans
EVALDA et à lextérieur

28
EVALDA / Synergies

I. Objectifs
1. Créer des synergies entre les différentes
campagnes EVALDA
2. Créer des synergies à lextérieur dEVALDA

29
EVALDA / Synergies

II. Synergies à lintérieur dEVALDA (1/3)
II.1. EQUER ? CESART
Réutilisation du corpus médical de la tâche
médical comme corpus de spécialité (
parallélisation avec langlais).
II.2. CESART ? CESTA
Réutilisation du corpus médical bilingue
parallèle anglais//français de CESART pour la
2nde campagne de CESTA.
II.3. ARCADE-II ? CESTA
Réutilisation du corpus aligné arabe//français
pour la 1ère campagne de CESTA.

30
EVALDA / Synergies

II. Synergies à lintérieur dEVALDA (2/3)
II.4. EVASY ? EASY
Réutilisation du corpus de 2200 emails anonymisés
(DELIC)
II.5. ESTER ? EASY
Réutilisation dune partie des transcriptions
démissions de radio
II.6. EQUER ? EASY
Réutilisation dun corpus de rapports du Sénat

31
EVALDA / Synergies

II. Synergies à lintérieur dEVALDA (3/3)

32
EVALDA / Synergies

II. Synergies à lextérieur dEVALDA (1/2)

33
EVALDA / Synergies

II. Synergies à lextérieur dEVALDA (2/2)
II.1. Projet européen TC-STAR
Développement de systèmes distribués de
traduction oral-oral en temps réel.
Réutilisation des plate-formes dévaluation
développées dans
CESTA (traduction automatique)
EVASY (synthèse vocale)
Réutilisation de corpus alignés produits dans
ARCADE-II (espagnol-anglais, chinois-français-angl
ais).
II.2. Projet Amaryllis (terminé)
Réutilisation de 3000 questions du corpus sur les
notices bibliographiques dans EASY

34
EVALDA / Produits

III. Pérennisation (1/5)
III.1. Produits dARCADE-II
Création de corpus alignés
Textes allemand, italien, espagnol, anglais
alignés au français (5 x 1M mots)
Arabe/français/anglais (3 x 150 articles)
Grec/français, japonais/français,
chinois/français, russe/français, persan/français
(5 x 50 articles)
III.2. Produits de CESTA
Création dun corpus français de 13.000 mots
étiqueté fluidité et adéquation.
Création de corpus alignés anglais/français et
arabe/français (2 x 20.000 mots)
Création dune plate-forme dévaluation
(métriques automatiques jugements humains) sous
forme de services web.
Création dune plate-forme dévaluation humaine
via Internet
Création de corpus médicaux alignés
anglais/français et arabe/français

RSC
RSC
RSC
LOG
LOG
RSC
35
EVALDA / Produits

III. Pérennisation (2/5)
III.3. Produits de CESART
Création de nouvelles listes de synonymes à
ajouter au thésaurus international MeSH.
Création de 2 corpus spécialisés, domaine médical
et domaine de léducation
III.4. Produits dEVASY
Création dun corpus phonétisé demails (plus de
2000 emails)
Création dun corpus phonétisé de noms propres
(4000 couples prénoms noms)
Base de données associée aux noms propres
contexte, nationalité, origine linguistique
Création de listes de phrases SUS (Semantically
Unpredictable Sentences) (150 phrases)
Nouvelle verbalisation tests MOS (Mean Opinion
Score)
Plate-forme dévaluation pour réaliser des tests
subjectifs (jugements humains)

RSC
RSC
36
EVALDA / Produits

III. Pérennisation (3/5)
III.5. Produits dEQueR
Création dun corpus français denviron 1,5 Go.
? constitué principalement de textes
journalistiques et de textes de lois provenant de
4 sources différentes Le Monde, Le Monde
Diplomatique, SDA (équivalent de lAFP en
Suisse), et du site Web du Sénat.
Création dun corpus médical français
denviron 50 Mo.
? constitué principalement darticles
scientifiques et de recommandations médicales
tirés du Web et plus particulièrement des sites
de Santé Canada, Orphanet, CHU Rouen, FNCLCC.
Création dun corpus général de 500 questions
en français.
Création dun corpus médical de 200 questions
en français.
Outil daide à lévaluation de système de
question-réponse

RSC
RSC
RSC
RSC
LOG
37
EVALDA / Produits

III. Pérennisation (4/5)
III.6. Produits dESTER
Production dun corpus de 60 h démissions
radiophoniques transcrites orthographiquement
Annotation en Entités Nommés de 100 h
démissions radiophoniques
Production dun corpus de 1700h démissions
radiophoniques
Outils dévaluation
III.7. Produits dEASY
Corpus étiqueté syntaxiquement de 1 million de
mots couvrant plusieurs styles de textes langue
générale (journaux, rapports), questions,
emails, transcriptions, littéraire, médical
Outils dévaluation

RSC
RSC
RSC
LOG
RSC
LOG
38
EVALDA / Produits

III. Pérennisation (5/5)
III.8. Produits de MEDIA
Corpus de 1250 dialogues enregistrés, transcrits
et annotés sémantiquement et en actes de dialogue
Méta annotations
Outil dannotation sémantique
Paradigme et outil dévaluation
III.9. Intégration
Dans le cadre des synergies avec TC-STAR, puis
avec CHIL
Développement dune architecture distribuée pour
lévaluation, intégrant les outils logiciels
produits par EVALDA
Pour commencer ESTER, CESTA, EVASY

RSC
RSC
LOG
LOG
39
EVALDA / Dissémination

IV. Dissémination
Articles (conférences) - EVALDA/Technolangue.net
, CESTA, ESTER à LREC 2004
- EVALDA, ESTER aux JEP à Fès 2004
- CESTA à COLING 2004
- EVASY à InterSpeech 2005, et TALN 2005
- EQUER et EASY à TALN 2005
- CESTA à MT Summit 2005
Revues - EVASY soumis à Speech Communication,
Computer Speech Language, TALN
- CESTA dans Multilingual Computing
Technology 68
Posters (conférences) - EVALDA/Technolangue.net
, MEDIA à LREC 2004 - MEDIA aux JEP à Fès
2004
- MEDIA à InterSpeech 2005
Stands - EVALDA/Technolangue.net à iEXPO 2004
Sites web www.technolangue.net www.elda.org/eva
sy
www.elda.org www.limsi.fr/Recherche/CORVAL/eas
y