Title: p'1
1La coédition langue?UNL pour partager la révision
entre les langues d'un document multilingue
- Wang-Ju Tsai ???
- GETA, laboratoire CLIPS, IMAG
- Université Joseph FourierThèse préparée sous la
direction de Ch. Boitet
2Un exemple difficulté de gérer une page
d'accueil multilingue
- Cinq langues correctement produites sur la page
daccueil - du site Papillon grâce à une coopération
académique
3Exemple (suite)
- Comment ajouter "hindi" à la liste des langues ?
- Comment ajouter le paragraphe de présentation en
malais ? - Comment corriger une erreur en français et la
répercuter ?
4Ce qu'on arrive à faire en pratique
- On crée un document multilingue patchwork
via Systran - On utilise le texte anglais généré comme
"pivot" -( - Impossible de corriger sans connaître le chinois
ET langlais
Original ????????????? Pivot (anglais) The
potato has prevented the cholesterol advances
function Fr La pomme de terre a empêché la
fonction à l'avance de cholestérol Jp
???????????????????? Ru ???????? ?????????????
??????? ?????????? ??????????? Es La patata ha
prevenido la función de los avances del colesterol
5Analyse
- En utilisant une langue naturelle comme pivot,
les erreurs s'accumulent
The potato has prevented the cholesterol
advances function
???????? ?????
La pomme de terre a empêché la fonction à
l'avance de cholestérol
Erreur en LC3 ? 2(analysetransfertgénération)
6Une possibilité d'amélioration
- Améliorer (au moins un peu) la version anglaise
- Les résultats sont moins mauvais, mais pas bons
- Désir corriger à partir des versions lues et
non de l'anglais
Original ????????????? Pivot (anglais) The
potato can prevent cholesterol buildup Fr La
pomme de terre peut empêcher l'accroissement de
cholestérol Jp ??????????????????????? Ru
???????? ????? ????????????? ??????????
??????????? Es La patata puede prevenir la
acumulación del colesterol
corriger
7Problème avec une LN pivot (1)
- Il faut une bonne connaissance de cette langue
naturelle pour faire la révision
The potato has prevented the cholesterol
advances function ?The potato can prevent the
cholesterol buildup
8Problèmes d'une LN pivot (2)
- Même si le lecteur peut réviser en anglais et
dans sa langue, il ne peut pas réviser dans
toutes les langues !
La pomme de terre peut empêcher l'habillage de
cholestérol
9D'où l'idée de faire "monter" le pivot
intermédiaire
Structure abstraite
analyse
transfert
génération
Langue source (LS)
Langue cible (LC)
10Unification de la base de correction
111ère idée pour implémenter cette solution
- Remplacer la langue naturelle pivot par un
langage pivot abstrait texte ? structure - Éditer cette structure (éventuellement
"localisée") pour l'améliorer, par édition et
manipulation directes - Inconvénient cette structure intermédiaire sera
sans doute difficile à comprendre pour le grand
public
122ième idée éditer "indirectement" ce pivot
- Réviser directement dans la langue de
lutilisateur - Descendre linterface dédition de la structure
pivot vers le texte coédition
133ième idée partager les modifications
- Regénérer dans toutes les langues
- Voir que certaines corrections ont amélioré
d'autres langues -)
143 idées essentielles dans notre approche
- Mutualisation et collaboration
- Chacun peut réviser des fragments dans sa langue
maternelle, tous bénéficient des révisions - Toutes les révisions sont gardées et
identifiées fonctionnement monotone - Révision/génération à la demande
- À l'utilisateur (lecteur) de décider
- Inutile de perfectionner des passages jugés
inessentiels par les lecteurs - Partage de la révision
- Réviser un fragment dans une langue l'améliorera
dans d'autres
15Plan de la présentation
- Problèmes en création et amélioration de
documents multilingues - I. Idée de coédition
- II. Pivot choisi (UNL)
- III. Construction de la correspondance
- IV. Scénarios dun système de coédition
- Conclusion et perspectives
16Idée de base coédition
- Coédition
- éditer un pivot (objet 01) indirectement, en
éditant un texte (objet 02) - édition multiple
- descendre linterface dédition
- Exemples de coédition réussie
- Ambassador - logiciel dédition de lettres
commerciales bilingues - Multimétéo - génération automatique multilingue
de bulletins météo
Objet 1
Objet 2
17Défis de notre système de coédition - I
- Établir la correspondance entre une structure
abstraite et le texte concret, - sans devoir créer de nouvelles ressources
coûteuses
Structure abstraite ? (objet 1)
correspondance
La pomme de terre peut empêcher laccroissement
de cholestérol (objet 2)
En rouge ce qui est à construire, en souligné
ce que nous avons
18Défis de notre système de coédition - II
- Construire une interface utilisable
- Économiser du côté dutilisateur - on doit donc
annoter le texte (partiellement), pas le corriger - Ex les grands chevaux sing ? le
grand cheval
à construire ce que nous avons
19Plan de la présentation
- Problèmes en création et amélioration de
documents multilingues - I. Idée de coédition
- II. Pivot choisi (UNL)
- III. Construction de la correspondance
- IV. Scénarios dun système de coédition
- Conclusion et perspectives
20Graphe UNL (Universal Networking Language)
unl agt(regret(iclgtdo)._at_entry, he)
obj(regret(iclgtdo)._at_entry, 01)
agt01(come(agtgthuman,golgtplace)._at_entry._at_future._at_n
ot, you) and(regret(iclgtdo)._at_entry,
know(agtgthuman,iclgtevent))
agt(know(agtgthuman,iclgtevent), he)
obj(know(agtgthuman,iclgtevent), 01) /unl fril
sait que tu ne viendras pas et il le
regrette./fr elhe knows that you will not
come and he regrets it./el
Headword restriction Universal Word attribut relat
ion
regret(iclgtdo)._at_entry
scope
obj
agt
01
agt
come(agtgthuman,golgtplace)
he
._at_entry._at_future._at_not
you
and
agt
obj
know(agtgthuman,iclgtevent)
21UNL un projet, un langage, un format
- UNL Universal Networking Language
- Enconversion déconversion
- Document multilingue
ltHTMLgtltHEADgt ltTITLEgtExample 1 lt/TITLEgt lt/HEADgtltBOD
Ygt DonWJT, dt04032002P1 S1 ltunlorgcngt
????????? lt/unlorggt ltunlunlgt agt(run(iclgtdo)._at_en
try._at_past,i) plc(run(iclgtdo)._at_entry._at_past,park._at_de
f) tim(run(iclgtdo)._at_entry._at_past,yesterday) lt/unlu
nlgt ltunlcngt?????????lt/unlcngt ltunldegtIch lief
in den Park gestern. lt/unldegt ltunlelgtI ran in
the pary yesterday.lt/unlelgt ltunlesgtYo corri
ayer en el parque.lt/unlesgt ltunlfrgtJai couru
dans le parc hier. lt/unlfrgt /S/P/Dlt/BODYgtlt/
HTMLgt
ltHTMLgtltHEADgt ltTITLEgtExample 1 lt/TITLEgt lt/HEADgtltBOD
Ygt DonWJT, dt04032002P1 S1 ltunlorgcngt
????????? lt/unlorggt ltunlunlgt agt(run(iclgtdo)._at_en
try._at_past,i) plc(run(iclgtdo)._at_entry._at_past,park._at_de
f) tim(run(iclgtdo)._at_entry._at_past,yesterday) lt/unlu
nlgt ltunlcngt?????????lt/unlcngt /S/P/Dlt/BODYgt
lt/HTMLgt
Décon- version
Encon- version
????? ????
Document chinois
Serveur UNL-cn
Serveur UNL-de UNL-el UNL-es UNL-fr
Document UNL-html
22Utilisation d'un document multilingue UNL-html
- Visualisation dans une des langues contenues
ltHTMLgtltHEADgt ltTITLEgtExample 1 lt/TITLEgt lt/HEADgtltBOD
Ygt DonWJT, dt04032002P1 S1 ltunlorgcngt
????????? lt/unlorggt ltunlunlgt agt(run(iclgtdo)._at_en
try._at_past,i) plc(run(iclgtdo)._at_entry._at_past,park._at_de
f) tim(run(iclgtdo)._at_entry._at_past,yesterday) lt/unlu
nlgt ltunlcngt?????????lt/unlcngt ltunldegtIch lief
in den Park gestern. lt/unldegt ltunlelgtI ran in
the pary yesterday.lt/unlelgt ltunlesgtYo corri
ayer en el parque.lt/unlesgt ltunlfrgtJai couru
dans le parc hier. lt/unlfrgt /S/P/Dlt/BODYgtlt/
HTMLgt
UNL-viewer
XSLTJavascript
23Création distribuée de documents UNL
24Ressources UNL construites
- Déconvertisseurs (13 langues)
- arabe, brésilien, chinois, anglais, français,
hindi, italien, indonésien, japonais, russe,
espagnol, thaï, lithuanien - Enconvertisseurs
- arabe, russe, français
- Dictionnaires
- autant que de déconvertisseurs
- Graph editor / UNL Viewer / UNL proxy / UNL
vérificateur
25Document UNL-xml (notre proposition)
- Même simplicité que UNL-html
- Ouverture à tous les outils liés à xml
- création aisée de UNL-xml Viewer
ltunlGS langcngt ?????????lt/unlGSgt ltunlGS
langdegt Ich lief in den Park gestern.
lt/unlGSgt ltunlGS langelgt I ran in the park
yesterday.lt/unlGSgt ltunlGS langesgt Yo corri
ayer en el parque.lt/unlGSgt ltunlGS
langfrgt Jai couru dans le parc hier.
lt/unlGSgt lt/unlSgtlt/unlPgtlt/unlDgt
ltunlD onWJT dt04032002gt ltunlP
number1gt ltunlS number1gt ltunlorg
langcngt ????????? lt/unlorggt ltunlunl
snAriane pnWJT dt04032002gt agt(run(iclgtdo
)._at_entry._at_past,i) plc(run(iclgtdo)._at_entry._at_past,par
k._at_def) tim(run(iclgtdo)._at_entry._at_past,yesterday) lt/
unlunlgt
26Erreurs corrigibles par coédition texte-UNL
- Erreurs de déconversion/enconversion (non)
- Déconvertisseurs utilisés comme des boîtes
noires - Ordre des mots, mots manquants dans les dicos,
etc. - On peut toujours signaler les erreurs aux LC
- Erreurs syntaxiques (non)
- Graphe ne respectant pas les spécifications
- Présence d'un scope non connexe, faute décriture
- Erreurs sémantiques (oui)
- Sous-spécification
- détermination, nombre, genre, temps, voix ,
aspect - Emploi erroné des relations ou des attributs
27Sous-spécification
- ??????? (chinois)
- ?????????????????????????? (thaï)
- ??????????? (japonais)
unl agt(wash(iclgtdo)._at_entry._at_past, he)
obj(wash(iclgtdo)._at_entry._at_past,
car(iclgtthing)._at_pl) pos(car(iclgtthing)._at_pl, he)
tim(wash(iclgtdo)._at_entry._at_past, yesterday) /unl
unl agt(wash(iclgtdo)._at_entry._at_past, he)
obj(wash(iclgtdo)._at_entry._at_past, car(iclgtthing))
pos(car(iclgtthing), he) tim(wash(iclgtdo)._at_entry.
_at_past, yesterday) /unl
- unl
- agt(wash(iclgtdo)._at_entry, he)
- obj(wash(iclgtdo)._at_entry, car(iclgtthing))
- pos(car(iclgtthing), he)
- tim(wash(iclgtdo)._at_entry, yesterday)
- /unl
Il lave sa voiture hier. ?? ???? ???? ??????????
?????. él asea su coche ayer.
Il a lavé ses voitures hier. ?? ????? ????
?????????? ?????. él aseó sus coches ayer.
Il a lavé sa voiture hier. ?? ????? ????
?????????? ?????. él aseó su coche ayer.
28Plan de la présentation
- Problèmes en création et amélioration de
documents multilingues - I. Idée de coédition
- II. Pivot choisi (UNL)
- III. Construction de la correspondance
- IV. Scénarios dun système de coédition
- Conclusion et perspectives
29Comment établir la correspondance ?
- On a choisi UNL comme le langage pivot
Correspondance?
Il sait que tu ne viendras pas et il le regrette.
30Procédure détablissement de la correspondance
graphe UNL
texte en Li
graphe ? arbre
AMS/segmenteur
arbre UNL
treillis LMS
dico UNL/Li, ang/Li
dico Li/UNL, Li/ang
arbre UNL étendu
treillis LMS étendu
construire les liaisons lexicales
trajectoire(s) provisoire(s)
sil y a plusieurs trajectoires
provisoires, calculer la pénalité de croisement
meilleure trajectoire
enrichir la correspondance
correspondance arbre - treillis enrichie
31Côté graphe graphe UNL ? arbre UNL étendu
32Procédure détablissement de la correspondance
graphe UNL
texte en Li
graphe ? arbre
AMS/segmenteur
arbre UNL
treillis LMS
dico UNL/Li, ang/Li
dico Li/UNL, Li/ang
arbre UNLétendu
treillis LMS étendu
construire les liaisons lexicales
trajectoire(s) provisoire(s)
sil y a plusieurs trajectoires
provisoires, calculer la pénalité de croisement
meilleure trajectoire
enrichir la correspondance
correspondance arbre - treillis enrichie
33Côté texte texte ? treillis LMS étendu
LMS lexico-morpho-syntaxique étendu
portant les lemmes anglais correspondants
Il sait que tu ne viendras pas et il le regrette.
S1
Sortie du lemmatiseur PILAF (serveur de Damien
Genthial)
34Définitions
- Une liaison est un lien créé entre deux
éléments de deux structures de niveaux
différents. - Une correspondance est un ensemble de
liaisons vérifiant une certaine propriété.
Arbre UNL
Treillis LMS
35Division en trois sous-correspondances
- Graphe UNL ? arbre UNL
- Utiliser l'algorithme de G. Sérasset ou de E.
Blanc - Arbre UNL ? treillis LMS
- Etablir la correspondance lexicale
- Ajuster (rotation) la structure de larbre pour
quil y ait le moins de croisements possible - Appliquer les patrons de correspondances non
lexicales - Treillis LMS ? texte
- Utiliser un segmenteur ou un lemmatiseur "libre"
36Procédure détablissement de la correspondance
graphe UNL
texte en Li
graphe ? arbre
AMS/segmenteur
arbre UNL
treillis LMS
dico UNL/Li, ang/Li
dico Li/UNL, Li/ang
arbre UNLétendu
treillis LMS étendu
construire les liaisons lexicales
trajectoire(s) provisoire(s)
sil y a plusieurs trajectoires
provisoires, calculer la pénalité de croisement
meilleure trajectoire
enrichir la correspondance
correspondance arbre - treillis enrichie
37Liaisons lexicales entre arbre UNL et treillis LMS
38Patrons de liaisons identifiés UNL ?français
39Correspondance enrichie
40Ajouter une autre langue?
- Coéditer en chinois? Il suffit
- davoir le dictionnaire UNL-chinois/
anglais-chinois - de connaître et comprendre les variables de l'AMS
chinois
utilisé par AUTOTAG
41Plan de la présentation
- Problèmes en création et amélioration de
documents multilingues - I. Idée de coédition
- II. Pivot choisi (UNL)
- III. Construction de la correspondance
- IV. Scénarios dun système de coédition
- Conclusion et perspectives
42Scénario de coédition avec UNL
- lecture en Li (sur le web)
- désir de corriger les erreurs en Li
- passage dans lenvironnement de coédition
- corrections (modes expert et normal)
- retardées sur le texte
- immédiates sur le graphe
- déconversion en Li
- itération si résultat non satisfaisant,
déconversion vers L1 Ln si OK - retour à la lecture
43Lecture en français dun document UNL-xml
- Page web fabriquée à la UNL
- origine anglais, avec le graphe UNL derrière
44Sélection dun fragment à coéditer
45État initial de la coédition
46Trois cadres dans lenvironnement de coédition
47Choix de visualisation des autres langues
48On peut insérer manuellement les corrections
49Si on coédite (pour partager), les modifications
possibles sont proposées par le système
50Modifications proposées par le système
- Contraintes
- langue coéditée
- liaisons établies
- spécifications dUNL
- sortie de l'AMS
- Exemples
- Chinois majuscule/minuscule (x),
détermination (?), bonne segmentation (o) - Arabe duel (pas possible pour linstant)
- Japonais plusieurs niveaux de politesse (pas
possible pour linstant)
51État après avoir fait une modification
52Obtention de la nouvelle déconversion
53Lecture du nouveau texte
54Déconversion vers lespagnol
55Déconversion vers lespagnol
El UNIFEM asegura la participación de mujeres
(avant mujer)
56Plan de la présentation
- Problèmes en création et amélioration de
documents multilingues - I. Idée de coédition
- II. Pivot choisi (UNL)
- III. Construction de la correspondance
- IV. Scénarios dun système de coédition
- Conclusion et perspectives
57Résultats avant et après coédition
58Encore quelques mots sur la coédition
- Certaines modifications ne sexpriment pas dans
certaines langues - Il faut signaler systématiquement les
modifications faites au propriétaire du document - Lutilisateur devrait pouvoir donner des retours
aux développeurs des déconvertisseurs
59Apports de la thèse
- Nouvelle approche de la TAO
- coédition permettant de partager la révision
- amélioration à la demande, partielle (coût
moindre) - mutualisation ? démocratisation de la qualité
- Modélisation des correspondances UNL ? LN
- Calcul d'une telle correspondance
- sans ressources lourdes
- Site web SWIIVRE-UNL
- pour l'information, l'initiation, la validation,
la recherche et l'expérimentation d'UNL
60Perspectives de recherche
- Construire une maquette 100 opérationnelle
- Évaluer la couverture de la correspondance
- Compléter l'architecture, de façon à pouvoir
- traiter une nouvelle langue de coédition sans
programmer à bas niveau (outil générique à
inventer) - éditer les graphes UNL
- par manipulation directe
- avec "localisation" dans la langue de coédition
- calculer et visualiser la correspondance entre
deux versions (dans 2 LN) en passant par UNL - Créer un graphe UNL au moment de lédition dune
phrase en langue naturelle - en intégrant la désambiguïsation interactive
61Je vous remercie pour votre attention
- ??????????
- Je vous remercie de votre attention
- ? ????????? ??? ??-?? ?????? attention
- Ringraziare te per la tua attenzione
- Yo os agradezco por vuestras atención
62Expressivité du langage UNL (I)
- Comment désambiguïser une UW (sous-spécification)?
- state
- state(iclgtdo(objgtthing)) constater
- state(iclgtnation) lEtat
- state(iclgtsituation) la situation, le stade
- state(iclgtgovernment) le gouvernement
- answer
- answer(iclgtdo) répondre
- answer(iclgtthing) réponse
- marry
- marry(agtgtmale) ?(chinois), ??????? (russe)
- marry(agtgtfemale) ?(chinois), ????????
?????(russe) - Comment ajouter un nouveau concept?
- samba(iclgtdance) un genre de danse
- ikebana(iclgtart, objgtflower) art floral
japonais - Expressivité du langage UNL (II)
- 41 relations sémantiques insuffisantes?
- Décomposition la conjonction anglaise
63Expressivité du langage UNL (II)
- 41 relations sémantiques insuffisantes? non
- Décomposition de conjonction anglaise (malgré)
- On ne trouve pas la relation sémantique pour
exprimer malgré, mais on peut écrire comme ça - man(come(iclgtdo) , although)
- obj(although, rain(iclgtnatural phenomenon))
- il vient malgré la pluie
- Corpus codés assez variés
- Document de lONU
- FB2004, sport, manuel dutilisation
64Site web SWIIVRE-UNL page daccueil
65Site web SWIIVRE-UNL - expérimentation
66Effet de la coédition sur les autres langues
- Déconversion vers la langue originale est
déconseillée. - Pour garder le sens original
- On suppose que les utilisateurs nabusent pas
- Sur-spécifications possibles
- marry(agtgtmale) pour le français, langlais
- ._at_past, ._at_pl pour le chinois, le thaï
- À déconvertisseur de juger
- Plus de renseignements corrects, plus de chance
de générer une phrase correcte
67Effet de la coédition sur les autres langues - II
- Sur-spécifications pour le chinois
- Versions générées par les déconvertisseurs
68Rotation de larbre UNL - I
La mer dAral était la quatrième plus grande mer
dans le monde.
69Rotation de larbre UNL - II
La mer dAral était la quatrième plus grande mer
dans le monde.
70Treillis LMS - I
Je mange des pommes de terre.
71Treillis LMS - II
- ?????.
- Les États-Unis vont donner leur accord.
- Le parlement américain a donné son accord.