p'1 - PowerPoint PPT Presentation

1 / 70
About This Presentation
Title:

p'1

Description:

La co dition langue UNL pour partager la r vision entre les langues ... Remplacer la langue naturelle pivot par un langage pivot abstrait : texte structure ... – PowerPoint PPT presentation

Number of Views:45
Avg rating:3.0/5.0
Slides: 71
Provided by: wangj
Category:
Tags: abstrait

less

Transcript and Presenter's Notes

Title: p'1


1
La coédition langue?UNL pour partager la révision
entre les langues d'un document multilingue
  • Wang-Ju Tsai ???
  • GETA, laboratoire CLIPS, IMAG
  • Université Joseph FourierThèse préparée sous la
    direction de Ch. Boitet

2
Un exemple difficulté de gérer une page
d'accueil multilingue
  • Cinq langues correctement produites sur la page
    daccueil
  • du site Papillon grâce à une coopération
    académique

3
Exemple (suite)
  • Comment ajouter "hindi" à la liste des langues ?
  • Comment ajouter le paragraphe de présentation en
    malais ?
  • Comment corriger une erreur en français et la
    répercuter ?

4
Ce qu'on arrive à faire en pratique
  • On crée un document multilingue  patchwork 
    via Systran
  • On utilise le texte anglais généré comme
    "pivot" -(
  • Impossible de corriger sans connaître le chinois
    ET langlais

Original ????????????? Pivot (anglais) The
potato has prevented the cholesterol advances
function Fr La pomme de terre a empêché la
fonction à l'avance de cholestérol Jp
???????????????????? Ru ???????? ?????????????
??????? ?????????? ??????????? Es La patata ha
prevenido la función de los avances del colesterol
5
Analyse
  • En utilisant une langue naturelle comme pivot,
    les erreurs s'accumulent

The potato has prevented the cholesterol
advances function
???????? ?????
La pomme de terre a empêché la fonction à
l'avance de cholestérol
Erreur en LC3 ? 2(analysetransfertgénération)
6
Une possibilité d'amélioration
  • Améliorer (au moins un peu) la version anglaise
  • Les résultats sont moins mauvais, mais pas bons
  • Désir  corriger à partir des versions lues et
    non de l'anglais

Original ????????????? Pivot (anglais) The
potato can prevent cholesterol buildup Fr La
pomme de terre peut empêcher l'accroissement de
cholestérol Jp ??????????????????????? Ru
???????? ????? ????????????? ??????????
??????????? Es La patata puede prevenir la
acumulación del colesterol
corriger
7
Problème avec une LN pivot (1)
  • Il faut une bonne connaissance de cette langue
    naturelle pour faire la révision

The potato has prevented the cholesterol
advances function ?The potato can prevent the
cholesterol buildup
8
Problèmes d'une LN pivot (2)
  • Même si le lecteur peut réviser en anglais et
    dans sa langue, il ne peut pas réviser dans
    toutes les langues !

La pomme de terre peut empêcher l'habillage de
cholestérol
9
D'où l'idée de faire "monter" le pivot
intermédiaire
Structure abstraite
analyse
transfert
génération
Langue source (LS)
Langue cible (LC)
10
Unification de la base de correction
11
1ère idée pour implémenter cette solution
  • Remplacer la langue naturelle pivot par un
    langage pivot abstrait texte ? structure
  • Éditer cette structure (éventuellement
    "localisée") pour l'améliorer, par édition et
    manipulation directes
  • Inconvénient  cette structure intermédiaire sera
    sans doute difficile à comprendre pour le grand
    public 

12
2ième idée  éditer "indirectement" ce pivot
  • Réviser directement dans la langue de
    lutilisateur
  • Descendre linterface dédition de la structure
    pivot vers le texte  coédition

13
3ième idée  partager les modifications
  • Regénérer dans toutes les langues
  • Voir que certaines corrections ont amélioré
    d'autres langues -)

14
3 idées essentielles dans notre approche
  • Mutualisation et collaboration
  • Chacun peut réviser des fragments dans sa langue
    maternelle, tous bénéficient des révisions
  • Toutes les révisions sont gardées et
    identifiées  fonctionnement monotone
  • Révision/génération à la demande
  • À l'utilisateur (lecteur) de décider
  • Inutile de perfectionner des passages jugés
    inessentiels par les lecteurs
  • Partage de la révision
  • Réviser un fragment dans une langue l'améliorera
    dans d'autres

15
Plan de la présentation
  • Problèmes en création et amélioration de
    documents multilingues
  • I. Idée de coédition
  • II. Pivot choisi (UNL)
  • III. Construction de la correspondance
  • IV. Scénarios dun système de coédition
  • Conclusion et perspectives

16
Idée de base coédition
  • Coédition
  • éditer un  pivot  (objet 01) indirectement, en
    éditant un texte (objet 02)
  • édition  multiple 
  •  descendre  linterface dédition
  • Exemples de  coédition  réussie
  • Ambassador - logiciel dédition de lettres
    commerciales bilingues
  • Multimétéo - génération automatique multilingue
    de bulletins météo

Objet 1
Objet 2
17
Défis de notre système de coédition - I
  • Établir la correspondance entre une structure
    abstraite et le texte concret,
  • sans devoir créer de nouvelles ressources
    coûteuses

Structure abstraite ? (objet 1)
correspondance
La pomme de terre peut empêcher laccroissement
de cholestérol (objet 2)
En rouge ce qui est à construire, en souligné
ce que nous avons
18
Défis de notre système de coédition - II
  • Construire une interface utilisable
  • Économiser du côté dutilisateur - on doit donc
    annoter le texte (partiellement), pas le corriger
  • Ex les grands chevaux sing ? le
    grand cheval

à construire ce que nous avons
19
Plan de la présentation
  • Problèmes en création et amélioration de
    documents multilingues
  • I. Idée de coédition
  • II. Pivot choisi (UNL)
  • III. Construction de la correspondance
  • IV. Scénarios dun système de coédition
  • Conclusion et perspectives

20
Graphe UNL (Universal Networking Language)
unl agt(regret(iclgtdo)._at_entry, he)
obj(regret(iclgtdo)._at_entry, 01)
agt01(come(agtgthuman,golgtplace)._at_entry._at_future._at_n
ot, you) and(regret(iclgtdo)._at_entry,
know(agtgthuman,iclgtevent))
agt(know(agtgthuman,iclgtevent), he)
obj(know(agtgthuman,iclgtevent), 01) /unl fril
sait que tu ne viendras pas et il le
regrette./fr elhe knows that you will not
come and he regrets it./el
Headword restriction Universal Word attribut relat
ion

regret(iclgtdo)._at_entry

scope
obj

agt

01

agt

come(agtgthuman,golgtplace)

he

._at_entry._at_future._at_not

you

and

agt

obj

know(agtgthuman,iclgtevent)

21
UNL  un projet, un langage, un format
  • UNL Universal Networking Language
  • Enconversion déconversion
  • Document multilingue

ltHTMLgtltHEADgt ltTITLEgtExample 1 lt/TITLEgt lt/HEADgtltBOD
Ygt DonWJT, dt04032002P1 S1 ltunlorgcngt
????????? lt/unlorggt ltunlunlgt agt(run(iclgtdo)._at_en
try._at_past,i) plc(run(iclgtdo)._at_entry._at_past,park._at_de
f) tim(run(iclgtdo)._at_entry._at_past,yesterday) lt/unlu
nlgt ltunlcngt?????????lt/unlcngt ltunldegtIch lief
in den Park gestern. lt/unldegt ltunlelgtI ran in
the pary yesterday.lt/unlelgt ltunlesgtYo corri
ayer en el parque.lt/unlesgt ltunlfrgtJai couru
dans le parc hier. lt/unlfrgt /S/P/Dlt/BODYgtlt/
HTMLgt
ltHTMLgtltHEADgt ltTITLEgtExample 1 lt/TITLEgt lt/HEADgtltBOD
Ygt DonWJT, dt04032002P1 S1 ltunlorgcngt
????????? lt/unlorggt ltunlunlgt agt(run(iclgtdo)._at_en
try._at_past,i) plc(run(iclgtdo)._at_entry._at_past,park._at_de
f) tim(run(iclgtdo)._at_entry._at_past,yesterday) lt/unlu
nlgt ltunlcngt?????????lt/unlcngt /S/P/Dlt/BODYgt
lt/HTMLgt
Décon- version
Encon- version
????? ????
Document chinois
Serveur UNL-cn
Serveur UNL-de UNL-el UNL-es UNL-fr
Document UNL-html
22
Utilisation d'un document multilingue UNL-html
  • Visualisation dans une des langues contenues

ltHTMLgtltHEADgt ltTITLEgtExample 1 lt/TITLEgt lt/HEADgtltBOD
Ygt DonWJT, dt04032002P1 S1 ltunlorgcngt
????????? lt/unlorggt ltunlunlgt agt(run(iclgtdo)._at_en
try._at_past,i) plc(run(iclgtdo)._at_entry._at_past,park._at_de
f) tim(run(iclgtdo)._at_entry._at_past,yesterday) lt/unlu
nlgt ltunlcngt?????????lt/unlcngt ltunldegtIch lief
in den Park gestern. lt/unldegt ltunlelgtI ran in
the pary yesterday.lt/unlelgt ltunlesgtYo corri
ayer en el parque.lt/unlesgt ltunlfrgtJai couru
dans le parc hier. lt/unlfrgt /S/P/Dlt/BODYgtlt/
HTMLgt
UNL-viewer
XSLTJavascript
23
Création distribuée de documents UNL
24
Ressources UNL construites
  • Déconvertisseurs (13 langues)
  • arabe, brésilien, chinois, anglais, français,
    hindi, italien, indonésien, japonais, russe,
    espagnol, thaï, lithuanien
  • Enconvertisseurs
  • arabe, russe, français
  • Dictionnaires
  • autant que de déconvertisseurs
  • Graph editor / UNL Viewer / UNL proxy / UNL
    vérificateur

25
Document UNL-xml (notre proposition)
  • Même simplicité que UNL-html
  • Ouverture à tous les outils liés à xml
  • création aisée de UNL-xml Viewer

ltunlGS langcngt ?????????lt/unlGSgt ltunlGS
langdegt Ich lief in den Park gestern.
lt/unlGSgt ltunlGS langelgt I ran in the park
yesterday.lt/unlGSgt ltunlGS langesgt Yo corri
ayer en el parque.lt/unlGSgt ltunlGS
langfrgt Jai couru dans le parc hier.
lt/unlGSgt lt/unlSgtlt/unlPgtlt/unlDgt
ltunlD onWJT dt04032002gt ltunlP
number1gt ltunlS number1gt ltunlorg
langcngt ????????? lt/unlorggt ltunlunl
snAriane pnWJT dt04032002gt agt(run(iclgtdo
)._at_entry._at_past,i) plc(run(iclgtdo)._at_entry._at_past,par
k._at_def) tim(run(iclgtdo)._at_entry._at_past,yesterday) lt/
unlunlgt
26
Erreurs corrigibles par coédition texte-UNL
  • Erreurs de déconversion/enconversion (non)
  • Déconvertisseurs utilisés comme des  boîtes
    noires 
  • Ordre des mots, mots manquants dans les dicos,
    etc.
  • On peut toujours signaler les erreurs aux LC
  • Erreurs syntaxiques (non)
  • Graphe ne respectant pas les spécifications
  • Présence d'un scope non connexe, faute décriture
  • Erreurs sémantiques (oui)
  • Sous-spécification
  • détermination, nombre, genre, temps, voix ,
    aspect
  • Emploi erroné des relations ou des attributs

27
Sous-spécification
  • ??????? (chinois)
  • ?????????????????????????? (thaï)
  • ??????????? (japonais)

unl agt(wash(iclgtdo)._at_entry._at_past, he)
obj(wash(iclgtdo)._at_entry._at_past,
car(iclgtthing)._at_pl) pos(car(iclgtthing)._at_pl, he)
tim(wash(iclgtdo)._at_entry._at_past, yesterday) /unl
unl agt(wash(iclgtdo)._at_entry._at_past, he)
obj(wash(iclgtdo)._at_entry._at_past, car(iclgtthing))
pos(car(iclgtthing), he) tim(wash(iclgtdo)._at_entry.
_at_past, yesterday) /unl
  • unl
  • agt(wash(iclgtdo)._at_entry, he)
  • obj(wash(iclgtdo)._at_entry, car(iclgtthing))
  • pos(car(iclgtthing), he)
  • tim(wash(iclgtdo)._at_entry, yesterday)
  • /unl

Il lave sa voiture hier. ?? ???? ???? ??????????
?????. él asea su coche ayer.
Il a lavé ses voitures hier. ?? ????? ????
?????????? ?????. él aseó sus coches ayer.
Il a lavé sa voiture hier. ?? ????? ????
?????????? ?????. él aseó su coche ayer.
28
Plan de la présentation
  • Problèmes en création et amélioration de
    documents multilingues
  • I. Idée de coédition
  • II. Pivot choisi (UNL)
  • III. Construction de la correspondance
  • IV. Scénarios dun système de coédition
  • Conclusion et perspectives

29
Comment établir la correspondance ?
  • On a choisi UNL comme le langage pivot

Correspondance?
Il sait que tu ne viendras pas et il le regrette.
30
Procédure détablissement de la correspondance
graphe UNL
texte en Li
graphe ? arbre
AMS/segmenteur
arbre UNL
treillis LMS
dico UNL/Li, ang/Li
dico Li/UNL, Li/ang
arbre UNL étendu
treillis LMS étendu
construire les liaisons lexicales
trajectoire(s) provisoire(s)
sil y a plusieurs trajectoires
provisoires, calculer la pénalité de croisement
meilleure trajectoire
enrichir la correspondance
correspondance arbre - treillis enrichie
31
Côté graphe graphe UNL ? arbre UNL étendu
32
Procédure détablissement de la correspondance
graphe UNL
texte en Li
graphe ? arbre
AMS/segmenteur
arbre UNL
treillis LMS
dico UNL/Li, ang/Li
dico Li/UNL, Li/ang
arbre UNLétendu
treillis LMS étendu
construire les liaisons lexicales
trajectoire(s) provisoire(s)
sil y a plusieurs trajectoires
provisoires, calculer la pénalité de croisement
meilleure trajectoire
enrichir la correspondance
correspondance arbre - treillis enrichie
33
Côté texte texte ? treillis LMS étendu
 LMS lexico-morpho-syntaxique  étendu
portant les lemmes anglais correspondants
Il sait que tu ne viendras pas et il le regrette.

S1
Sortie du lemmatiseur PILAF (serveur de Damien
Genthial)
34
Définitions
  • Une  liaison  est un lien créé entre deux
    éléments de deux structures de niveaux
    différents.
  • Une  correspondance  est un ensemble de
    liaisons vérifiant une certaine propriété.

Arbre UNL
Treillis LMS
35
Division en trois sous-correspondances
  • Graphe UNL ? arbre UNL
  • Utiliser l'algorithme de G. Sérasset ou de E.
    Blanc
  • Arbre UNL ? treillis LMS
  • Etablir la correspondance lexicale
  • Ajuster (rotation) la structure de larbre pour
    quil y ait le moins de croisements possible
  • Appliquer les patrons de correspondances non
    lexicales
  • Treillis LMS ? texte
  • Utiliser un segmenteur ou un lemmatiseur "libre"

36
Procédure détablissement de la correspondance
graphe UNL
texte en Li
graphe ? arbre
AMS/segmenteur
arbre UNL
treillis LMS
dico UNL/Li, ang/Li
dico Li/UNL, Li/ang
arbre UNLétendu
treillis LMS étendu
construire les liaisons lexicales
trajectoire(s) provisoire(s)
sil y a plusieurs trajectoires
provisoires, calculer la pénalité de croisement
meilleure trajectoire
enrichir la correspondance
correspondance arbre - treillis enrichie
37
Liaisons lexicales entre arbre UNL et treillis LMS
38
Patrons de liaisons identifiés  UNL ?français
39
Correspondance enrichie
40
Ajouter une autre langue?
  • Coéditer en chinois? Il suffit 
  • davoir le dictionnaire UNL-chinois/
    anglais-chinois
  • de connaître et comprendre les variables de l'AMS
    chinois

utilisé par AUTOTAG
41
Plan de la présentation
  • Problèmes en création et amélioration de
    documents multilingues
  • I. Idée de coédition
  • II. Pivot choisi (UNL)
  • III. Construction de la correspondance
  • IV. Scénarios dun système de coédition
  • Conclusion et perspectives

42
Scénario de coédition avec UNL
  • lecture en Li (sur le web)
  • désir de corriger les erreurs en Li
  • passage dans lenvironnement de coédition
  • corrections (modes expert et normal)
  • retardées sur le texte
  • immédiates sur le graphe
  • déconversion en Li
  • itération si résultat non satisfaisant,
    déconversion vers L1 Ln si OK
  • retour à la lecture

43
Lecture en français dun document UNL-xml
  • Page web fabriquée à la  UNL 
  • origine anglais, avec le graphe UNL derrière

44
Sélection dun fragment à coéditer
45
État initial de la coédition
46
Trois cadres dans lenvironnement de coédition
47
Choix de visualisation des autres langues
48
On peut insérer manuellement les corrections
49
Si on coédite (pour partager), les modifications
possibles sont proposées par le système
50
Modifications proposées par le système
  • Contraintes
  • langue coéditée
  • liaisons établies
  • spécifications dUNL
  • sortie de l'AMS
  • Exemples
  • Chinois majuscule/minuscule (x),
    détermination (?), bonne segmentation (o)
  • Arabe duel (pas possible pour linstant)
  • Japonais plusieurs niveaux de politesse (pas
    possible pour linstant)

51
État après avoir fait une modification
52
Obtention de la nouvelle déconversion
53
Lecture du nouveau texte
54
Déconversion vers lespagnol
55
Déconversion vers lespagnol
El UNIFEM asegura la participación de mujeres

(avant mujer)
56
Plan de la présentation
  • Problèmes en création et amélioration de
    documents multilingues
  • I. Idée de coédition
  • II. Pivot choisi (UNL)
  • III. Construction de la correspondance
  • IV. Scénarios dun système de coédition
  • Conclusion et perspectives

57
Résultats avant et après coédition
58
Encore quelques mots sur la coédition
  • Certaines modifications ne sexpriment pas dans
    certaines langues
  • Il faut signaler systématiquement les
    modifications faites au propriétaire du document
  • Lutilisateur devrait pouvoir donner des retours
    aux développeurs des déconvertisseurs

59
Apports de la thèse
  • Nouvelle approche de la TAO
  • coédition permettant de partager la révision
  • amélioration à la demande, partielle (coût
    moindre)
  • mutualisation ? démocratisation de la qualité
  • Modélisation des correspondances UNL ? LN
  • Calcul d'une telle correspondance
  • sans ressources lourdes
  • Site web SWIIVRE-UNL
  • pour l'information, l'initiation, la validation,
    la recherche et l'expérimentation d'UNL

60
Perspectives de recherche
  • Construire une maquette 100 opérationnelle
  • Évaluer la  couverture  de la correspondance
  • Compléter l'architecture, de façon à pouvoir 
  • traiter une nouvelle langue de coédition sans
    programmer à bas niveau (outil générique à
    inventer)
  • éditer les graphes UNL
  • par manipulation directe
  • avec "localisation" dans la langue de coédition
  • calculer et visualiser la correspondance entre
    deux versions (dans 2 LN) en passant par UNL
  • Créer un graphe UNL au moment de lédition dune
    phrase en langue naturelle
  • en intégrant la désambiguïsation interactive

61
Je vous remercie pour votre attention
  • ??????????
  • Je vous remercie de votre attention
  • ? ????????? ??? ??-?? ?????? attention
  • Ringraziare te per la tua attenzione
  • Yo os agradezco por vuestras atención

62
Expressivité du langage UNL (I)
  • Comment désambiguïser une UW (sous-spécification)?
  • state
  • state(iclgtdo(objgtthing)) constater
  • state(iclgtnation) lEtat
  • state(iclgtsituation) la situation, le stade
  • state(iclgtgovernment) le gouvernement
  • answer
  • answer(iclgtdo) répondre
  • answer(iclgtthing) réponse
  • marry
  • marry(agtgtmale) ?(chinois), ??????? (russe)
  • marry(agtgtfemale) ?(chinois), ????????
    ?????(russe)
  • Comment ajouter un nouveau concept?
  • samba(iclgtdance) un genre de danse
  • ikebana(iclgtart, objgtflower) art floral
    japonais
  • Expressivité du langage UNL (II)
  • 41 relations sémantiques insuffisantes?
  • Décomposition la conjonction anglaise

63
Expressivité du langage UNL (II)
  • 41 relations sémantiques insuffisantes? non
  • Décomposition de conjonction anglaise (malgré)
  • On ne trouve pas la relation sémantique pour
    exprimer malgré, mais on peut écrire comme ça
  • man(come(iclgtdo) , although)
  • obj(although, rain(iclgtnatural phenomenon))
  • il vient malgré la pluie
  • Corpus codés assez variés
  • Document de lONU
  • FB2004, sport, manuel dutilisation

64
Site web SWIIVRE-UNL page daccueil
65
Site web SWIIVRE-UNL - expérimentation
66
Effet de la coédition sur les autres langues
  • Déconversion vers la langue originale est
    déconseillée.
  • Pour garder le sens original
  • On suppose que les utilisateurs nabusent pas
  • Sur-spécifications possibles
  • marry(agtgtmale) pour le français, langlais
  • ._at_past, ._at_pl pour le chinois, le thaï
  • À déconvertisseur de juger
  • Plus de renseignements corrects, plus de chance
    de générer une phrase correcte

67
Effet de la coédition sur les autres langues - II
  • Sur-spécifications pour le chinois
  • Versions générées par les déconvertisseurs

68
Rotation de larbre UNL - I
La mer dAral était la quatrième plus grande mer
dans le monde.
69
Rotation de larbre UNL - II
La mer dAral était la quatrième plus grande mer
dans le monde.
70
Treillis LMS - I
Je mange des pommes de terre.
71
Treillis LMS - II
  • ?????.
  • Les États-Unis vont donner leur accord.
  • Le parlement américain a donné son accord.
Write a Comment
User Comments (0)
About PowerShow.com