Une approche int - PowerPoint PPT Presentation

1 / 18
About This Presentation
Title:

Une approche int

Description:

Une approche int gr e pour la normalisation des extragrammaticalit s ... Le d veloppement des syst mes de dialogue n cessite la prise en compte de la spontan it de la parole ... – PowerPoint PPT presentation

Number of Views:27
Avg rating:3.0/5.0
Slides: 19
Provided by: kur32
Category:
Tags: approche | int | une

less

Transcript and Presenter's Notes

Title: Une approche int


1
Une approche intégrée pour la normalisation des
extragrammaticalités de la parole spontanée
  • Mohamed-Zakaria KURDI
  • CLIPS IMAG

2
Plan
  1. Introduction
  2. Quelques extragrammaticalités de la parole
  3. Travaux précédents
  4. Approche et méthode
  5. Test et résultats
  6. Conclusion

3
Introduction
  • Le développement des systèmes de dialogue
    nécessite la prise en compte de la spontanéité de
    la parole
  • Ignorer les extragrammaticalités conduit à des
    erreurs dinterprétation
  • gt Analyse et traitement des extragrammaticalités

4
Typologie des extragrammaticalitésde la parole
  • Compétence ou Performance ?
  • 3 zones (Shriberg, 95)

5
Quelques extragrammaticalitésde la parole
  1. Les extragrammaticalités lexico-syntaxiques Els
    Cte fois jte l dis. Cest quoi son nom ? Il
    veut quoi ?
  2. Les répétitions  (...) vous demandez ltsilgt vous
    demandez une voiture ltsilgt une voiture de
    location
  3. Les faux départs (...) je voudrais ltsilgt
    avez-vous une chambre ()
  4. Lautocorrection (...) le train part de
    Grenoble euh pardon de Lyon Perrache
  5. Lincomplétude () et ltsilgt si on

6
Travaux précédents
  • Approches à base de patterns
  • Approches symboliques (Bear, 1992), (Shriberg,
    1994), phonologie, prosodie,
  • Approches stochastiques (Heeman, 1994),
    (Heeman, 1997), n-grammes
  • Approches basées sur la syntaxe
  • Méta-règles danalyse (Cori, 1997), (Core, 1999)

7
Notre approche
  • Utiliser les informations structurales locales
    (pour les répétitions par ex.)
  • Utiliser la morpho-syntaxe (pour les
    auto-corrections par ex.)
  • Utiliser la pragmatique du discours (pour la
    détection et lanalyse des zones dédition par
    ex.)

8
Les phénomènes traités
  • par des patterns simples (information structurale
    superficielle)
  • avec des règles syntaxiques (information
    morpho-syntaxique)
  • par des patterns hybrides (informations
    structurale et syntaxique)

9
Méthode
Traitement des répétitions des auto-corrections,
des faux-départs et des incomplétudes
Deux passes
Normalisation des ESL
POS tagging (Xerox)
Traitement des extragrammaticalités lexicales
Normalisation lexicale
10
Méthode
  • Le traitement par patterns
  • Étiquetage local avec segmentation (Bear, 94)
  • Étiquetage global sans segmentation

M
Mots
identiques
x
R
Remplacement
x
E
Éditeurs (silence, hésitation, mots incomplets
X
Mots
neutres
Signes utilisés pour létiquetage
11
Les patterns de base
  • Extraction des patterns du corpus dapprentissage
    (60 dialogues)

12
Méthode
  • Traitement syntaxique
  • Phénomènes faux départs,
  • Cadre général analyse par chunks (Abney, 1991).
  • Information des frontières lexicales
  • (..) now the so what (...)
  • Modèles de malformations des chunks
  • I need to my probleme is (...)

13
Problèmes spécifiques
  • Extragrammaticalités multiples ( imbrications)

14
Problèmes spécifiques
  • Surgénérativité (erreurs)
  • Ressemblance structurale
  • As soon as, To go to, etc.
  • Traitement Patterns de contrôle spécifiques
  • La zone dédition 
  • Le nombre 
  • Maximum deux mots neutres
  • Le sens 
  • Enumérations, expressions figées (voyons voir)

15
Le corpus
  • TRAINS Corpus, Université de Rochester USA,
    (Heeman, 1995)
  • Corpus de négociation de transport ferroviaire de
    93 dialogues (441 KB de mots et 5600 tours de
    parole)
  • 60 dialogues sont réservés à lentraînement

16
Test et résultats
  • Le corpus de test 500 énoncés dont 286 qui
    contiennent des Extragrammaticalités

17
Analyse des erreurs
  • 30 de cas non détectés (erreur de détection de
    la zone dédition)
  • 70 de cas extrêmement complexes dus à
    linterférence de plusieurs phénomènes (anaphores
    et extragrammaticalités)

18
Conclusion
  • Intégration de différentes sources de
    connaissances pour le traitement des
    extragrammaticalités de la parole
  • Résolution de certain cas de surgénérativité
Write a Comment
User Comments (0)
About PowerShow.com