AixMARSEC : Une proposition de traitement automatique de corpus danglais britannique oral - PowerPoint PPT Presentation

1 / 61
About This Presentation
Title:

AixMARSEC : Une proposition de traitement automatique de corpus danglais britannique oral

Description:

Les corpus oraux en anglais et en fran ais, Toulouse - le Mirail, 15/11/02 ... Marquage des fichiers modifi s par ajout de mod' dans le nom (facilement identifiables) ... – PowerPoint PPT presentation

Number of Views:55
Avg rating:3.0/5.0
Slides: 62
Provided by: gonzodumu
Category:

less

Transcript and Presenter's Notes

Title: AixMARSEC : Une proposition de traitement automatique de corpus danglais britannique oral


1
Aix-MARSEC Une proposition de traitement
automatique de corpus danglais britannique oral
  • Caroline Bouzon, Cyril Auran
  • Daniel Hirst
  • Laboratoire Parole Langage
  • Université de Provence

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
2
Aix-MARSEC
PLAN
  • I) Petit tour dhorizon des Corpus en anglais
  • 1) Des corpus nombreux et variés
  • 2) Les corpus oraux
  • 3) Les corpus oraux britanniques
  • Le corpus Aix-MARSEC
  • 1) Les origines
  • 2) de MARSEC à Aix-MARSEC traitements
  • 3) perspectives

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
3
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 1
Des corpus nombreux et variés
  • A titre dexemple, on pourra citer les corpus
    disponibles à lUCREL
  • The British National Corpus (BNC)
  • The Lancaster/Oslo-Bergen Corpus (LOB)
  • The Brown University Corpus
  • The Kolhapur Corpus
  • The Longman-Lancaster Corpus
  • The Lancaster/IBM Spoken English Corpus (SEC)
  • The London-Lund Corpus
  • The ET10-63 Corpus
  • The International Telecommunications Union
    (ITU) or CRATER Corpus
  • The Helsinki Corpus (Diachronic Part)
  • The Lampeter Corpus of Early Modern English
    Tracts

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
4
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 2
Des corpus nombreux et variés
  • Suite des corpus disponibles à lUCREL
  • The Lancaster-Leeds Treebank
  • The Lancaster Parsed Corpus (LPC)
  • The American Printing House for the Blind
    Treebank (APHB)
  • The Associated Press Treebank (AP)
  • The Canadian Hansard Treebank
  • The IBM Manuals Treebank
  • The Anaphoric Treebank
  • The ACL/DCI CD-ROM
  • The WordCruncher Disk

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
5
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 3
Des corpus nombreux et variés
Sans oublier quelques travaux pré-électroniques
cruden Concordance of the Authorized
version of the Bible (1736) Johnson
Dictionary of the english language The
Oxford English Dictionary (1928) Webster
An American Dictionary of the English Language
(1928) Wright The English Dialect
Dictionary (1898 - 1905) Ellis The
Existing Phonology of English Dialects (1889)
Thorndike Teachers Workbook (1921)
Thorndike Lorge The Teachers Workbook of
30,000 words (1944) Jespersen A Modern
English Grammar on Historical Principles (1909 -
49) Kruisinga A Handbook of Present-Day
English (1931-32) Poutsma A Grammar of
Late Modern English (1926-29) Fries
American English Grammar (1940) Fries The
Structure of English (1952) Quirk The
Survey of English Usage (1968)
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
6
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 4
Des corpus nombreux et variés
Critères de classification utilisables
  • Approche généraliste / Orientée (type
    dexploitation visé)
  • Corpus Orientés
  • Oxford Psycholinguistic Database
  • Child Language Data Exchange System
  • European Science Foundation Second Language
    Databank
  • International Corpus of Learners English
  • Canterbury Corpus
  • BDBRUIT Database
  • Corpus Généralistes
  • Brown University Corpus
  • LOB Corpus
  • Brittish National Corpus
  • Kohlapur Corpus of Indian English
  • Wellington Corpus of Written New Zealand English
  • Australian Corpus of English

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
7
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 5
Des corpus nombreux et variés
Critères de classification utilisables
  • Approche généraliste / Orientée (type
    dexploitation visé)
  • Approche Dialectologique (type de population
    étudiée)
  • Par pays
  • Wellington Corpus of New zealand English
  • Corpus of Spoken American English
  • Brown University Corpus
  • Australian Corpus of English
  • Corpus of English Canadian Writing
  • Kohlapur Corpus of Indian English
  • Par Groupes sociaux ou provinces
  • COLT
  • IViE
  • PAC o)

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
8
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 6
Des corpus nombreux et variés
Critères de classification utilisables
  • Approche généraliste / Orientée (type
    dexploitation visé)
  • Approche Dialectologique (type de population
    étudiée)
  • Approche Stylistique (type de texte)
  • Par Style de texte
  • Jiao Tang University Corpus of English in
    Science
  • COLT (London teenage colloquial English)
  • CRATER Corpus (telecom English)
  • Lampeter Corpus of Early Modern English Tracts

Par modalité de production Recours à une
échelle de spontanéité Lecture de mots isolés
Lecture de phrases MAP Task Conversation
guidée Parole publique conversation libre
Conversation libre enregistrée à linsu des
locuteurs
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
9
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 7
Des corpus nombreux et variés
Critères de classification utilisables
  • Approche généraliste / Orientée (type
    dexploitation visé)
  • Approche Dialectologique (type de population
    étudiée)
  • Approche Stylistique (type de texte)
  • Nature des données enregistrées
  • Données écrites
  • LOB Corpus
  • Brown University Corpus
  • Kohlapur Corpus
  • BNC (90 )
  • Données orales
  • BNC (10 )
  • Lancaster/IBM Spoken English Corpus (SEC)
  • London-Lund Corpus
  • IviE

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
10
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 8
Des corpus nombreux et variés
Critères de classification utilisables
  • Approche généraliste / Orientée (type
    dexploitation visé)
  • Approche Dialectologique (type de population
    étudiée)
  • Approche Stylistique (type de texte)
  • Nature des données enregistrées
  • Format des données disponibles (données
    enregistrées orales)
  • Transcriptions seules
  • BNC
  • American National Corpus
  • Corpus of Spoken Professional American English
  • Canadian Hansard Treebank
  • Transcriptions et fichiers son
  • MULTEXT
  • ICE (International Corpus of English)
  • SBCSAE
  • IViE

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
11
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 9
Les corpus Oraux
Corpus Oraux Corpus de données
orales Disponibles sous un format audio
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
12
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 9
Les corpus Oraux
Corpus Oraux Corpus de données orales
Disponibles sous un format audio
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
13
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 10
Les corpus Oraux
Disponibles sous un format audio
Mais encore ???
Nature des transcriptions ??? Format des
Transcriptions ???
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
14
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 11
Les corpus Oraux
Nature des transcriptions ???
Orthographique
  • Annotée
  • Syntaxe (étiquetage POS / structures)
  • Phonétique / Phonologie
  • (segmental / supra-segmental)
  • Infos Conversationnelles
  • (Tours de parole, chevauchements, )
  • Infos DISCURSIVES
  • (Structure informationnelle,
    référentielle, rhétorique, hiérarchique-fonctionne
    lle, )

Ponctuée / NON Ponctuée Annotée / Non annotée
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
15
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 12
Les corpus Oraux
Nature des transcriptions ???
Orthographique
NON-Orthographique
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
16
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 13
Les corpus Oraux
Format des transcriptions ???
Texte simple (Plain Text)
Fichiers au format ASCII, Non destinés à un
logiciel particulier
Exploitation manuelle facilitée Mais Traitement
exhaustif difficile
Portabilité maximalisée Mais Traitement
automatique direct impossible
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
17
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 14
Les corpus Oraux
Format des transcriptions ???
Exemple de Texte simple LLCc
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
Version réduite du LLC (cf. Svartvick Quirk
1980)
18
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 15
Les corpus Oraux
Format des transcriptions ???
Exemple de Texte simple MARSEC
signal a0101 type 0 color 121 comment created by
Caro et Cyril font -adobe-helvetica-medium-r-norma
l--14-140-75-75-p-77-iso8859-1 separator
nfields 1 0.000000 122 0.570000
122 ltGood 0.680000 122 morning 1.160000
122 1.780000 122 gtmore 1.940000
122 news 2.281180 122 about 2.500000
122 the 2.630000 122 Reverend 2.950000
122 _Sun 3.290000 122 Myung 3.643588
122 Moon
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
Transcription MARSEC
19
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 16
Les corpus Oraux
Format des transcriptions ???
Texte formaté
Fichiers au format ASCII ou compilés, destinés
à un logiciel particulier
Portabilité minimalisée Mais Exploitation directe
possible
Exploitation manuelle plus difficilE Mais Exploita
tion exhaustive possible
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
20
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 17
Les corpus Oraux
Format des transcriptions ???
Exemple de Texte Formaté BNC
ltbncDoc idBDFX8 n093802gt ltheader typetext
creator'natcorp' statusnew update1994-07-13gt
ltfileDescgt lttitStmtgt lttitlegt
General Practitioners Surgery -- an electronic
transcription lt/titlegt ltrespStmtgt
ltrespgt Data capture and
transcription lt/respgt ltnamegt
Longman ELT lt/namegt
lt/respStmtgt lt/titStmtgt ltednStmt n1gt
Automatically-generated header lt/ednStmtgt
ltextent kb7 words128gt lt/extentgt
ltu whoFX8PS000gt lts n01gt ltw ITJgtAh ltw AV0gtthere
ltw PNPgtwe ltw VBBgtareltc PUNgt, ltuncleargtltc PUNgt. lts
n02gt ltw AV0gtRight ltuncleargt ltw AJ0gtabdominal ltw
NN1gtwoundltc PUNgt, ltw PNPgtsheltw VBZgt's ltw AT0gta ltw
AJ0gtwee ltw NN1gtbit ltpausegt ltw VVDgtconfusedltc
PUNgt. lts n03gt ltw PNPgtShe ltw VDDgtdidltw XX0gtn't ltw
VVIgtbother ltw TO0gtto ltw VVIgttell ltw PNPgtme ltw
CJTgtthat ltw PNPgtsheltw VHDgt'd ltw AV0gtonly ltw
VVNgtgot ltuncleargt ltw TO0gtto ltw VVIgtcall ltw
PNPgtyoultc PUNgt, ltw AV0gtrightltc PUNgt? lts n04gt ltw
UNCgtErm ltw PNPgtshe ltw VBDgtwasltw XX0gtn't ltw PRPgtin
ltw DPSgther ltw NN1gtnightdress ltw CJCgtbut ltw
PNPgtshe ltw AV0gtonly ltw VVNgtdressed ltw
PNXgtherselfltc PUNgt, ltw PNPgtshe ltw VVDgtsaid ltptr
tFX8LC001gt ltuncleargt ltptr tFX8LC002gt lt/ugt ltu
whoPS22Tgt lts n05gt ltptr tFX8LC001gt ltw CJCgtAnd
ltw PNPgtyou ltuncleargt ltptr tFX8LC002gt lt/ugt
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
Transcription BNC (Header)
Transcription BNC
21
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 18
Les corpus Oraux
Format des transcriptions ???
Exemple de Texte Formaté IviE dans XWaves
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
Transcription IviE
22
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 19
Les corpus Oraux
Les transcriptions sont en général
orthographiques annotées Texte simple /
formaté / - Alignées
Quen est-il des principaux corpus oraux
danglais britannique ???
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
23
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 20
Les corpus Oraux Britanniques
  • Description sommaire de DEUX corpus oraux
    danglais Britannique
  • ICE
  • 2) IViE

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
24
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 21
Les corpus Oraux Britanniques
ICE The International Corpus of English
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
25
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 22
Les corpus Oraux BritanNiques
ICE-GB LE composant britannique
Début du programme 1990 Objectif principal
Fournir les données nécessaires à une étude
comparative des variantes nationales et
régionales de langlais Nombre de partenaires
20 centres Composition 1 million de mots (200
textes écrits, 300 textes oraux)
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
26
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 23
Les corpus Oraux BritanNiques
ICE-GB LE composant britannique
Format des données annotation syntaxique
complète au format ICECUP (étiquetage structure
syntaxique) 83.394 arbres au total 59.640 arbres
pour la partie orale
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
27
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 24
Les corpus Oraux BritanNiques
ICE-GB LE composant britannique
ICE-GB un véritable corpus oral ???
Version 1 du corpus Transcriptions seules
Version 2 du Corpus Transcriptions et
fichiers son (Alignement ???) (si oui, QuelLe
granularité dalignement ???)
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
28
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 25
Les corpus Oraux BritanNiques
IViE Intonational Variation in English
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
29
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 26
Les corpus Oraux BritanNiques
IViE Intonational Variation in English
Début du programme 1997 Objectif principal
Fournir les données et les outils nécessaires à
une étude comparative des variantes intonatives
régionales de langlais des îles
britanniques Nombre de points denquête
9 Composition 36 heures de parole (dont 4h
transcrites et 1h disponible en ligne)
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
30
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 27
Les corpus Oraux BritanNiques
IViE Intonational Variation in English
  • Composition (suite) 5 modalités de production
  • Conversation
  • Interaction guidée (Map Task)
  • Récit de mémoire
  • Lecture de texte
  • Lecture de passages phonétiquement contrôlés

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
31
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 28
Les corpus Oraux BritanNiques
IViE Intonational Variation in English
Format des données Format Xwaves (Entropic
Soft.) sous Unix Possibilité dUtilisation avec
PitchWorks, WaveSurfer, Praat,
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
32
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 28
Les corpus Oraux BritanNiques
IViE Intonational Variation in English
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
33
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 29
Les corpus Oraux BritanNiques
IViE Intonational Variation in English
IVIE un véritable corpus oral danglais
britannique Un corpus orienté (intonation, pas
dannotation syntaxique ni de concordance) Un
corpus aligné au niveau du mot (fin dunité)
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
34
Aix-MARSEC Petit tour dhorizon des corpus en
anglais
Diapo 30
Les corpus Oraux BritanNiques
En Résumé
  • Les corpus sont nombreux mais rares sont ceux qui
    sont
  • réellement oraux
  • sur langlais britannique
  • disponibles (cf. CIC)
  • Gratuits (ou presque )
  • (cf. ICE 477 / EUROM 1 800-1600 / )

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
35
Le corpus Aix-MARSEC
1) Les origines 2) de MARSEC à Aix-MARSEC
traitements 3) perspectives
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
36
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 31
Origines de MARSEC
MARSEC MAchine Readable Spoken English
Corpus SEC Spoken English Corpus (Lancaster,
Leeds, IBM) Corpus denviron 55 000
mots Catégories de discours bulletins
dinformations, émissions religieuses, fiction,
poésie, dialogues (de type mise en scène),
commentaires sportifs). 53 locuteurs (17
locutrices et 36 locuteurs) Archives de la BBC
(début des années 1980)
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
37
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 32
Origines de MARSEC
Durée 339 minutes et 18 secondes, corpus divisé
en fichiers de 60s environ Alignement (temporel)
au niveau du mot Annotation prosodique tonetic
stress marks (G. Knowles B. Williams) 80
passages de chevauchement (9 du corpus) pour
comparaison
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
38
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 33
Origines de MARSEC
annotation prosodique (14 symboles ASCII)
_ low level high level lt step-down gt
step-up / (high) rise-fall / high
fall-rise / high rise \ high fall , low
rise low fall ,\ (low rise-fall not
used) \, low fall-rise stressed but
unaccented minor intonation unit
boundary major intonation unit boundary
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
39
Aix-MARSEC Le corpus Aix-MARSEC
De MARSEC à AIX-MARSEC
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
40
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 34
Traitements
Homogénéisation du corpus
  • Conversion des fichiers étiquettes au format
    textgrid (Praat)
  • Mise en correspondance des noms de fichiers son
    avec les noms de fichiers détiquettes
    (correction)
  • Suppression des fichiers son défectueux
  • Suppression des fichiers avec étiquettes
    manquantes
  • - Suppression totale de 3 fichiers
  • - Élimination des doublons ( fichiers de
    chevauchement) avec préférence pour BJW (sur GOK)

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
41
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 35
Traitements
Vérification des étiquettes
Vérification et correction de la totalité des
étiquettes de mot avec PRAAT Fenêtre minimale de
correction 50ms (pas de modification dans le
cas de décalages de moins de 50ms) Modification
détiquette dans 82 fichiers Marquage des
fichiers modifiés par ajout de mod dans le nom
(facilement identifiables)
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
42
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 36
Traitements
Prédiction de la durée des phonèmes
Algorithme inspiré de Campbell 1992 Appliqué au
niveau du mot
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
43
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 37
Traitements
PHONETISATION DU CORPUS
SAMPA / IPA I ? e e ? Q ? V ? U ? _at_ ? i
i eI ?? aI ?? OI ?? u ? _at_U ?? aU ?? 3
? A ? O ? I_at_ ?? e_at_ ?? U_at_ ??
Utilisation du dictionnaire Advanced Learners
Dictionary publié par Oxford University Press
Dictionnaire de transcription avec 71 000 mots
en entrée Conversion en SAMPA ( computer
readable phonetic alphabet)
Utilisation du dictionnaire Advanced Learners
Dictionary publié par Oxford University
Press Dictionnaire de transcription avec 71 000
mots en entrée Conversion en SAMPA ( computer
readable phonetic alphabet)
Fonctionnement général Recherche automatique
de chaque mot du corpus dans le dictionnaire
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
44
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 38
Traitements
Différentes étapes de la phonétisation (1)
  • CODAGE dun Module perl traitant
  • les nombres et combinaisons de lettres nombres
    (codes postaux),
  • les suites de majuscules (abréviations),
  • les génitifs et les formes contractées.

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
45
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 39
Traitements
Différentes étapes de la phonétisation (2)
  • Utilisation de ces formes dès lors
  • quelles apparaissent sans marque prosodique
  • dans le corpus
  • ex  /and  /nd/
  • mais
  •  and  sans marque /_at_nd/
  • Traitement des formes réduites
  • dictionnaire formes pleines uniquement
    (ex  and  est transcrit /nd/)
  • Création dun dictionnaire avec la liste des
    formes réduites et leur réalisation
    ex  and  est transcrit /_at_nd/

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
46
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 40
Traitements
Différentes étapes de la phonétisation (3)
Lors de la phonétisation, 900 mots présents dans
le corpus napparaissaient pas dans le
dictionnaire. ? Constitution dun troisième
dictionnaire avec les 900 mots transcrits
manuellement (à partir de Wells, 1990) et
dun quatrième avec la transcription des formes
"problématiques" (hésitations, coupures en début/
fin de fichier). But aucune modification du
dictionnaire dorigine pour applications
ultérieures
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
47
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 41
Traitements
Différentes étapes de la phonétisation (3)
Problèmes non résolus
Doublons Mots avec deux entrées dans le
dictionnaire Ex  object  (nom / verbe)
 wind  (nom / verbe) Aucune solution
automatique pour linstant puisquon ne tient pas
compte de laccent lexical ? en projet
Dates Nombres entre 1000 et 1999 traités comme
des dates (vérification prévue)
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
48
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 42
Traitements
Différentes étapes de la phonétisation (4)
Traitement des élisions
  • Observation des élisions dans le corpus
  • Établissement de 14 règles phonotactiques
    délisions
  • ? daprès Jones (1990), Wells (1990)
  • et Cruttenden (1997)
  • ? daprès les données
  • - Application des 14 règles au corpus
  • - Suppression totale de 4027 phonèmes

But améliorer la transcription phonématique
pour lalignement automatique
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
49
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 43
Traitements
Alignement automatique
Alignement effectué au laboratoire du LIA
(Laboratoire Informatique dAvignon) - par
Christophe Lévy - sous la direction de Pascal
Nocéra Application dun  force Viterbi  à
partir de la liste de phonèmes fournie
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
50
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 44
Traitements
Alignement automatique
Evaluation de lalignement automatique
Erreur moyenne absolue 22 ms Erreur moyenne
- 6,29 ms Aplatissement 8,15 (forte
concentration) Dyssimétrie -0,94 (léger biais
à gauche)
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
51
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 45
Traitements
Alignement automatique
Evaluation de lalignement automatique
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
52
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 46
Traitements
Découpage syllabique (1)
  • Après alignement,
  • regroupement des phonèmes en syllabes
  • Pour cela,
  • application de règles phonotactiques de
    cooccurrence en fonction du principe dattaque
    maximale
  • - traitement des consonnes syllabiques /n-m-l/

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
53
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 47
Traitements
Découpage syllabique (2)
Application de règles phonotactiques de
cooccurrence Principe de base principe
dattaque maximale Les consonnes sont regroupées
en position dattaque si les conditions de
cooccurrence sont respectées Toutes les
consonnes exclues par ces restrictions sont
placées en position codaïque.
Résumé des contraintes de cooccurrence en
attaque (cruttenden, 1997)
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
54
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 48
Traitements
Découpage syllabique (3)
Contraintes de cooccurrence des attaques
bi-consonantiques (cruttenden, 1997) p l, r, j
t r, j, w k l, r, j, w b l, r, j d r, j,
w g l, r, j, w m j, w n j l j f l
, r, j v l, r, j T r, j, w s l, r, j, w,
p, t, k, m, n, f,
v S l, r, w, m, n h j
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
55
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 49
Traitements
Découpage syllabique (4)
Contraintes de cooccurrence des attaques avec
trois consonnes s p l, r, j s t r, j s
k l, r, j, w
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
56
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 50
Traitements
Découpage syllabique (5)
  • Traitement des consonnes syllabiques /m-n-l/
  • Syllabification selon le principe dattaque
    maximale
  • Identification de ces consonnes syllabiques en
    fonction du contexte
  • C /m - n - l/ ( /z-d/)
  • Resyllabification /m-n-l/ deviennent noyaux
    syllabiques

Ex expectation transcrit /IkspekteISn/ déco
upé en syllabes /Ik.spek.teISn/ /n/ est
syllabique (contexte post-consonantique) resyllab
ification /Ik.spek.teI.Sn/ (/n/ noyau
syllabique)
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
57
Aix-MARSEC Le corpus Aix-MARSEC
Perspectives
  • Codage automatique de lintonation
  • - amélioration de lalignement actuel

Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
58
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 51
Perspectives
Codage automatique de lintonation
1) Segmentation automatique en fonction des
pauses Génération de Segments inter-pauses (sip)
2) Modélisation perceptive automatique de la
fréquence fondamentale algorithme MOMEL
(Modélisation Mélodique)
3) Codage automatique des points cibles codage
intsint
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
59
Aix-MARSEC Le corpus Aix-MARSEC
Diapo 52
Perspectives
Amélioration de lalignement
1) Génération automatique dun signal de
synthèse Phonétisation alignée MBROLA
2) Transfert des étiquettes Utilisation dun
algorithme de programmation dynamique (DTW)
3) Itérations multiples des phases 1 et 2 jusquà
stabilité
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
60
Aix-MARSEC Le corpus Aix-MARSEC
Aix-MARSEC Bilan
Après homogénéisation, le corpus AIX-MARSEC
- représente une durée totale denviron 332
min soit environ 5 heures et demi de parole
- est divisé en 408 fichiers - comporte
54083 mots - 195447 phonèmes (après élisions)
- est aligné aux niveaux de lUnité
Intonative, du mot et du phonème - sera
disponible sous peu à prix coûtant
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
61
Aix-MARSEC Le corpus Aix-MARSEC
Merci de votre attention Vous avez bien mérité
un petit échantillon
Les corpus oraux en anglais et en français,
Toulouse - le Mirail, 15/11/02
Write a Comment
User Comments (0)
About PowerShow.com