Title: Diapositive 1
1(No Transcript)
2OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Apport dans le domaine de lanalyse
- de la langue parlée en interaction - LPI
-
- Mise à disposition de ressources
-
- Dimension patrimoniale conservation et
valorisation -
3OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Apport dans le domaine de lanalyse
- de la langue parlée en interaction LPI
-
- Décrire la langue sur la base de ses usages en
interaction - l'organisation de l'interaction sur la base
d'un grand corpus -
- Articuler recherches qualitatives et
quantitatives - Constitution de collections
- Formulation dhypothèses, vérification
- gt publications, communications
- école thématique CONTACI
- site associé CORINTE http//icar.univ-lyon2.fr
/projets/corinte/ - base de connaissances et de ressources dédiée
- à lanalyse de corpus de LPI
4CORINTE http//icar.univ-lyon2.fr/projets/corint
e/ site dédié à la recherche sur "corpus
de parole en interaction"
5OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Mise à disposition de ressources
- sur corpus d'interactions en situation naturelle
-
- - accès libre aux descripteurs
- - transcriptions alignées sur le signal
audio-vidéo - - outils danalyse et de requête
- gt 70 des données interrogeables en ligne
librement
6OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Dimension patrimoniale conservation et
valorisation de corpus -
- Intégration
- de corpus anciens (depuis 1980 - GRIC)
- de corpus externes
- de corpus récents établis selon les nouvelles
règles de lart - Enrichissement
- - description détaillée
- - numérisation des données
- - balisage xml des transcriptions
- - préparation au streaming audio-vidéo
- gt Médiathèque de corpus
7OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Spécificités de CLAPI
- Diversité des situations documentées
- Particularités de loral en interaction
-
- Multimodalité
- Hétérogénéité des transcriptions
- Interopérabilité
- gt sans équivalent
8OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Diversité des situations documentées
-
- Interactions en contexte naturel
- interactions familières
- professionnelles
- médicales
- en classe
-
-
- situations construites (entretiens)
- Domaines Analyse de LPI
- Syntaxe de loral
- Didactique
- Acquisition
- Sociolinguistique
- Psychosociologie
- Dialectologie
9OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Particularités de loral en interaction
-
- En plus du lexique, prise en compte des
phénomènes interactionnels - - chevauchement
- - pause
- - changement de locuteurs
- - timing
-
- - répétition
- - longueur des tours
- - position dans le tour
- Perspectives
- troncation, allongement, enchaînement rapide,
départ simultané - gestes
10OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
-
- Multimodalité
- Conception multimodale des pratiques
linguistiques - - Accès au signal audio/video grâce à
l'alignement - - Développement en cours de notations du
multimodal - Hétérogénéité des transcriptions
- - Différentes conventions de transcription
- - Transcriptions partielles de certains
phénomènes, de certains passages - - Niveaux de granularité différents
- ? Respect de la transcription dorigine, pas de
re-transcription - Balisage automatique en XML des transcriptions
- préparé par léquipe médiathèque
- et validé par le responsable de corpus
11OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Interopérabilité
-
- Choix de formats largement diffusés
- pour les donnes primaires (.wav, .mov)
- pour les alignements (praat, clan)
-
- Echange avec dautres applications informatiques
traitant des corpus - Deux standards actuellement générés
-
- Dublin Core pour les métadonnées
- TEI pour les métadonnées mais aussi pour le
contenu - des transcriptions (cf séminaire TEI)
12OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Banque de données
- Volume de données
-
- 40 corpus / 120 h
- 300 enregistrements / 500 transcriptions
- 40 h de transcriptions balisées et alignées
- dont 70 interrogeables librement
- 7 h de données téléchargeables (transcriptions
et enregistrements)
13OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Banque de données architecture dun corpus dans
CLAPI
CORPUS x
Bibliographie
Enregistrement 1
Enregistrement n
Transcription 1
Locuteur 1
Document annexe 1
Transcription n
Locuteur n
Document annexe n
14OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Banque de données descripteurs
15OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Banque de données documents annexes
16OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Banque de données descripteurs
17OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Banque de données locuteurs
18OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Outils
- Automatiques
- - lexique
- - reconnaissance des variantes graphiques
- - co-occurrence de tokens et/ou phénomènes
- - enchaînement de locuteurs
- - saillances de phénomènes au cours de
linteraction - - répétition, reprise
-
- Requêtes complexes permettant de combiner
- - métadonnées
- - lexique
- - phénomènes interactionnels
- ? Dans les deux cas, repérer des Clusters
- lexique phénomènes interactionnels
19OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
20OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
21OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Présentation type des résultats
- Transcription? contexte autour de la cible
-
Signal ? aligné sur le contexte
Descripteurs ? accès aux métadonnées
22OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
Une palette d'utilisations de complexité
différente
Le conflit ? identification d'une situation
complexe indices de détection
Cluster de phénomènes et de formes ?
caractérisation d'un segment chevauchant dun
tour bref
Déroulement de linteraction ? identification
de séquences variations de fréquence des
phénomènes en liaison avec le lexique
Etude comparative ? spécificités en fonction du
genre de linteraction, du nombre de locuteurs
(face à face,)
Lexique ? identification des usages variantes
graphiques fréquences, co-occurrences
23OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
enfin
24OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
25OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
Recherche de enfin et sa variante fin dans les
corpus vidéo
26OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
Recherche de enfin et sa variante fin dans les
corpus vidéo
27OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Segment chevauchant
- ?"attaque"
- Oui, ouais, non
- Pronoms (c/ça, je, on)
- Interjections (ah)
- hm
- Particules 1 fois sur 5
- mais ben voilà alors bon donc
28OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Etude comparative des particules mais ben voilà
donc - ? Localisation dans le tour
- Ben
- 75 début de tour, 40 en premier
- 19 fin de tour , 4 en dernier
- 11 tour bref
- 20 en début de segment chevauchant
- 3 en segment chevauché
-
- Donc
- 42 début de tour, 25 en premier
- 14 fin de tour , 6 en dernier
- 4 tour bref
Voilà 71 début de tour, 47 en premier 56 fin
de tour , 42 en dernier 40 tour bref 27 en
début de segment chevauchant 5 en segment
chevauché
- Mais
- 60 début de tour, 26 en premier
- 16 fin de tour, 7 en dernier
- 7 tour bref
- 24 en début de segment chevauchant
- 6 en segment chevauché
29OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Etude comparative des particules mais ben voilà
donc - ? Genre Interactionnel
- Ben
- 40 interactions privées
- 22 interactions entre professionnels
- 35 interactions professionnels/particuliers
-
- Donc
- 16 interactions privées
- 53 interactions entre professionnels
Voilà 8 interactions privées 61 interactions
entre professionnels 27 interactions
professionnels/particuliers
Mais 30 interactions privées 28 interactions
entre professionnels 38 interactions
professionnels/particuliers
30OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- Le conflit ? indices de détection dans CLAPI
- Lexique
- 'non',' mais non', 'si ', pas daccord,
répondre à, revenir sur - Saillance de chevauchement à un moment de la
transcription - Comparer le nombre de tours avec et sans
chevauchement - Débit nombre important de tokens à un moment
donné - Tours brefs (micro production)
- Les répétitions en signe dinsistance
- Etude par locuteur
-
31OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
32OBJECTIFS gt PRINCIPES gt BANQUE DE DONNEES ET
OUTILS gt EXPLOITATION
- EXPLOITATION
- Pointe dactivité linguistique saillance
lexique chevauchement à un moment de
linteraction -