Title: Analyse exploratoire d
1Analyse exploratoire dentrevues de groupe
quand ALCESTE, DTM, LEXICO et SATO se donnent la
main
- François Daoust
- Gaëlle Dobrowolski
- Monique Dufresne
- Claire Gélinas-Chebat
JADT 2006 Besançon
2Analyse exploratoire dentrevues de groupe les
jeunes français et le tabac
- Claire Gélinas-Chebat
- François Daoust
- Monique Dufresne
- Karine Gallopel
- Marie- Élaine Lebel
JADT 2004 Louvain-la-Neuve
3OBJECTIFS
4- 1 Montrer comment on peut combiner plusieurs
logiciels de lexicométrie (ALCESTE, DTM et
LEXICO3) pour valider et compléter une analyse
SATO. -
5- 2 Mettre à l'épreuve des chaînes de traitement
qui font appel à des passerelles de conversion
développées dans le contexte du réseau ATONET.
6CORPUS
7Corpus Gallopel
- Entrevues enregistrées de neuf groupes de jeunes
rencontrés à Rennes en 2000 (48 jeunes Français)?
8- Chacun des 9 groupes comprend 5 à 6 jeunes et un
intervenant - âgés entre 15 à 25 ans
- fumeurs et non fumeurs
-
- hommes et femmes
9Entrevues semi dirigées
- 1 Discussion précédée dune période de
familiarisation avec le tabagisme - 2 Discussion suite à lintroduction dune
brochure -
10ANALYSE AVEC SATO
Nature
11- Analyse sémantico statistique basée sur une
construction itérative dune grille catégorielle
12ANALYSE AVEC SATO Démarche
13Démarche (1)?
- Comparaison de lexiques associés à des
sous-textes établis selon - sexe
- fumeur / non-fumeur
- avant / après message anti-tabac
14Démarche (2)?
- Indices statistiques simples
- Distance du Chi2
- Mesure d'écart à la moyenne (score Z)?
15Démarche (3)?
- LAlgorithme de distance lexicale (basée sur la
distance du Chi2) - - évalue lécart dans lutilisation dun
vocabulaire donné entre deux lexiques - - peut être appliqué aux formes lexicales ou
- aux valeurs de propriétés catégorielles
- Approche dichotomique de comparaison de
- sous-textes via les lexiques respectifs
16Démarche (4)?
- LAlgorithme de participation
- calcule les moyennes normalisées dun ensemble
de formes lexicales qui peuvent être définies par
les propriétés catégorielles
17ANALYSE AVEC SATO Étapes
18Étapes (1)?
- Va et vient entre les données lexicales brutes et
leurs contextes dutilisation (Kwic)? - - Approche univariée saisir la spécificité de
la stratification induite par chacune des
variables sociologiques - - Approche multivariée tenir compte de
linteraction de ces variables
19Étapes (2)?
- Émergence d'une grille catégorielle sémantique
- apparence, arrêt, négation, concret, danger,
dépendance, soc-je, maladie, mort, plaisir, - soc-ami, soc-famille, soc-gens, soc-jeune,
liberté, envie, conscience, volonté, - (Le préfixe soc- renvoie à un ensemble de
catégories - référant aux rapports sociaux identifiés par les
jeunes.)?
20ANALYSE AVEC SATO
Résultats
21Analyse de distance sur les formes lexicales
brutes avant\après lintroduction de la brochure
(Résultats 1)?
22Analyse de distance sur les formes de la
catégorie sujet avant\après lintroduction de la
brochure
23Analyse de distance avant\après pour les fumeurs
et les non-fumeurs (tableau III)
24Analyseur PARTICIPATION (sujet apparence)?
25Analyseur PARTICIPATION (sujet mort)?
26ANALYSES AVEC SATO Conclusions
27Conclusions (1)?
-
- Construction d'une grille catégorielle
transparente et respectueuse de la spécificité du
contexte d'énonciation.
28Conclusions (2)?
- Démarche itérative combinant
- une approche inductive (qualitative)
- une utilisation d'outils simples de statistique
lexicale - une approche plus sensible à la pragmatique
textuelle.
29Conclusions (3)?
- Production de données qualifiées (catégories) qui
traduisent la démarche interprétative de
lanalyste
30VALIDATION
31- Validation de notre démarche et de nos résultats
par divers logiciels de statistique textuelle - ALCESTE (Reinert)?
- LEXICO 3 (Salem)?
- DTM (Lebart)
32Chaîne de traitement (1)?
- Format initial des données balises SATO
(propriétés)? - identification du locuteur et des
caractéristiques sociologiques - identification des sections pré ou post
brochure.
33Chaîne de traitement (2)?
- pagegallo02/11
- pubbrochure locuteurs36 fumeurnon sexeh
Bah, la brochure là, elle nous présente ce qui
nous attend si on fume. Mais c est très quoi,
moi j ai lu ça, mais je ne sais pas je ne suis
pas fumeur, donc je ne ressens peut-être pas ça
de la même façon..
34Chaîne de traitement (3)?
- Exportation par SATO en XML-TEI de diverses
éditions du corpus - Conversion de la version TEI vers les formats
propriétaires ALCESTE, LEXICO et DTM
35ANALYSE AVEC ALCESTE
36ALCESTE (1)?
- méthode complètement automatique qui vise à
faire émerger des mondes lexicaux - s'appuie sur des régularités statistiques pour
faire émerger la structure du discours à partir
des énoncés - (Avec SATO, nous étions partis d'hypothèses
structurantes du discours pour faire parler les
données)?
37ALCESTE (2)?
- Résultats corpus Initial deux classes
- Classe 1 (1/3 des UCE)
- surtout les interventions exprimées après
l'exposition au message antitabac (Chi233.82). - plus faiblement une présence significative des
UCE des non-fumeurs - (transcription des entrevues dans leur découpage
original en interventions sont exclues les
interventions des intervenants)?
38ALCESTE (3)?
- Classe 2 (2/3 des UCE)
- surtout des interventions précédant la
présentation du message antitabac (Chi233.82)? - aussi, mais plus faiblement, une présence
significative des UCE des fumeurs (Chi28.81)
39ALCESTE (4)?
40ALCESTE (5)?
- CONCLUSIONS
- ALCESTE confirme que la variable avant/après le
message antitabac représente le premier élément
de structuration du corpus, ce qui constitue pour
nous le résultat le plus significatif. - ALCESTE relève la présence de lopposition
fumeur/non-fumeur, deuxième variable prise en
compte dans l'analyse SATO.
41ALCESTE (6)?
- ALCESTE a donc retrouvé ce que nous avions
observé lors de la comparaison de lexiques
construits sur la base dun découpage global du
corpus. - Ce point de rencontre entre les approches
ascendantes et descendantes est un outil
important de validation de linterprétation.
42ANALYSE AVEC LEXICO O
43LEXICO (1)?
- LEXICO
- calcule les spécificités lexicométriques de
parties d'un corpus d'après un modèle
probabiliste basé sur la loi hypergéométrique
(cf. Lebart, Salem 1994) - rend possibles des analyses factorielles de
correspondances (AFC) sur un corpus partitionné
44LEXICO (2)?
- Première approche
- Analyse du corpus Participant découpage du
corpus selon le profil des répondants - ensemble des interventions de chaque
participant identifié par un nom résumant son
profil et suffixé par a ou b pour identifier le
discours du participant avant et après le message
antitabac Élimination des participants dont le
profil sociologique est incomplet
45Corpus Participant individus sur le plan des 2
premiers axes de l'AFC
46LEXICO (4)?
- Deuxième approche
- calcul des spécificités reportées sur la sortie
de l'analyseur DISTANCE de SATO appliqué au
lexique avant et après la brochure.
47LEXICO (5)?
48LEXICO (6)?
- Conclusion
- Très large recouvrement entre les formes
lexicales qui contribuent le plus à la distance
et les spécificités calculées par LEXICO - parmi les mots manquants, il y a les ponctuations
qui, apparemment, ne sont pas prises en compte
par LEXICO, de même que les formes absentes dans
le corpus Avant - la mesure de spécificité de LEXICO fournit un bon
complément à la DISTANCE du Chi2 par l'ajout d'un
seuil statistique
49ANALYSE AVEC DTM
50DTM (1)?
- DTM
- Outil dédié à lanalyse exploratoire de données
numériques multivariées et de données textuelles
(par exemple un sondage avec questions ouvertes
et fermées)? - Comptage des mots du texte brut produisant des
variables représentant le nombre doccurrences du
mot
51DTM (2)?
- Expérimentation 1
- Analyse du corpus Participant le corpus est vu
comme un ensemble de 87 individus. - Le profil sociologique est enregistré comme
autant de réponses catégorielles à des questions
fermées pub (nil, brochure), sexe (homme,
femme) et fumeur (non, oui). - Les interventions avant et après le message
antitabac donnent lieu à deux questionnaires
distincts. - L'ensemble des interventions d'un individu pour
chaque questionnaire constitue la réponse à une
question ouverte unique.
52Corpus Participant variables catégorielles sur
le plan des 2 premiers axes de l'AFC
53DTM (4)?
- Confirmation de l'influence du message antitabac
et des variables catégorielles sur la structure
du discours
54DTM (5)?
- Expérimentation 2
- Production d'un corpus artificiel (Participant
catégorisé) par substitution des catégories aux
unités lexicales catégorisées
55DTM (6)?
- Calcul de l'AFC en croisant
- les 87 participants avec 702 variables
textuelles, soit les formes lexicales non
catégorisées et catégorisées sémantiquement
(propriété thème). - Cette substitution recouvre 12,26 des
occurrences.
56Corpus Participant catégorisé variables
catégorielles sur le plan des 2 premiers axes de
l'AFC
57DTM (8)?
- La projection des variables sociologiques sur le
plan factoriel suit le même jeu d'oppositions
58DTM (9)?
- Expérimentation 3
- Production d'un autre corpus artificiel
(Participant réduit) par substitution des
catégories à toutes les unités lexicales
59DTM (10)?
- Calcul de l'AFC en croisant
- les 87 participants avec 29 variables textuelles,
soit lensemble des occurrences du corpus Initial -
- Les 28 catégories utiles représentent un peu plus
de 12 des occurrences.
60Corpus Participant réduit variables
catégorielles et lexique sur le plan des 2
premiers axes de l'AFC
61DTM (12)?
- Visualisation simultanée du lexique des
catégories et les modalités des questions
fermées - répartition aux quatre points cardinaux des
catégories les plus excentriques apparence,
dépendance, coûts, éducation, mort et soc-ami - concentration des catégories banales (qui
constituent les référents communs du discours) au
centre du plan
62DTM (13)?
- Outil de validation de la construction de la
grille de catégories lexicales - La visualisation des catégories sémantiques dans
le plan factoriel ouvre aussi de nouvelles
fenêtres d'investigation pour revenir aux
contextes et affiner la grille si nécessaire
63CONCLUSIONS
64- Cette première utilisation combinée de logiciels
d'analyse textuelle a été grandement facilitée
par les protocoles d'échange de données réalisées
par le réseau ATONET.
65- Il est possible de créer de multiples chaînes de
traitement qui permettent de reconfigurer les
données et de faire appel aux points forts de
chaque logiciel.
66- Par la combinaison des méthodes d'analyse
- plus grande fiabilité des conclusions en
fournissant des moyens de corroborer ou
d'infirmer des hypothèses et des conclusions - aller au-delà des impressions et des commentaires
descriptifs pour produire des représentations de
discours sociaux susceptibles d'agir comme modèles
67- Merci de votre attention.