Analyse exploratoire d - PowerPoint PPT Presentation

About This Presentation
Title:

Analyse exploratoire d

Description:

Analyse exploratoire d entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main Fran ois Daoust Ga lle Dobrowolski Monique Dufresne – PowerPoint PPT presentation

Number of Views:240
Avg rating:3.0/5.0
Slides: 68
Provided by: lingUqam
Category:

less

Transcript and Presenter's Notes

Title: Analyse exploratoire d


1
Analyse exploratoire dentrevues de groupe
quand ALCESTE, DTM, LEXICO et SATO se donnent la
main
  • François Daoust
  • Gaëlle Dobrowolski
  • Monique Dufresne
  • Claire Gélinas-Chebat

JADT 2006 Besançon
2
Analyse exploratoire dentrevues de groupe les
jeunes français et le tabac
  • Claire Gélinas-Chebat
  • François Daoust
  • Monique Dufresne
  • Karine Gallopel
  • Marie- Élaine Lebel

JADT 2004 Louvain-la-Neuve
3
OBJECTIFS
4
  • 1 Montrer comment on peut combiner plusieurs
    logiciels de lexicométrie (ALCESTE, DTM et
    LEXICO3) pour valider et compléter une analyse
    SATO.

5
  • 2 Mettre à l'épreuve des chaînes de traitement
    qui font appel à des passerelles de conversion
    développées dans le contexte du réseau ATONET.

6
CORPUS
7
Corpus Gallopel
  • Entrevues enregistrées de neuf groupes de jeunes
    rencontrés à Rennes en 2000 (48 jeunes Français)?

8
  • Chacun des 9 groupes comprend 5 à 6 jeunes et un
    intervenant
  • âgés entre 15 à 25 ans
  • fumeurs et non fumeurs
  • hommes et femmes

9
Entrevues semi dirigées
  • 1 Discussion précédée dune période de
    familiarisation avec le tabagisme
  • 2 Discussion suite à lintroduction dune
    brochure

10
ANALYSE AVEC SATO
Nature
11
  • Analyse sémantico statistique basée sur une
    construction itérative dune grille catégorielle

12
ANALYSE AVEC SATO Démarche
13
Démarche (1)?
  • Comparaison de lexiques associés à des
    sous-textes établis selon
  • sexe
  • fumeur / non-fumeur
  • avant / après message anti-tabac

14
Démarche (2)?
  • Indices statistiques simples
  • Distance du Chi2
  • Mesure d'écart à la moyenne (score Z)?

15
Démarche (3)?
  • LAlgorithme de distance lexicale (basée sur la
    distance du Chi2)
  • - évalue lécart dans lutilisation dun
    vocabulaire donné entre deux lexiques
  • - peut être appliqué aux formes lexicales ou
  • aux valeurs de propriétés catégorielles
  • Approche dichotomique de comparaison de
  • sous-textes via les lexiques respectifs

16
Démarche (4)?
  • LAlgorithme de participation
  • calcule les moyennes normalisées dun ensemble
    de formes lexicales qui peuvent être définies par
    les propriétés catégorielles

17
ANALYSE AVEC SATO Étapes
18
Étapes (1)?
  • Va et vient entre les données lexicales brutes et
    leurs contextes dutilisation (Kwic)?
  • - Approche univariée saisir la spécificité de
    la stratification induite par chacune des
    variables sociologiques
  • - Approche multivariée tenir compte de
    linteraction de ces variables

19
Étapes (2)?
  • Émergence d'une grille catégorielle sémantique
  • apparence, arrêt, négation, concret, danger,
    dépendance, soc-je, maladie, mort, plaisir,
  • soc-ami, soc-famille, soc-gens, soc-jeune,
    liberté, envie, conscience, volonté,
  • (Le préfixe soc- renvoie à un ensemble de
    catégories
  • référant aux rapports sociaux identifiés par les
    jeunes.)?

20
ANALYSE AVEC SATO
Résultats
21
Analyse de distance sur les formes lexicales
brutes avant\après lintroduction de la brochure
(Résultats 1)?
22
Analyse de distance sur les formes de la
catégorie sujet avant\après lintroduction de la
brochure
23
Analyse de distance avant\après pour les fumeurs
et les non-fumeurs (tableau III)
24
Analyseur PARTICIPATION (sujet apparence)?
25
Analyseur PARTICIPATION (sujet mort)?
26
ANALYSES AVEC SATO Conclusions
27
Conclusions (1)?
  • Construction d'une grille catégorielle
    transparente et respectueuse de la spécificité du
    contexte d'énonciation.

28
Conclusions (2)?
  • Démarche itérative combinant
  • une approche inductive (qualitative)
  • une utilisation d'outils simples de statistique
    lexicale
  • une approche plus sensible à la pragmatique
    textuelle.

29
Conclusions (3)?
  • Production de données qualifiées (catégories) qui
    traduisent la démarche interprétative de
    lanalyste

30
VALIDATION
31
  • Validation de notre démarche et de nos résultats
    par divers logiciels de statistique textuelle 
  • ALCESTE (Reinert)?
  • LEXICO 3 (Salem)?
  • DTM (Lebart)

32
Chaîne de traitement (1)?
  • Format initial des données balises SATO
    (propriétés)?
  • identification du locuteur et des
    caractéristiques sociologiques
  • identification des sections pré ou post
    brochure.

33
Chaîne de traitement (2)?
  • pagegallo02/11
  • pubbrochure locuteurs36 fumeurnon sexeh
    Bah, la brochure là, elle nous présente ce qui
    nous attend si on fume. Mais c est très quoi,
    moi j ai lu ça, mais je ne sais pas je ne suis
    pas fumeur, donc je ne ressens peut-être pas ça
    de la même façon..

34
Chaîne de traitement (3)?
  • Exportation par SATO en XML-TEI de diverses
    éditions du corpus
  • Conversion de la version TEI vers les formats
    propriétaires ALCESTE, LEXICO et DTM

35
ANALYSE AVEC ALCESTE
36
ALCESTE (1)?
  • méthode complètement automatique qui vise à
    faire émerger des mondes lexicaux
  • s'appuie sur des régularités statistiques pour
    faire émerger la structure du discours à partir
    des énoncés
  • (Avec SATO, nous étions partis d'hypothèses
    structurantes du discours pour faire parler les
    données)?

37
ALCESTE (2)?
  • Résultats corpus Initial deux classes
  • Classe 1 (1/3 des UCE)
  • surtout les interventions exprimées après
    l'exposition au message antitabac (Chi233.82).
  • plus faiblement une présence significative des
    UCE des non-fumeurs
  • (transcription des entrevues dans leur découpage
    original en interventions sont exclues les
    interventions des intervenants)?

38
ALCESTE (3)?
  • Classe 2 (2/3 des UCE)
  • surtout des interventions précédant la
    présentation du message antitabac (Chi233.82)?
  • aussi, mais plus faiblement, une présence
    significative des UCE des fumeurs (Chi28.81)

39
ALCESTE (4)?
40
ALCESTE (5)?
  • CONCLUSIONS
  • ALCESTE confirme que la variable avant/après le
    message antitabac représente le premier élément
    de structuration du corpus, ce qui constitue pour
    nous le résultat le plus significatif.
  • ALCESTE relève la présence de lopposition
    fumeur/non-fumeur, deuxième variable prise en
    compte dans l'analyse SATO.

41
ALCESTE (6)?
  • ALCESTE a donc retrouvé ce que nous avions
    observé lors de la comparaison de lexiques
    construits sur la base dun découpage global du
    corpus.
  • Ce point de rencontre entre les approches
    ascendantes et descendantes est un outil
    important de validation de linterprétation.

42
ANALYSE AVEC LEXICO O
43
LEXICO (1)?
  • LEXICO
  • calcule les spécificités lexicométriques de
    parties d'un corpus d'après un modèle
    probabiliste basé sur la loi hypergéométrique
    (cf. Lebart, Salem 1994)
  • rend possibles des analyses factorielles de
    correspondances (AFC) sur un corpus partitionné

44
LEXICO (2)?
  • Première approche
  • Analyse du corpus Participant découpage du
    corpus selon le profil des répondants
  • ensemble des interventions de chaque
    participant identifié par un nom résumant son
    profil et suffixé par a ou b pour identifier le
    discours du participant avant et après le message
    antitabac Élimination des participants dont le
    profil sociologique est incomplet

45
Corpus Participant individus sur le plan des 2
premiers axes de l'AFC
46
LEXICO (4)?
  • Deuxième approche
  • calcul des spécificités reportées sur la sortie
    de l'analyseur DISTANCE de SATO appliqué au
    lexique avant et après la brochure.

47
LEXICO (5)?
48
LEXICO (6)?
  • Conclusion
  • Très large recouvrement entre les formes
    lexicales qui contribuent le plus à la distance
    et les spécificités calculées par LEXICO
  • parmi les mots manquants, il y a les ponctuations
    qui, apparemment, ne sont pas prises en compte
    par LEXICO, de même que les formes absentes dans
    le corpus Avant
  • la mesure de spécificité de LEXICO fournit un bon
    complément à la DISTANCE du Chi2 par l'ajout d'un
    seuil statistique

49
ANALYSE AVEC DTM
50
DTM (1)?
  • DTM
  • Outil dédié à lanalyse exploratoire de données
    numériques multivariées et de données textuelles
    (par exemple un sondage avec questions ouvertes
    et fermées)?
  • Comptage des mots du texte brut produisant des
    variables représentant le nombre doccurrences du
    mot

51
DTM (2)?
  • Expérimentation 1
  • Analyse du corpus Participant le corpus est vu
    comme un ensemble de 87 individus.
  • Le profil sociologique est enregistré comme
    autant de réponses catégorielles à des questions
    fermées  pub (nil, brochure), sexe (homme,
    femme) et fumeur (non, oui).
  • Les interventions avant et après le message
    antitabac donnent lieu à deux questionnaires
    distincts.
  • L'ensemble des interventions d'un individu pour
    chaque questionnaire constitue la réponse à une
    question ouverte unique.

52
Corpus Participant variables catégorielles sur
le plan des 2 premiers axes de l'AFC
53
DTM (4)?
  • Confirmation de l'influence du message antitabac
    et des variables catégorielles sur la structure
    du discours

54
DTM (5)?
  • Expérimentation 2
  • Production d'un corpus artificiel (Participant
    catégorisé) par substitution des catégories aux
    unités lexicales catégorisées

55
DTM (6)?
  • Calcul de l'AFC en croisant
  • les 87 participants avec 702 variables
    textuelles, soit les formes lexicales non
    catégorisées et catégorisées sémantiquement
    (propriété thème).
  • Cette substitution recouvre 12,26  des
    occurrences.

56
Corpus Participant catégorisé variables
catégorielles sur le plan des 2 premiers axes de
l'AFC
57
DTM (8)?
  • La projection des variables sociologiques sur le
    plan factoriel suit le même jeu d'oppositions

58
DTM (9)?
  • Expérimentation 3
  • Production d'un autre corpus artificiel
    (Participant réduit) par substitution des
    catégories à toutes les unités lexicales

59
DTM (10)?
  • Calcul de l'AFC en croisant
  • les 87 participants avec 29 variables textuelles,
    soit lensemble des occurrences du corpus Initial
  • Les 28 catégories utiles représentent un peu plus
    de 12 des occurrences.

60
Corpus Participant réduit variables
catégorielles et lexique sur le plan des 2
premiers axes de l'AFC
61
DTM (12)?
  • Visualisation simultanée du lexique des
    catégories et les modalités des questions
    fermées
  • répartition aux quatre points cardinaux des
    catégories les plus excentriques  apparence,
    dépendance, coûts, éducation, mort et soc-ami
  • concentration des catégories banales (qui
    constituent les référents communs du discours) au
    centre du plan

62
DTM (13)?
  • Outil de validation de la construction de la
    grille de catégories lexicales
  • La visualisation des catégories sémantiques dans
    le plan factoriel ouvre aussi de nouvelles
    fenêtres d'investigation pour revenir aux
    contextes et affiner la grille si nécessaire

63
CONCLUSIONS
64
  • Cette première utilisation combinée de logiciels
    d'analyse textuelle a été grandement facilitée
    par les protocoles d'échange de données réalisées
    par le réseau ATONET.

65
  • Il est possible de créer de multiples chaînes de
    traitement qui permettent de reconfigurer les
    données et de faire appel aux points forts de
    chaque logiciel.

66
  • Par la combinaison des méthodes d'analyse
  • plus grande fiabilité des conclusions en
    fournissant des moyens de corroborer ou
    d'infirmer des hypothèses et des conclusions
  • aller au-delà des impressions et des commentaires
    descriptifs pour produire des représentations de
    discours sociaux susceptibles d'agir comme modèles

67
  • Merci de votre attention.
Write a Comment
User Comments (0)
About PowerShow.com