Title: Toward an integration of qualitative and quantitative text analysis methods
1- Toward an integration of qualitative and
quantitative text analysis methods - Words instead of Numbers
- Words as Numbers
- Words and Numbers
Normand Péladeau, Ph.D. peladeau_at_provalisresearch.
com Provalis Research Corp.
2NUMERICAL DATA
TEXTUALDATA
3SIMSTAT (1989) Statistical Analysis
4(No Transcript)
5(No Transcript)
6SIMSTAT (1989) Statistical Analysis
7(No Transcript)
8TWO MAJOR OBSTACLES 1) Polymorphy of
language One idea ? multiple forms 2)
Polysemy of words One word ? many ideas
9- List of most frequent words
- Extraction of common phrases and technical
vocabulary - Categorization of word and phrases using a user
defined dictionary (or taxonomy)
10(No Transcript)
11- Thesaurus and semantic database (WordNet)
- Keyword in context list (KWIC)
12- Keyword in Context List (KWIC)
Senses of word stress 1 (psychology) a
state of mental or emotional strain or suspense
2 (physics) force that produces strain on a
physical body 3 Verb - single out as important
13- Keyword in Context List (KWIC)
Disambiguation using phrases STRESS_THE or
STRESS_THAT ? single out as
important UNDER_STRESS ? Emotional State
14Keyword in context list (KWIC)
Disambiguation using rules TRANSFER IS NEAR
TECHNOLOGY TRANSFER IS NOT NEAR
BUS UNSATISFIED OR (SATISFIED IS AFTER
NÉGATION)
15(No Transcript)
16- Cluster analysis of words or documents
- Automatic classification of documents using
machine learning algorithms
17(No Transcript)
18(No Transcript)
19(No Transcript)
20(No Transcript)
21Automatic Classification of Documents
22- Cluster analysis of words or documents
- Automatic classification of documents using
machine learning algorithms - Statistical reduction of words x documents matrix
(SVD, factor analysis, PCA)
23(No Transcript)
24(No Transcript)
25(No Transcript)
26- Frequency Analysis (words, phrases, categories)
- Univariate analysis of frequency
- Comparison with normative data (frequency of
words) - Co-occurrence of keywords similarity of
documents - Hierarchical cluster analysis, multidimensional
scaling, proximity plots - Keywords x numeric or categorical variables
- Crosstab (with statistical test), bar charts,
line charts, heatmaps, correspondence analysis - Automatic classification of documents
- Machine Learning algorithms (Naïve Bayes
Nearest Neighbors)
27SIMSTAT (1989) Statistical Analysis
28(No Transcript)
29(No Transcript)
30(No Transcript)
31(No Transcript)
32(No Transcript)
33(No Transcript)
34- More Information Retrieval Text Mining tools
in QDA Miner - Provide assistance to human coders
- Assess the reliability of coding made by a single
coder - Identify typical and atypical examples
- Gradually move from manual to automatic coding
35(No Transcript)
36- WANT MORE INFORMATION? A DEMONSTRATION? TRIAL
VERSIONS? - Meet me at our exhibit booth
- Email me at peladeau_at_provalisresearch.com
- 3. Visit our web site at
- WWW.PROVALISRESEARCH.COM
37(No Transcript)
38(No Transcript)
39- CLIENT Federal Aviation Administration (FAA)
JetBlue Airline - PRODUITS WordStat SimStat
- APPLICATION Découverte de connaissances
- Identification des erreurs humaines dans les
rapports dincidents et les rapport
dirrégularités de vols. - Comparaison des risques de collisions à
différents aéroports (analyse des rapports
dincidents TCAS) - Développement dune taxonomie pour le vocabulaire
de la sécurité aérienne.
40(No Transcript)
41(No Transcript)
42(No Transcript)
43Los Angeles, 21 septembre 2005
44(No Transcript)
45- CLIENT CISCO Systems Inc (Product Marketing
Department) - PRODUITS WordStat, Simstat QDA Miner
- APPLICATION Étude de marché
- Analyse de limpact dune campagne publicitaire
(CRS-1) par une analyse de contenu des échanges
sur des forums de discussion. - Analyse de la satisfaction de la clientèle face à
différents produits et services (base de données
de commentaires).
46Réactions au lancement du CRS-1
47- CLIENT The Planning Commission Hillsborough
County (Florida) - PRODUITS WordStat SimStat
- APPLICATION Analyse thématique des
consultations publiques sur laménagement urbain - Analyse de contenu de
- Environ 3000 commentaires de citoyens.
- Transcription des assemblées communautaires et
des audiences publiques. - Identification des préoccupations et des enjeux
majeurs relatifs aux différentes communautés,
différentes régions.
48- CLIENT US Office of Personnel Management
- PRODUITS WordStat SimStat
- APPLICATIONS Analyse ditems de questionnaires,
analyse dincidents critiques, enquêtes - Identification des biais sexistes et raciaux, de
langage inapproprié, dimprécision dans les
consignes ou questions. - Évaluation des habiletés et compétences de juges
à partir de rapport dincidents critiques. - Analyse des réponses à des questions ouvertes.
49- CLIENT Sciences Politiques University of
Michigan Princeton University - PRODUITS WordStat QDA Miner
- APPLICATION Analyse de contenu thématique des
documents judiciaires des discours politiques - Identification des différences dargumentation
des groupes - en faveur des programmes de discrimination
positive - opposées aux programmes de discrimination
positive - Changements stratégiques des politiciens russes
en réponse à la mobilisation et lutilisation des
forces armées américaines en Asie Centrale suite
au 11 septembre 2001.
50- Analyse des réponses à des questions ouvertes
- Résumé de transcription dentrevues, groupes de
discussion - Identification des variations dusage du
vocabulaire - Profilage de la littérature dun domaine de
recherche - Identification des tendances dans des archives
historiques - Détermination des auteurs de documents
- Système expert pour les jeunes
- Mesure des processus et des désordres
psychologiques - Analyse des interactions nourritures -
médicaments - Détection de fraudes