Title: O Marketing no S
1(No Transcript)
2Capítulo 6 Análise de Dados
3 Análise de Dados
Escolha do método
- Muitas pesquisas de marketing têm apresentado
conclusões baseadas em resultados obtidos com a
utilização incorreta de técnicas de análises,
comprometendo, dessa forma, sua qualidade,
precisão e confiabilidade.
4Análise de Dados
Os 6 fatores a considerar na escolha do método de
análise
- Tipo de escala da variável.
- Nível de conhecimento dos parâmetros da
população. - Tipo de análise desejada.
- Número de variáveis a serem analisadas
conjuntamente. - Número de amostras e seu grau de relacionamento.
- Relação de dependência entre as variáveis.
5Análise de Dados
Tipo de escala
- Fator muito importante para a determinação da
técnica correta de análise é o tipo de escala
utilizada para medir a variável. - Em função das diferentes características das
escalas, as técnicas possíveis de serem
utilizadas na análise variam conforme a escala
seja nominal, ordinal ou intervalar.
6Análise de Dados
Nível de conhecimento dos parâmetros da população
- Uma técnica estatística é chamada paramétrica
quando o modelo do teste especifica certas
condições sobre os parâmetros da população da
qual a amostra foi obtida, para que possa ser
utilizada.
- Uma técnica estatística não paramétrica é aquela
que compreende um teste cujo modelo não
especifica condições sobre os parâmetros da
população da qual a amostra foi obtida.
7Análise de Dados
Nível de conhecimento dos parâmetros da
população(continuação)
- Exigências a serem atendidas na aplicação do
teste t - as observações precisam ser independentes
- as amostras precisam ter sido retiradas de
populações com distribuições normais - as populações precisam ter as mesmas variâncias
(ou a relação entre as variâncias conhecida) - as variáveis em estudo precisam ter sido medidas
ao menos numa escala de intervalo que possibilite
as quatro operações aritméticas.
8Análise de Dados
Tipo de análise
- Métodos descritivos têm o objetivo de
proporcionar informações sumarizadas dos dados
contidos no total de elementos da amostra
estudada.
- Métodos descritivos compreendem
- Medidas de posição servem para caracterizar o
que é típico no grupo. - Medidas de dispersão servem para medir como os
indivíduos estão distribuídos no grupo. - Medidas de associação servem para medir o nível
de relacionamento existente entre duas ou mais
variáveis.
9Análise de Dados
Tipo de análise(continuação)
- Métodos inferenciais compreendem um conjunto
grande de testes que servem para julgar a
validade das hipóteses estatísticas sobre uma
população ou para estimar seus parâmetros, a
partir da análise dos dados de uma amostra dessa
população.
- Os métodos inferenciais são baseados na teoria
das probabilidades, de forma que a incerteza da
inferência pode ser medida, isto é, o risco de
efetuar inferências incorretas pode ser
estabelecido. - As técnicas inferenciais compreendem a estimação
de parâmetros e os testes de hipóteses.
10Análise de Dados
Número de variáveis a serem analisadas
simultaneamente
- Se o número de variáveis for respectivamente uma,
duas ou mais de duas, o pesquisador encontrará
métodos específicos aplicáveis a cada situação,
denominados de - univariados
- bivariados
- multivariados.
11 Análise de Dados
Número de amostras a analisar e grau de
relacionamento entre elas
- Possibilidades
- amostra simples
- duas amostras relacionadas
- duas amostras não relacionadas
- amostras múltiplas relacionadas
- amostras múltiplas não relacionadas.
12Análise de Dados
Número de amostras a analisar e grau de
relacionamento entre elas(continuação)
- Amostras relacionadas e não relacionadas - diz
respeito a se a escolha de um elemento para fazer
parte da amostra interfere na probabilidade de
escolha de outro ou se o resultado da avaliação
de qualquer elemento da amostra possa ter
interferido na avaliação de outro.
13Análise de Dados
Relação de dependência entre as variáveis
- Nos casos em que houver mais de uma variável a
ser analisada simultaneamente, um fator também
determinante para a escolha da técnica adequada
de análise é a relação de dependência existente
entre as variáveis. - As variáveis podem ter entre si uma relação de
dependência ou de interdependência.
14 Análise de Dados
Relação de dependência entre as
variáveis(continuação)
- Numa relação de dependência, uma (ou mais de uma)
das variáveis é escolhida, segundo as condições
estabelecidas pelo problema de pesquisa, para ser
examinada, no sentido de se verificar sua
dependência de outras variáveis. - Numa relação de interdependência, o interesse
está em verificar o relacionamento existente
entre as próprias variáveis do conjunto, não
sendo nenhuma escolhida, em especial, como sendo
a variável dependente.
- Dos métodos descritivos de análise dos dados, as
medidas de posição e as medidas de dispersão
dependem apenas do tipo de escala de medição da
variável sob análise.
15Análise de Dados
Métodos descritivos de análise de dados
Medidas de posição e de dispersão para variáveis
em escalas nominais, ordinais e intervalares mais
utilizadas em pesquisas de marketing
Escala da variável Medidas de Medidas de
Escala da variável Posição Dispersão
Nominal Moda Distribuição de freqüências (absoluta e relativa)
Ordinal Mediana Quartis, decis e percentis Ordenamento
Intervalar ou Razão Média aritmética Distribuição de freqüência acumulada (absoluta e relativa) Amplitude Desvio-médio Desvio-padrão Coeficiente de variação
Obs. As medidas apresentadas são cumulativas, em
cada coluna, no sentido de cima para baixo, isto
é, todas as medidas aplicáveis às
variáveis com escalas nominais são também
aplicáveis àquelas com escalas ordinais,
e todas as aplicáveis às variáveis com escalas
ordinais o são também àquelas com escalas
intervalares.
16Análise de Dados
Divisão das medidas de posição
Medidas de posição
Tendência central
Separatrizes
Quartil
Média
Decil
Moda
Percentil
Mediana
Mediana
17Análise de Dados
Dados nominais
- Moda é o valor ou categoria da variável que
ocorre com a maior frequência. - É uma medida típica de tendência central para
variáveis nominais. - Pode ser aplicada a variáveis ordinais ou
intervalares, desde quem tenham sido agrupadas em
classes. - A classe que obtiver maior frequência é
denominada classe modal.
18Análise de Dados
Exemplo de determinação da moda
Empresa de transporteaéreo preferida Freqüênciaabsoluta
A 20
B 40
C 10
D 30
E 50
F 10
G 60 (moda)
Total 220
19Análise de Dados
Dados ordinais
- Mediana é o valor da variável que divide o grupo
em dois subgrupos de igual tamanho (é o valor da
variável correspondente ao elemento central da
distribuição). - É uma medida típica de tendência central para
variáveis ordinais. - Pode ser aplicada a variáveis intervalares.
20Análise de Dados
Dados ordinais (continuação)
- Determinação do valor da mediana
- ordenar numericamente os dados
- procurar o valor da variável correspondente ao
elemento que divide o grupo em dois subgrupos
quando a amostra tiver número ímpar de elementos - procurar a média dos valores dos dois elementos
centrais, quando a amostra possuir um número par
de elementos.
21Análise de Dados
Dados ordinais (continuação)
- Quartis são os valores da variável
correspondentes aos três elementos que dividem o
conjunto de dados ordenados em quatro subgrupos
de tamanhos iguais. - São chamados, respectivamente, de
- 1º quartil o valor da variável que divide os
elementos do grupo em 25 e 75 - 2º quartil o valor da variável que divide os
elementos do grupo em 50 e 50 - 3º quartil o valor da variável que divide os
elementos do grupo em 75 e 25.
- Decis e percentis são os valores da variável
correspondentes aos três elementos que dividem o
conjunto de dados ordenados em 10 e 100 partes
iguais. - Não são apresentadas as formas de cálculo devido
a sua pouca utilização em pesquisa de
marketing.
22Análise de Dados
Dados ordinais (continuação)
- Fórmula para cálculo dos quartis
Qn ? (Q Frac) / Frel
Onde Qn valor do quartil que se deseja
calcular Q1 1º quartil Q2 2º quartil
Mediana Q3 3º quartil ? valor médio do
intervalo de classe em que o quartil está
situado Q frequência relativa acumulada do
quartil a ser calculado. Assim, Q 0,25
para o 1º quartil, Q 0,50 para a mediana e Q
0,75 para o 3º quartil Frac frequência
relativa acumulada até a classe anterior à do
quartil considerado Frel frequência
relativa da classe em que o quartil está situado.
23Análise de Dados
Dados intervalares
- Média aritmética (ou simplesmente média)
corresponde ao valor médio de um conjunto de
dados. - É uma medida de tendência central de aplicação
exclusiva a variáveis intervalares. - Existem duas fórmulas para o cálculo da média,
dependendo da forma de apresentação dos dados.
24Escolha do Método e Métodos Descritivos de
Análise de Dados
Dados intervalares
Análise de Dados
Fórmulas para o cálculo da média
- Fórmula para o cálculo da média para dados que
não estejam na forma de distribuição de
freqüências
População ? Xi
N
Amostra ? xi n
N
n
i1
µ
i1
x
- Fórmula para o cálculo da média para dados que
estejam na forma de distribuição de freqüências
População ? N
Amostra ? n
N
n
xi
fi
fi
Xi
i1
µ
i1
x
25Análise de Dados
Medidas de dispersão
- As medidas de tendência central informam a
respeito do ponto de concentração da maioria das
respostas, porém não informam nada a respeito do
grau de concentração dessas respostas, nem da
maneira como as observações estão dispersas por
toda a distribuição. - O conhecimento da dispersão dos dados de uma
variável permite avaliar a confiabilidade de uma
medida de tendência central numa amostra como
parâmetro da população.
26 Análise de Dados
Variáveis nominais
- A distribuição de freqüência absoluta é
resultante da contagem das ocorrências de
respostas por opção possível da variável. - A distribuição de freqüência relativa é
resultante da divisão da freqüência absoluta de
cada opção pelo total de elementos da amostra. - Constituem as únicas medidas de dispersão que
podem ser aplicadas a variáveis nominais.
27Análise de Dados
Variáveis ordinais
- Ordenamento é a disposição de todos os elementos
do grupo de forma crescente ou decrescente,
segundo as avaliações efetuadas para a variável
ordinal pesquisada.
28Análise de Dados
Variáveis ordinais (continuação)
- Uma rede de supermercados deseja avaliar o quanto
três de suas lojas estão agradando a seus
clientes, para, em função dos resultados, decidir
em qual(ais) loja(s) devem ser tomadas
providências administrativas e mercadológicas. - Para tanto, realizou uma pesquisa junto a 9
consumidores de cada uma das lojas, quanto a seu
grau de satisfação, avaliado através da
atribuição de pontos para um grande número de
tópicos de um mesmo instrumento.
29Análise de Dados
Variáveis ordinais (continuação)
Dados brutos resultantes da avaliação do grau de
satisfação em três lojas de uma rede de
supermercados
Loja A Loja B Loja C
78 113 72
120 90 93
106 99 80
77 100 69
87 123 97
86 92 76
111 121 62
128 104 67
110 132 116
30Análise de Dados
Variáveis ordinais (continuação)
- Uma forma comumente encontrada em pesquisas de
marketing é efetuar a soma das pontuações na
vertical e comparar os resultados, e a partir
desses resultados decidir qual (ais) loja (s)
merece (m) mudanças. - Por tratar-se de uma variável ordinal, esta
prática está conceitualmente errada. - A prática correta é proceder a um ordenamento
conjunto, somar na vertical as várias posições
ocupadas no ordenamento conjunto e, somente a
seguir, comparar os resultados e tomar as
decisões.
31Análise de Dados
Variáveis ordinais (continuação)
Resultados do ordenamento conjunto da avaliação
do grau de satisfação em três lojas de uma rede
de supermercados
Loja A Loja B Loja C
21 7 24
5 17 15
10 13 20
22 12 25
18 3 14
19 16 23
8 4 27
2 11 26
9 1 6
Total 114 84 180
32Análise de Dados
Variáveis intervalares
- A distribuição de freqüência absoluta acumulada é
resultante da contagem acumulativa da ocorrência
de respostas até determinado valor da variável. - A distribuição de freqüência relativa acumulada
é resultante da divisão da freqüência absoluta
acumulada pelo total de elementos da amostra. - Constituem medidas de dispersão exclusivas de
serem aplicadas a variáveis intervalares.
33Análise de Dados
Variáveis intervalares (continuação)
- Amplitude de uma distribuição é uma medida de
dispersão típica de variáveis intervalares. - A amplitude é a diferença entre o maior e o menor
valor da variável observados numa amostra. - A amplitude fornece a dimensão do campo de
variação da variável.
- Fórmula para o cálculo da amplitude
A xmaior xmenor
34Análise de Dados
Variáveis intervalares (continuação)
- Desvio-médio
- O desvio-médio é também uma medida de dispersão
típica de variáveis intervalares e indica o grau
de dispersão do total dos indivíduos num grupo,
em relação a determinada variável. - O desvio-médio é a média aritmética das
diferenças (em módulo, ou seja, despreza-se o
sinal) entre cada observação e a média das
observações. - Serve para comparar duas distribuições com igual
média e saber qual das duas está mais ou menos
dispersa. - Fórmula para o cálculo do desvio-médio
35Análise de Dados
Variáveis intervalares (continuação)
- Variância é a soma dos quadrados das diferenças
entre cada observação e a média, dividida pelo
número de observações. - Desvio-padrão é a raiz quadrada da variância.
36Análise de Dados
Variáveis intervalares (continuação)
Fórmula para o cálculo do desvio-padrão
Amostra
População
Computacional
Original
Computacional
Dados brutos
Original
2
2
?x
?(x - x)2
?(X - µ)2
?x2
?X2
?X
s
S
S
s
N
n
n
n
N
N
Dados em distribuição de freqüência
2
2
?f(x)2
?fx
?f(X)2
?fX
S
s
n
n
N
N
37Análise de Dados
Variáveis intervalares (continuação)
- Coeficiente de variação
- O desvio-padrão é uma medida absoluta da
dispersão e é apresentado nas mesmas unidades de
medida originais em que os dados foram coletados.
- Pode existir a necessidade da comparação da
dispersão de diversas distribuições que não
possuam as mesmas médias ou que não estejam nas
mesmas escalas ou unidades de medida e que, por
isso, não podem ser feitas com os desvios-padrão.
- O coeficiente de variação permite efetuar essas
comparações. - O coeficiente de variação é uma medida abstrata
da dispersão e é obtido através da divisão do
desvio-padrão pela média
38Análise de Dados
Métodos de inferência
- A inferência diz respeito a como se podem assumir
conclusões para toda uma população a partir das
medições e da análise de apenas uma parte dela,
de forma que o risco de se realizarem conclusões
incorretas possa ser medido.
- A inferência diz respeito a dois tipos de
problemas - estimar os parâmetros de uma população
- realizar testes de hipóteses.
39Análise de Dados
Métodos de inferência (continuação)
- Os métodos de inferência estatística
possibilitam - assumir, com determinada probabilidade conhecida
de erro, a média (ou a porcentagem) calculada
numa amostra como estimativa do parâmetro da
população - realizar os testes de hipóteses a respeito, por
exemplo, da diferença da média entre duas
distribuições.
40Análise de Dados
Testes de hipóteses
- Procedimentos para realização do teste de
hipóteses - estabelecer a hipótese nula (H0) e a hipótese
alternativa (H1), tendo em vista a hipótese da
pesquisa - selecionar o teste estatístico adequado à
situação - estabelecer um nível de significância
- determinar ou assumir a distribuição amostral da
prova estatística sob a hipótese nula (H0)
41Análise de Dados
Testes de hipóteses (continuação)
- Procedimentos para realização do teste de
hipóteses - com base em 2, 3 e 4 definir a região de rejeição
da hipótese nula (H0) - calcular o valor da prova estatística a partir
dos dados da (s) amostra (s) - tomar a decisão quanto à não-rejeição ou à
rejeição da hipótese nula (H0) e,
conseqüentemente, a adoção ou não da hipótese
alternativa (H1).
42Análise de Dados
Métodos da inferência testes estatísticos
apropriados segundo os métodos estatísticos, as
escalas de mensuração e o número de amostras e
seu relacionamento
Método Escala de mensuração da variável TESTES DE INFERÊNCIA TESTES DE INFERÊNCIA TESTES DE INFERÊNCIA TESTES DE INFERÊNCIA TESTES DE INFERÊNCIA
Método Escala de mensuração da variável Uma amostra Duas amostras Duas amostras Várias amostras Várias amostras
Método Escala de mensuração da variável Uma amostra Relacionadas Não relacionadas Relacionadas Não relacionadas
Não paramétricos Nominal Binomial?2 Uma amostra McNemar ?2 Duas amostras Cochran Q ?2 Várias amostras independentes
Não paramétricos Ordinal Kolmogorov-Smirnov Wilcoxon MedianaMann-Whitney U Kolmogorov-Smirnov Análise da variância por postos de Friedman Mediana várias amostras independentesAnálise da variância numa direção de Kruskal Wallis
Paramétricos Intervalar ou Razão zt tr Diferença demédiasztRegressãot Análise da variância
43Análise de Dados
Testes de hipóteses (continuação)
Regiões de rejeição para testes unicaudais e
bicaudais
p 0,05
Região de aceitação de H0
Região de rejeição de H0
a. Região de rejeição de um teste unicaudal
quando a 0,05
Região de aceitação de H0
p 0,025
p 0,025
Região de rejeição de H0
Região de rejeição de H0
b. Região de rejeição de um teste bicaudal quando
a 0,05
44Análise de Dados
Testes de hipóteses (continuação)
- Observação
- A seguir, serão apresentados, como exemplo, três
modelos de testes de hipóteses teste para uma
amostra teste para duas amostras e teste para
várias amostras, pois todos os outros testes
seguem o mesmo padrão de raciocínio.
45Análise de Dados
Teste para uma amostra variável nominal
- Teste qui-quadrado de uma amostra
- É utilizado em pesquisas de marketing para
verificar se a distribuição de freqüência
absoluta observada de uma variável em uma amostra
é significativamente diferente da distribuição de
freqüência absoluta esperada (teórica ou
conhecida). - Exemplo de aplicação
- Sabendo-se qual tem sido a distribuição da
preferência dos consumidores em relação aos
quatro tamanhos de embalagens de determinado
produto, verificar se a distribuição da
preferência observada numa amostra, nos tamanhos
de embalagem, para uma nova marca do produto a
ser lançada difere significativamente da
distribuição conhecida.
46Análise de Dados
Teste para uma amostra variável
nominal (continuação)
- Condições para utilização
- Exclusivamente para variáveis nominais ou
ordinais. - Observações independentes.
- Não pode ser utilizado se mais de 20 das
freqüências absolutas forem inferiores a 5 ou se
qualquer freqüência for inferior a 1. Nestes
casos, a solução para possibilitar a utilização
do teste é agrupar células até terem as condições
atendidas.
- Teoria/ Conceito
- É uma prova do tipo aderência, isto é, o quanto a
distribuição observada (Oi) se ajusta à
distribuição esperada (Ei). - Através da comparação entre as Ois e as Eis,
aceita-se ou rejeita-se H0, a determinado nível
de significância a.
47Análise de Dados
Teste para uma amostra variável
nominal (continuação)
- Procedimento sumarizado do teste
- Determinar H0 como sendo a negativa da existência
de diferenças entre a distribuição de
freqüência observada e a esperada. - Estabelecer um nível de significância a.
- Distribuir as freqüências observadas Ois pelas k
categorias e, sob a hipótese H0, determinar a
distribuição de freqüência esperada Eis pelas k
categorias.
- Determinar a região de rejeição de H0. Calcular
os graus de liberdade (gl), - e procurar, a seguir, na Tabela C (SIEGEL,
1981, p. 280) o valor do qui-quadrado tabelado
correspondente para a e gl.
Graus de liberdade gl k 1, sendo k número
de categorias
48Análise de Dados
Teste para uma amostra variável
nominal (continuação)
- Decisão. Calcular o valor de qui-quadrado a
partir dos Ois, - segundo a fórmula
- Onde
- Oi número de observações classificadas na
categoria i - Ei número de casos na categoria i, sob H0
(distribuição teórica) -
-
- Comparando o qui-quadrado calculado com o
qui-quadrado - tabelado, decidir-se pela aceitação ou
rejeição de H0.
49Análise de Dados
Teste para uma amostra variável
nominal (continuação)
- Exemplo
- Um gerente de produto pretende verificar se a
posição que o produto ocupa na prateleira dos
supermercados tem influência sobre a quantidade
vendida, através de um experimento. - Um supermercado possui, geralmente, prateleiras
com sete divisões verticais, sendo a posição 1
correspondente à mais próxima do piso. - Para a realização do experimento, o gerente
conseguiu que, durante um dia, todas as posições
verticais da prateleira fossem ocupadas pelo seu
produto.
50Análise de Dados
Teste para uma amostra variável
nominal (continuação)
- Ao final do dia, as tabulações das vendas por
posição foram as seguintes
Posição Posição Posição Posição Posição Posição Posição Total
1 2 3 4 5 6 7 Total
Vendas (unidades) Oi 10 11 15 25 29 19 17 126
Vendas (unidades) Ei 18 18 18 18 18 18 18 126
- Com base nesses dados, o gerente quer saber se as
diferenças verificadas nas posições são
significativas, a ponto de poder montar, com
sucesso, um plano para induzir os
supermercadistas a colocar seu produto em
determinadas posições.
51Análise de Dados
Teste para uma amostra variável
nominal (continuação)
- Procedimentos para o teste
- Determinação de H0 não há diferenças
significativas entre as posições 4 e 5 na
prateleira. - H1 as diferenças observadas para as
posições 4 e 5 são significativamente diferentes
para melhor em relação às demais posições (Teste
unicaudal). - Nível de significância a 0,02.
- Distribuição de freqüências esperadas sob H0. Se
não houver diferenças entre as posições, a
distribuição de freqüências será de 18 unidades
por posição, conforme a tabela anterior. - Região de rejeição. Para a 0,02 e gl 7 1
6, o valor (Tabela C, SIEGEL, 1981, p. 280) de
qui-quadrado tabelado é 15,03. Portanto, a região
de rejeição é a correspondente a todas as
ordenadas maiores ou iguais a 15,03 para o
qui-quadrado calculado.
52Análise de Dados
Teste para uma amostra variável
nominal (continuação)
- Decisão.
- Cálculo de qui-quadrado
- (10 18)2 (11 18)2 (15 18)2 (25
18)2 (29 18)2 - (19 18)2 (17 18)2 / 18 16,3
- Tendo em vista que o qui-quadrado calculado
(16,3) é maior que o tabelado (15,03), rejeitamos
H0 em prol de H1. - Portanto, há diferença significativa, no nível de
0,02, para as posições 4 e 5 nas prateleiras dos
supermercados e, por isso, o gerente deve
realizar o plano promocional.
53Análise de Dados
Teste para duas amostras não relacionadas
variável nominal (continuação)
- Teste qui-quadrado para duas ou mais amostras (o
caso de mais de duas amostras foi juntado, pois a
metodologia é a mesma) - É utilizado em pesquisas de marketing para
verificar se as distribuições absolutas de duas
ou mais amostras não relacionadas diferem
significativamente em relação a determinada
variável.
- Exemplo verificar se as classes socioeconômicas
diferem significativamente no consumo de
determinado produto verificar se a escolha do
tamanho do automóvel difere significativamente em
função do tamanho da família etc.
54Análise de Dados
Teste para duas amostras não relacionadas
variável nominal (continuação)
- Condições para utilização
- Dados nominais.
- Distribuição dos dados em freqüências absolutas.
- Amostras não relacionadas ou independentes.
- Não pode ser utilizado se mais de 20 das
freqüências absolutas forem inferiores a 5 ou se
qualquer freqüência for inferior a 1. Nestes
casos, a solução para tornar a utilização do
teste possível é agrupar células até ter as
condições atendidas.
- Teoria/ Conceito
- A prova qui-quadrado para duas ou mais amostras
não relacionadas é, semelhantemente à prova
qui-quadrado de uma amostra, uma prova não
paramétrica do tipo aderência, isto é, o quanto a
distribuição observada (Oi) se ajusta à
distribuição esperada (Ei). Através da comparação
entre as Ois e Eis, aceita-se ou rejeita-se H0,
em determinado nível de significância a.
55Análise de Dados
Teste para duas amostras não relacionadas
variável nominal (continuação)
- Procedimento sumarizado do teste
- Determinar H0 como sendo a negativa da existência
de diferenças entre a distribuição de freqüência
absoluta observada e a esperada. - Estabelecer um nível de significância a.
- Distribuir as freqüências absolutas das r
variáveis pelas j categorias. Sob a hipótese H0,
determinar a distribuição de freqüência absoluta
esperada das r variáveis pelas k categorias.
Verificar se as restrições ao uso do qui-quadrado
quanto ao número de freqüências por células não
estão ocorrendo. - Determinar a região de rejeição de H0. Determinar
os graus de liberdade (gl), sendo r o número de
linhas e k o número de colunas.
Graus de liberdade gl (r 1) (k 1)
Procurar a seguir, na Tabela C (SIEGEL,
1981, p. 280) o valor do qui-quadrado tabelado (
?2) correspondente para a (teste unicaudal) ou
a/2 (teste bicaudal) e gl. Todos os valores
maiores ou iguais ao valor tabelado correspondem
a ordenadas da região de rejeição de H0.
t
56Análise de Dados
Teste para duas amostras não relacionadas
variável nominal (continuação)
- Decisão. Calcular o valor de qui-quadrado
utilizando a seguinte fórmula - Onde
- Oij número de observações classificadas,
simultaneamente, na linha i e na coluna j - Eij número de casos esperados
simultaneamente na linha i e na coluna j , sob H0
(distribuição teórica)o cálculo de cada Eij é
obtido pela multiplicação do total de observações
da linha pelo total de observações da coluna,
dividido pelo total de observações.
57Análise de Dados
Teste para duas amostras não relacionadas
variável nominal (continuação)
- Exemplo
- Um gerente de concessionárias de uma montadora de
automóveis, analisando o desempenho de suas 417
concessionárias, em relação, simultaneamente, a
inúmeros itens, classificou-os em baixo, médio e
alto desempenho. - A empresa mantém um intenso programa de
treinamento dirigido aos proprietários e aos
funcionários das concessionárias. - Esse mesmo gerente, analisando os quadros de
atendimento aos programas de treinamento, notou
que um grande número de concessionárias não tem
atendido regularmente aos programas.
58Análise de Dados
Teste para duas amostras não relacionadas
variável nominal (continuação)
- Exemplo
- Interessado em saber se há relação entre o
atendimento aos programas de treinamento e o
desempenho das concessionárias, solicitou que as
duas informações fossem cruzadas, o que resultou
na seguinte tabela
Atendimento do treinamento Atendimento do treinamento Atendimento do treinamento Atendimento do treinamento Atendimento do treinamento Atendimento do treinamento
Desempenho da concessionária Não Não Sim Sim Totais
Desempenho da concessionária Oij Eij Oij Eij Totais
Baixo 14 7,3 7 13,7 21
Médio 21 19,1 34 35,9 55
Alto 110 118,6 231 222,4 341
Totais 145 145 272 272 417
59Análise de Dados
Teste para duas amostras não relacionadas
variável nominal (continuação)
- Procedimentos para o teste
- H0 não existe diferença significativa entre o
desempenho das concessionárias que atenderam aos
programas de treinamento e o das que não. - H1 há diferenças significativas entre as
concessionárias que atenderam aos programas de
treinamento e as outras (Teste unicaudal). - Nível de significância a 0,01.
- A distribuição das freqüências absolutas
observadas (Oij) das r variáveis pelas k
categorias corresponde à tabela anterior
solicitada ao gerente. Sob a hipótese H0, a
determinação da distribuição de freqüência
absoluta esperada (Eij) das r variáveis pelas k
categorias segue o seguinte raciocínio supondo
que o nível de desempenho seja designado pela
variável A e o atendimento ao treinamento pela
variável B, teremos as seguintes possibilidades
60Análise de Dados
Teste para duas amostras não relacionadas
variável nominal (continuação)
- Procedimentos para o teste
- A1 Baixo desempenho.
- A2 Médio desempenho.
- A3 Alto desempenho.
- B1 Não-atendimento ao treinamento.
- B2 Atendimento ao treinamento.
- Como as variáveis A e B são independentes,
então a probabilidade de - ocorrer o evento A1B1 (concessionárias com
baixo desempenho e que - não atenderam ao treinamento) é dada pelo
produto das - probabilidades independentes para A1 e B1
- P(A1 B1) P(A1) P(B1)
- P(A1) 21/ 417 e P(B1) 125/ 41
- e P(A1B1) 21/ 417 125/ 417 7,3, que
corresponde à freqüência - absoluta esperada da respectiva célula. E
assim, sucessivamente, - calculamos todas as demais.
61Análise de Dados
Teste para duas amostras não relacionadas
variável nominal (continuação)
A seguinte fórmula facilita esses cálculos
Eij A multiplicação do total de observações
da linha pelo total de observações da
coluna dividido pelo total de observações.
Assim, para a mesma célula já calculada,
teríamos Eij 21 145/ 417
7,3 Efetuando todos os cálculos, teremos os dados
constantes da tabela anterior, com as freqüências
absolutas observadas e esperadas.
- Determinação da região de rejeição de H0.
- Procurar na tabela de qui-quadrado o valor
correspondente a a 0.01 e gl (3 1) (2 1)
2. Esse valor é ?2 9,21. Desta forma, todas
as ordenadas com valores maiores ou iguais
estarão na região de rejeição de H0.
t
62Análise de Dados
Teste para duas amostras não relacionadas
variável nominal (continuação)
- Decisão. Calcular o valor do qui-quadrado a
partir das Oijs e das Eijs, segundo a fórmula
apresentada -
- (14 7,3)2/ 7,3 (21 19,1)2/
19,1 (110 118,6)2/ 118,6 - (7 13,7)2/ 13,7 (34
35,9)2/35,9 (231 222,4)2/222,4
10,67
Como o qui-quadrado calculado (10,67) é maior
que o tabulado (7,3) para a 0,02, H0 é
rejeitada em favor de H1. Portanto, no nível de
confiança de a 1,01, as concessionárias que
atenderam aos programas de treinamento tiveram um
desempenho significativamente melhor do que as
outras.
63Análise de Dados
Teste para várias amostras não relacionadas
variável ordinal
- Análise da variância por classificação numa só
direção de Kruskal-Wallis - A utilização em pesquisas de marketing da análise
da variância de Kruskal-Wallis é a mesma do teste
Mann-Whitney U para situações em que amostras de
mais de duas variáveis independentes estejam
sendo comparadas. - É a contrapartida não paramétrica da análise da
variância num só sentido, cuja utilização exige
que as distribuições das populações sejam normais
e com variâncias homogêneas.
64Análise de Dados
Teste para várias amostras não relacionadas
variável ordinal (continuação)
- Condições para utilização
- Serve para a comparação de três ou mais variáveis
independentes. - Medições ao menos ordinais.
- Escalas de medição idênticas nos diversos grupos.
- Os dados precisam ser ordenados.
65Análise de Dados
Teste para várias amostras não relacionadas
variável ordinal (continuação)
- Teoria/ Conceito
- O procedimento para o teste compreende a
combinação dos escores das n amostras num único
rol ordenado do maior para o menor escore,
numerados, respectivamente, de 1 a n. - A seguir, todas as classificações obtidas para os
escores de cada amostra são somadas.
- Quanto mais parecidas forem essas somas, mais
parecidas serão as amostras e, conseqüentemente,
as populações de onde foram extraídas
analogamente, quanto mais diferentes forem, mais
diferentes serão as amostras e a população de
onde foram extraídas. - O teste Kruskal-Wallis determina se as somas dos
escores são tão diferentes que as amostras e as
populações de onde foram extraídas não são
idênticas, a determinado nível de confiabilidade.
66Análise de Dados
Teste para várias amostras não relacionadas
variável ordinal (continuação)
- Procedimento sumarizado do teste
- Definir H0 como não havendo diferenças entre os
escores das n variáveis consideradas. - Definir um nível de confiabilidade a para a
realização do teste.
- Para amostras com tamanho n gt 5, sob H0, a
estatística de H, usada para o cálculo do teste,
é dada pela seguinte fórmula, cuja distribuição
é a mesma de qui-quadrado com gl k 1
- Onde
- k número de amostras
- nj número de casos na j-ésima
coluna - n número de casos na combinação
de todas as amostras - Rj soma das classificações na
j-ésima amostra
soma de todos os quadrados de Rj divididos por
nj
67Análise de Dados
Teste para várias amostras não relacionadas
variável ordinal (continuação)
- Procedimento sumarizado do teste
- Região de rejeição. Corresponde a todos os
valores de H calculados que forem maiores ou
iguais ao qui-quadrado tabelado (Tabela C,
SIEGEL, 1981, p. 280) para a e gl k 1. - Decisão. Calcular o valor de H utilizando a
fórmula anteriormente apresentada. - Se H for maior ou igual ao qui-quadrado
tabelado para a e gl k 1, rejeite H0 em prol
de H1.
68Análise de Dados
Teste para várias amostras não relacionadas
variável ordinal (continuação)
- Exemplo
- Para verificar a necessidade de reformulações em
três de suas lojas, uma cadeia de supermercados
encomendou uma pesquisa para avaliar o grau de
satisfação dos consumidores de cada uma das
lojas. - A escala utilizada pela agência de pesquisa foi a
do tipo Likert, composta por uma série de
afirmações às quais os consumidores apontam o seu
grau de concordância. - De cada uma das três lojas foram selecionados
aleatoriamente nove consumidores.
69Análise de Dados
Teste para várias amostras não relacionadas
variável ordinal (continuação)
Resultado tabulado das avaliações efetuadas
Avaliações Avaliações Avaliações Ordenação conjunta Ordenação conjunta Ordenação conjunta
A B C A B C
78 113 72 21 7 24
120 90 93 5 17 15
106 99 80 10 13 20
77 100 69 22 12 25
87 123 97 18 3 14
86 92 76 19 16 23
111 121 62 8 4 27
128 104 67 2 11 26
110 132 116 9 1 6
Totais Totais Totais 114 84 180
70Análise de Dados
Teste para várias amostras não relacionadas
variável ordinal (continuação)
- Procedimentos para o teste
- H0 não há diferenças na satisfação dos
consumidores em relação às três lojas
consideradas. - H1 há diferenças significativas na satisfação
dos consumidores das três lojas (Teste bicaudal). - a 0,10.
- A distribuição de H, para H0 , é a mesma de
qui-quadrado com gl 3 1 2. - Região de rejeição. Corresponde a todos os
valores de H calculados que forem maiores ou
iguais ao qui-quadrado tabelado para a/ 2 0,05
e gl 2. Portanto, a região de rejeição é
compreendida por todos os valores maiores ou
iguais a 5,99.
71Análise de Dados
Teste para várias amostras não relacionadas
variável ordinal (continuação)
- Procedimentos para o teste
- Decisão. Calculando o valor de H, utilizando a
fórmula
teremos
72Análise de Dados
Teste para várias amostras não relacionadas
variável ordinal (continuação)
- Procedimentos para o teste
- Conclusão
- Como Hc 8,51 é maior que o qui-quadrado
tabelado 5,99, rejeitamos H0 em prol de H1. - Portanto, há diferenças significativas, no
nível de 0,10, no grau de satisfação dos
consumidores para as três lojas, sendo a loja C a
que apresenta maiores problemas, seguida pela
loja A. A loja C deveria receber reformulações no
seu funcionamento.
73Análise de Dados
Inferência estatística
- Dois diferentes testes de inferência estatística
são apropriados para variáveis intervalares o
teste z e o teste t. - A escolha entre um e outro dependerá do
conhecimento do desvio-padrão da população e do
tamanho da amostra. - Esses testes são utilizados em hipóteses a
respeito da média da população, das diferenças
entre médias, das proporções na população, das
diferenças entre proporções e do coeficiente de
regressão.
74Análise de Dados
Teste da média para uma amostra variável
intervalar
- Teste z
- O teste z é utilizado em pesquisas de marketing
para comparar a média de uma amostra com a média
hipotética da população e decidir com base na
média da amostra se a média hipotética da
população pode ser aceita como verdadeira.
75Análise de Dados
Teste da média para uma amostra variável
intervalar (continuação)
- Condições para utilização
- Exclusivamente para variáveis intervalares.
- Qualquer tamanho da amostra se o desvio-padrão da
população for conhecido. - Somente para amostras de tamanho igual ou maior
do que 30 elementos, se o desvio-padrão da
população não for conhecido. Para amostras de
tamanho menor do que 30, o teste t será o mais
recomendado.
76Análise de Dados
Teste da média para uma amostra variável
intervalar (continuação)
- Teoria/ Conceito
- O teste consiste em verificar se a média obtida
na amostra (?) pode ser aceita como a média
hipotética da população (µ).
_
77Análise de Dados
Teste da média para uma amostra variável
intervalar (continuação)
- Procedimento sumarizado do teste
- Determinar H0 como sendo a média da amostra igual
à média hipotética da população (ou a negativa da
existência de diferença entre essas duas médias).
Conseqüentemente, H1, a hipótese alternativa,
será a existência de diferença entre essas duas
médias (Teste bicaudal). Ou que a média da
amostra é maior (ou menor) que a média hipotética
da população (Teste unicaudal). - Estabelecer um nível de significância.
- Calcular os valores de z, segundo as fórmulas
Caso 1 a variância da população é conhecida
78Análise de Dados
Teste da média para uma amostra variável
intervalar (continuação)
- Procedimento sumarizado do teste
Caso 2 a variância da população é desconhecida
79Análise de Dados
Teste da média para uma amostra variável
intervalar (continuação)
- Procedimento sumarizado do teste
- Determinar a região de rejeição de z ao nível de
significância a estabelecido. Procurar na tabela
da distribuição padronizada de z o valor crítico
Zt para o nível de significância estabelecido. - Decidir comparando os valores de Zc e Zt. Se o
valor de Z calculado (Zc) for maior que de Z
tabelado (Zt), a hipótese nula (H0) é rejeitada e
a hipótese alternativa (H1) é aceita.
80Análise de Dados
Teste da média para uma amostra variável
intervalar (continuação)
- Procedimento sumarizado do teste
- Esses mesmos passos devem ser utilizados quando
os dados forem apresentados em proporção, e
a fórmula para z a ser utilizada quando o
desvio-padrão da variância for conhecida e n gt 30
é - Onde
- p proporção de ocorrência na amostra
- P proporção hipotética de ocorrência na
população - S desvio padrão da proporção
- n número de elementos da amostra.
81Análise de Dados
Teste da média para uma amostra variável
intervalar (continuação)
- Exemplo
- O comprador de uma rede de 500 farmácias está
interessado em verificar a viabilidade de adotar
a comercialização de uma nova marca de sabonete
de um fornecedor tradicional. - Sua experiência anterior, em função da categoria
do produto e da margem de comercialização
oferecida, indica que para essa comercialização
ser viável e lucrativa é necessário vender no
mínimo uma média de 100 unidades/ loja/ dia. - O fornecedor concordou em fornecer uma partida do
produto que permitiu a realização de um teste de
vendas numa amostra probabilística de 32 lojas da
rede. - Com base nos dados da tabela a seguir, o
comprador deve decidir se adota ou não a
comercialização dessa nova marca de sabonete.
82Análise de Dados
Teste da média para uma amostra variável
intervalar (continuação)
Os resultados obtidos de vendas por loja
Vendas Vendas Vendas Vendas Vendas Vendas
Loja x x2 Loja x x2
1 116 13.456 17 110 12.100
2 105 11.025 18 70 4.900
3 120 14.400 19 95 9.025
4 93 8.649 20 90 8.100
5 132 17.424 21 120 14.400
6 114 12.996 22 115 13.225
7 97 9.409 23 125 15.625
8 108 11.664 24 98 9.604
9 86 7.396 25 103 10.609
10 123 15.129 26 112 12.544
11 105 11.025 27 92 8.464
12 102 10.404 28 101 10.201
13 123 15.129 29 109 11.881
14 88 7.744 30 132 17.424
15 114 12.996 31 119 14.161
16 94 8.836 32 101 10.201
83Análise de Dados
Teste da média para uma amostra variável
intervalar (continuação)
84Análise de Dados
Teste da média para uma amostra variável
intervalar (continuação)
- Procedimento para o teste
- Determinar a região de rejeição de z. Procurar na
tabela da distribuição padronizada de z o valor
correspondente ao nível de significância de 0,05,
que é, para o teste unicaudal, 1,65. - Decidir comparando os valores de Zc e Zt. Como o
valor de Z calculado (2,281) é maior que o de Z
tabelado (1,65), a hipótese nula (H0) é rejeitada
e a hipótese alternativa (H1) é aceita para a
0,05. Portanto, a nova marca de sabonete deverá
ser aceita para ser comercializada pela rede de
farmácias.
Observação Teste t da média para uma amostra a
utilização em pesquisas de marketing do teste t é
análoga à do teste z.
85Análise de Dados
Teste para duas amostras não relacionadas
variável intervalar
- Teste z da diferença entre duas médias
- O teste z da diferença entre duas médias é
utilizado em pesquisas de marketing para
verificar se a diferença observada entre duas
médias obtidas de amostras não relacionadas é
suficientemente grande para ser considerada
significativa.
- Condições para utilização
- Exclusivamente para variáveis intervalares.
- Medições devem ser efetuadas na mesma unidade ou
escala. - Qualquer tamanho de amostras, se o desvio-padrão
da população for conhecido. - Para amostras de tamanho maior do que 30, se o
desvio-padrão da população não for conhecido. Se
o tamanho da amostra for menor ou igual a 30, o
teste recomendado é o t.
86Análise de Dados
Teste para duas amostras não relacionadas
variável intervalar (continuação)
- Teoria/ Conceito
- O princípio que norteia este teste é o de que, se
as médias amostrais de duas populações são
normalmente distribuídas, a distribuição de sua
soma ou diferença também será normalmente
distribuída, desde que as populações que lhes
deram origem sejam normalmente distribuídas ou as
amostras sejam maiores do que 30.
- Neste caso, o cálculo do teste será efetuado
pela fórmula
87Análise de Dados
Teste para duas amostras não relacionadas
variável intervalar (continuação)
88Análise de Dados
Teste para duas amostras não relacionadas
variável intervalar (continuação)
- Exemplo
- Um fabricante de cigarros realizou uma pesquisa
entre 100 fumantes em duas classes
socioeconômicas e constatou que os fumantes da
classe socioeconômica A/B fumam em média 20
cigarros/ dia e os da classe C/D uma média de 25
cigarros/ dia. - Sabe-se de estudos anteriores que o desvio-padrão
da população de fumantes na classe A/B é 10 e na
classe C/D é 14. - Esse fabricante deseja saber se a diferença
verificada no consumo de cigarros entre as duas
amostras deverá ser aceita como verdadeira na
população ou atribuída apenas a variações
eventuais.
89Análise de Dados
Teste para duas amostras não relacionadas
variável intervalar (continuação)
- Procedimento para o teste
- Determinar H0 não há diferença significativa
entre fumantes das classes A/B e C/D, ou seja,
µ1 µ2. - H1 há diferença significativa, ou seja, µ1
? µ2. - É um teste bicaudal.
- Estabelecer um nível de significância. Seja o
nível de significância de a 0,05.
- Calcular os valores de z utilizando as fórmulas
apresentadas no item teoria/ conceito
90Análise de Dados
Teste para duas amostras não relacionadas
variável intervalar (continuação)
- Procedimento para o teste
- Determinar a região de rejeição de z. Procurar na
tabela da distribuição padronizada de z o valor
correspondente a 0,025 (0,05/ 2 por ser teste
bicaudal), que é 1,96. - Decidir comparando os valores de Zc e Zt. Como o
valor de Z calculado (2,90) excede o de Z
tabelado (1,96) para 0,05 de significância, a
hipótese nula (H0) é rejeitada e aceita-se a
hipótese alternativa H1. Portanto, há uma
diferença estatisticamente significativa no nível
de 0,05 no consumo médio diário de cigarros entre
as duas classes consideradas.
Observação Teste t da diferença entre duas
médias a utilização em pesquisa de marketing do
teste t da diferença de duas médias é análoga à
do teste z.
91Análise de Dados
Resumo dos testes z e t sobre inferências da
média para uma amostra e duas amostras não
relacionadas
s conhecido s desconhecido
Uma amostra
n lt 30
n qualquer
-
-
x
µ
S
-
T
onde Sx
-
-
Sx
µ
x
-
n
N(0,1)
Z
s
-
x
-
-
(xi - x)
?
2
e S
n
ou
utilizar a tabela t para gl n - 1
-
µ
x
-
Z
n 30
s
-
/
n
-
x - µ
x - µ
Z
ou
Z
-
Sx
S /
n
92Análise de Dados
Resumo dos testes z e t sobre inferências da
média para uma amostra e duas amostras não
relacionadas (continuação)
s conhecido s desconhecido
Duas amostras não relacionadas
n lt 30
n qualquer
-
-
(x1 - x2)
-
(µ1 - µ2)
T
-
Sx - x
-
2
1
-
-
(x1 - x2)
-
(µ1 - µ2)
N(0,1)
n 30
Z
-
-
sx - sx
1
2
-
-
(x1 - x2)
-
(µ1 - µ2)
Z
-
Sx - x
-
2
1
onde
-
-
Sx - x
-
-
Sx
Sx
2
2
2
1
1
2
S2
S2
1
2
n1
n2
utilizar a tabela t para gl n1 n2 - 2
93Análise de Dados
Teste para duas amostras relacionadas variável
intervalar
- Teste tr
- O teste tr é o indicado para o caso de duas
amostras relacionadas.
- Exemplo
- Um fabricante de vinhos pretende lançar uma nova
marca. - Desenvolveu duas versões para a embalagem e a
adoção de uma ou outra deveria ser decidida
através de pesquisa. - Para realizar a pesquisa, solicitou que o novo
vinho fosse engarrafado em cada uma das versões
de embalagem. - Essas duas versões foram colocadas à venda numa
amostra aleatória de cinco lojas de uma rede de
supermercados.
94Análise de Dados
Teste para duas amostras relacionadas variável
intervalar (continuação)
Resultados das vendas do vinho nas duas embalagens
Vendas em unidades Vendas em unidades
Loja Embalagem 1 Embalagem 2 Diferença (d)
1 72 67 5
2 60 52 8
3 65 60 5
4 43 41 2
5 54 50 4
- Com base nesses dados, qual embalagem deve ser
adotada para o novo vinho?
95Análise de Dados
Teste para duas amostras relacionadas variável
intervalar (continuação)
- Procedimentos para o teste
- Determinar H0.
- H0 não há diferença entre as médias de
venda das duas embalagens. - H1 há diferença significativa entre as
médias de venda das duas embalagens. - Portanto, um teste do tipo bicaudal.
- Estabelecer um nível de significância. Seja o
nível de significância de a 0,05.
- Calcular os valores de t. O cálculo de t, neste
caso, é obtido através da seguinte fórmula
96Análise de Dados
Teste para duas amostras relacionadas variável
intervalar (continuação)
- Procedimentos para o teste
97Análise de Dados
Teste para duas amostras relacionadas variável
intervalar (continuação)
- Procedimentos para o teste
- Aplicando estas formulações aos dados da
tabela, teremos os - seguintes resultados
n qualquer
n qualquer
onde
n qualquer
onde
98Análise de Dados
Teste para duas amostras relacionadas variável
intervalar (continuação)
- Procedimentos para o teste
- Determinar a região de rejeição de t . Procurar
na tabela da distribuição padronizada de t o
valor correspondente a a/ 2 0,025 (pois o
teste é bicaudal) para gl n 1 5 1 4,
que é 2,776. - Decidir comparando os valores de Tc e Tt. Como o
valor de T calculado (1,6) é menor que o de T
tabelado (2,776), a hipótese nula (H0) é aceita
no nível de significância de 0,05. Portanto, a
diferença observada na maior compra da embalagem
2 não é significativa, e a adoção de qualquer uma
das embalagens é indiferente.
99Análise de Dados
Métodos