Title: Capнtulo 6
1Capítulo 6
- Preparando os dados para data mining
- Os dados são a espinha dorsal do data mining e
KDD - Usualmente os dados não estão disponíveis de uma
forma pronta para data mining - O maior desafio para os mineradores é preparar
os dados de uma forma adequada para modelagem - Muitos negociadores mantém dados armazenados e
facilidades de acesso DATA WAREHOUSE
2- Data warehousing é definido como um
gerenciamento de dados centralizado e que permite
ao analista acessar, atualizar e manter os dados
para análises e relatórios - Data warehouse melhora a eficiência em extrair e
preparar dados para data mining - Data warehouse populares usam base de dados
relacionais (Oracle, Informix, Sybase), e
arquivos com formato de computadores pessoais
(planilhas eletrônicas e MS Access) - Aproximadamente 70 do tempo de operação de data
mining é gasto com a preparação dos dados obtidos
de diferentes fontes assim considerável tempo e
esforço deveria ser gasto na preparação de
tabelas de dados para estar adequado para
modelagem em data mining.
3Dados necessários em data mining
Dados resumidos não são adequados para data
mining pois não se tem informação sobre os
consumidores ou produtos individualmente. Por
exemplo, para identificar os perfis dos
consumidores, os registros individuais dos
consumidores que incluem as informações são
necessários para criar os cluster baseados em
seus padrões de aquisição. De forma similar,
para identificar as características dos
consumidores lucrativos num modelo preditivo,
variáveis target (objetivo, resposta) e de
entrada (preditoras), devem ser incluídas. Assim,
para resolver problemas específicos, dados
adequados devem ser extraídos de data warehouses
ou dados novos coletados que forneçam as
exigências do data mining.
4Estrutura ideal dos dados para data mining
As linhas (que são os casos ou observações) e as
colunas (variáveis) similar ao formato de arquivo
de uma planilha eletrônica, é necessário para
data mining. As linhas usualmente contém
informações relativos aos consumidores
individualmente ou aos produtos adquiridos. As
colunas descrevem os atributos (variáveis) dos
casos individuais.
Informações únicas dos consumidores, como número
do telefone, devem ser excluídas das técnicas de
modelagem. Entretanto, estas variáveis com
valores únicos (individuais) podem ser utilizadas
como variáveis ID (identificadoras), para
identificar casos individuais e excluir valores
discrepantes e extremos. Também não é
recomendável incluir variáveis preditoras
contínuas altamente correlacionadas (coeficiente
de correlação maior do que 0,95) nos modelos
preditivos, pois podem produzir modelos instáveis
que trabalham com a particular amostra usada.
5Colunas com apenas um valor
Não contém informação que possa fazer a distinção
entre linhas da base de dados. Como ela não
representa informação dever der desprezada para
fins de mineração de dados.
Coluna com grande predominância de apenas um
único valor
Questão quando esta(s) coluna(s) podem ser
desprezada(s)? 1O ) praticamente todos os
registros devem ter o mesmo valor e 2O) poucos
registros com valores diferentes e que
representam uma porção (muito pequena para ter
importância) desprezível dos dados.
6Coluna com valores únicos
É o outro extremo. São variáveis categóricas que
para cada linha assumem um valor diferente.
Exemplos nome do cliente, endereço, número do
telefone, etc. Estas colunas não tem valor
preditivo.
Colunas sinônimos com a variável target
Quando uma coluna é altamente correlacionada com
a coluna target isto pode significar que ela é
sinônimo. Exemplo se um cliente está com o seu
cartão de crédito em inatividade, pode indicar
que ele não vai responder a uma campanha de
marketing. Variáveis sinônimos com a variável
target devem ser ignoradas da análise.
7Entendendo a escala de medida das variáveis
A escala de medida de uma variável de entrada ou
de saída determina o tipo de ferramenta de
modelagem que é apropriada para um específico
projeto de data mining. Como já visto as
variáveis podem ser classificadas em dois tipos
As variáveis contínuas (ou intervalares) são
variáveis numéricas que descrevem quantidades e
tem uma escala contínua. Média e desvio padrão
são medidas para quantificar uma medida de
tendência central e dispersão, respectivamente.
Total de vendas por consumidor, custo por
produto, o total de vendas por produto, o número
de unidades adquiridas por cada consumidor, a
renda anual por consumidor, são exemplos de casos
intervalares. Uma variável contínua é necessária
para modelagem preditiva em regressão linear
múltipla e redes neurais artificiais.
8As variáveis categorizadas podem ser
classificadas como
- Ordinal
- Uma variável com rank (ordenação) categorizada
ou discreta com mais de dois níveis. Exemplo
grupo de idades. Regressão Logística Politômica é
adequada para modelar variáveis ordinais. - Nominal
- Uma variável categorizada com mais de dois
níveis e não ordenada. A moda é a estatística
mais utilizada para tendência central, e o estudo
da distribuição de freqüência é a técnica mais
utilizada para descrição. - Exemplos diferentes tipos de serviços
bancários, raça. - Análise discriminante e Árvores de decisão são
métodos adequados para modelar variáveis objetivo
(target) nominais. - Binárias
- Uma variável binária com apenas dois níveis.
Exemplo bom e ruim, vendeu e não vendeu. - Regressão logística é adequada para modelar
variável objetivo (target) binária.
9Números
Métodos de transformação de dados
1) Normalização
Os valores resultantes são dados dentro de uma
certa faixa, por exemplo, 0 e 1. Esta
transformação não muda a forma da distribuição
dos valores. Normalização pode ser útil quando
usamos técnicas que realizam operações de
multiplicação sobre os dados, tais como Redes
Neurais e Cluster Analysis. Árvores de Decisão
não são afetadas pela normalização, pois não muda
a ordem dos valores.
2) Padronização
Transforma os valores em números de desvios
padrões a partir da média. É dada por
A padronização não afeta a ordem dos valores.
103) Caixas com igual largura (Equal-width binning)
Discretização
Transforma as variáveis em faixas de tamanhos
fixos. A variável resultante tem aproximadamente
a mesma distribuição da variável original.
Entretanto, valores em caixa afetam todos os
algoritmos de data mining. Exemplo rendimento
de domicílios. A distribuição desta variável é
bem assimétrica, devido a outliers. Os valores
poderiam ser divididos em 10 faixas, por exemplo,
faixa 1 R 0 até R 1.500,00.
4) Caixas com igual altura (Equal-height binning)
Discretização
Transforma as variáveis em decis, percentis, tal
que o mesmo número de registros pertencem a uma
mesma caixa. A variável resultante tem
distribuição uniforme. Exemplo rendimento de
domicílios, muito baixo (20 menores
rendimentos), baixo (entre 20 e 40 menores),
médio (40 e 60), alto (60 e 80) e muito alto
(acima de 80). Redes Neurais valores em caixa
é uma forma de reduzir a influência dos outliers,
pois todos os outliers serão agrupados dentro da
mesma caixa. Árvore de Decisão resulta em
folhas que têm tamanhos mais próximos nos níveis
mais alto da árvore.
115) Outras transformações
Por exemplo transformação logarítmica.
Datas e Tempos
Um formato típico para datas e tempo é o número
de dias ou horas desde alguma data no passado.
Neste caso os algoritmos tratam datas como
números e é adequado para detectar o que
aconteceu mais cedo ou mais tarde.
Variáveis Categorizadas
Os algoritmos trabalham melhor com poucas
categorias. Para reduzir o número de categorias
pode-se usar atributos dos códigos, ao invés dos
próprios códigos. Pode-se substituir o CEP pelo
rendimento médio ou valor médio da casa, porém
tratar como variável categorizada. Redes Neurais
e Cluster Analysis entendem variáveis
quantitativas, portanto, na presença de variáveis
categorizadas, utilizar variáveis binárias.
12Usar toda a base de dados versus amostra
representativa
- Para encontrar tendências e padrões nos dados,
mineradores podem usar toda a base de dados (se
desejar uma solução para toda a base) ou
selecionar amostras aleatórias de toda a base.
Com os recursos computacionais atuais é possível
analisar toda a base de dados, porém, o uso de
amostras representativas selecionadas
aleatoriamente na construção de modelos é mais
atrativo pelas seguintes razões - Usando amostras aleatórias permite ao analista
desenvolver o modelo a partir de amostra de
treinamento1 ou calibração, validar o modelo2 com
um arquivo de validação, e testar3 o modelo
com outra amostra teste independente. - Minerar uma amostra aleatória representativa é
mais fácil e mais eficiente e pode produzir
resultados precisos similares àqueles produzidos
usando toda a base de dados. - Quando amostras são usadas, a exploração e
visualização dos dados ajudam a ganhar
conhecimento, que por sua vez, conduzem aos
modelos mais rapidamente e com maior precisão. - Amostras representativas necessitam
relativamente de menor tempo para limpeza,
exploração, e desenvolver e validar modelos.
Isto implica em menor custo.
131 Usado para ajuste inicial do modelo. Por
exemplo, usada para estimar os parâmetros do
modelo de regressão, ou seja, gerar uma
explicação da variável dependente em termos das
variáveis independentes. 2A validação de modelos
obtidos a partir de arquivo de dados de
treinamento através de arquivos de validação
independentes é uma importante exigência em data
mining para confirmar a usabilidade do modelo
criado. A validação do modelo verifica a
qualidade do modelo ajustado e protege contra a
superparametrização ou sub-parametrização do
modelo. Assim, a validação do modelo pode ser
considerada a etapa mais importante na seqüência
da construção do modelo. É o ajuste fino, usada
para selecionar o melhor modelo. Para isso
existem critérios de seleção de modelos. 3 É a
avaliação do modelo.É usada para testar a
performance do modelo selecionado. Dados ainda
não utilizados pelo modelo
14Amostragem para data mining
A amostra usada na modelagem deve representar
toda a base de dados porque o objetivo principal
em data mining é fazer predições sobre toda a
base de dados. O tamanho e outras
características da amostra selecionada determina
se a amostra usada na modelagem é representativa
de toda a base de dados. Os seguintes tipos de
amostragem são comumente usados em data mining
- Amostragem Aleatória Simples
- Amostragem de Conglomerados
- Amostragem Aleatória Estratificada
15- Amostra aleatória simples
É o plano de amostragem mais comumente utilizado
em data mining. Cada observação, registro ou caso
da base de dados tem igual chance de ser incluída
na amostra.
A amostra aleatória simples serve quando a
população é razoavelmente homogênea para a
característica em estudo.
Exemplo clientes de cartão de crédito especial
(internacional) de um determinado banco.
16Uso do SAS para obtenção de uma amostra aleatória
simples.
Nome do arquivo de dados wilson.txt Nome do
programa SAS Amostra_aleatoria_simples.sas
Estimação
Objetivo obter estimativas para valores
populacionais desconhecidos, tais como a média ou
a proporção.
17Variáveis quantitativas
A estimativa da média populacional é feita
através da média da amostra selecionada,
calculada por
A variância populacional, ?2X, é estimada através
da variância da amostra
18A variância da média amostral será calculada, na
amostra sorteada por
Onde fn/N é a fração de amostragem.
Exemplo deseja-se estimar a concentração média
de fumonisina (micotoxina no milho armazenado),
dada em ug/g, no Estado de Santa Catarina.
Através de uma amostra casual simples de 10
armazéns, os resultados obtidos foram
19Os resultados obtidos foram
Pois fn/N ? 0 (zero)
Variáveis qualitativas
- Exemplo Foi realizada uma pesquisa por
amostragem em 4 estabelecimentos comerciais no
município de Florianópolis sobre o consumo de
tomates minimamente processados. Duas variáveis
qualitativas de interesse foram - O consumidor prefere tomates com casca de cor a)
verde b) rosado ou c) vermelho - Se o consumidor compraria o tomate fatiado e
embalado.
20No caso da variável 2, deseja-se estimar a
porcentagem (?), de consumidores que comprariam o
tomate fatiado e embalado. Em casos dicotômicos,
pode-se definir uma nova variável quantitativa da
seguinte forma x1 se compraria x0 se não
compraria Assim, a proporção de casos favoráveis
na amostra, p, pode ser tratada como
A variância de P é calculada por
Onde q(1-p).
21Exemplo Os resultados obtidos na pesquisa (n400
consumidores) foram
Pois 1-f é desprezível.
22No caso da variável 1, cor da casca, com 3
categorias (politômica), a variância da proporção
é calculada como anteriormente
fixando-se a categoria de interesse e reunindo
todos os demais elementos (pertencentes às outras
categorias) na classe que corresponde ao valor 0
(zero) para X.
Exemplo para estimar a proporção de consumidores
que preferem tomates com casca vermelha, tem-se
q1-0,610,39.
Assim
23Intervalos de confiança
Deseja-se, a partir das estimativas pontuais,
construir expressões que com certo coeficiente de
confiança, nos forneçam informações sobre os
valores populacionais desconhecidos. Ou seja,
desejamos construir um intervalo dentro do qual
esperamos que esteja o verdadeiro valor da
característica em estudo. Exemplo vamos
construir o intervalo de confiança para a
concentração média de fumonisina (vamos supor que
a amostra seja grande).
24Exemplo vamos construir o intervalo de confiança
para a proporção dos consumidores que preferem
tomates com casca de cor vermelha.
25A base de dados é dividida em estratos mutuamente
exclusivos (intersecção é nula) ou
sub-populações amostras aleatórias são retiradas
de cada estrato, podendo ser, por exemplo,
proporcional aos seus tamanhos.
Situação de uso quando a população apresenta
grande variabilidade com respeito a variável em
estudo. Nesse caso, procede-se a divisão da
população de N elementos, em sub-populações, sem
superposição (ESTRATOS) de tamanho nh. Estes
estratos devem ser internamente mais homogêneos
que a população toda.
O critério para a formação dos estratos deve ter
relação com a(s) variável(is) em estudo (target,
objetivo) e, que derive estratos homogêneos.
26Fatores que contribuem para a não utilização de
uma AAS
- A população é extremamente heterogênea, o que
acarreta falta de precisão nas estimativas.
Exemplo levantamento da renda familiar no
município de Florianópolis. - A população se subdivide naturalmente em
diferentes setores, áreas de estudo, ou regiões
geográficas. Neste caso há interesse em enfocar
cada parte isoladamente. Exemplo levantamento de
dados para as estimativas e previsões de produção
de leite no Estado de Santa Catarina, podemos
ter Região Litorânea, Baixo, Médio e Alto Vale
do Itajaí, Planalto e Oeste Catarinense. - Embora a população seja homogênea e não se
subdivida naturalmente em setores ou áreas, a
própria natureza do problema nos indica a
necessidade de se enfocar isoladamente certos
campos. Interesse em produzir estimativas para os
estratos. Nesse caso, a precisão é fixada para
cada estrato que passa a se chamar domínio.
Exemplo podemos estar interessados em estudar
isoladamente cada grande rede de supermercados de
Florianópolis.
27- Sistemas de referências diferentes, isso implica
na aplicação de planos e/ou estimativas
diferentes em cada estrato. - Deseja-se controlar o efeito de alguma
característica na distribuição da característica
que está sendo avaliada. Exemplo o efeito da
escolaridade dos chefes de famílias sobre o
estado nutricional de crianças menores de 5 anos
pode ser controlado pela composição de uma
amostra que contenha os diversos níveis de
escolaridade dos chefes de família da população
estudada. Outro exemplo num estudo da avaliação
do desvio da torção permanente do tronco (coluna
vertebral) pode-se estratificar por sexo,
categorização por grau de dor, categorização por
grupos de idades. - Deseja-se que a amostra mantenha a composição da
população segundo algumas características
básicas. Por exemplo, em estudos sociais ou
epidemiológicos, é usual a obtenção de amostras
que apresentam composição segundo o sexo e a
idade semelhante à população estudada. - Deseja-se obter amostras viesadas para fins de
modelagem. Por exemplo em estudos de marketing,
é usual a obtenção de amostras que apresentam
praticamente a mesma porcentagem de respondentes
e não respondentes.
28Exemplos
- Estratificação pela qualificação dos operários.
- Estratificação dos supermercados da grande
Florianópolis de acordo com o número de caixas. - Estratificação de uma cidade em bairros
- Estratificação de uma população por sexo, por
nível de escolaridade, tamanho da cidade, idade. - Estratificação das empresas por volume de vendas
ou por setores. - Estratificação das propriedade agrícolas pelo
número de vacas leiterias.
29Exemplo
Objetivo fazer um levantamento para estimar a
proporção de aceitação de uma nova formulação de
alimento em uma população de escolares de
primeiro grau. A aceitação do novo alimento é
diferente quando se considera a idade e o sexo
das crianças, é recomendável que essa população
seja estratificada por essas características,
antes da seleção da amostra.
30Obtenção da amostra
População
Amostra
Estrato 1 da amostra
Estrato 1
Estrato 2 da amostra
Estrato 2
Amostra Estratificada
Estrato k da amostra
Estrato k
31Notação
N representa o tamanho da população Nh é o
tamanho do h-ésimo estrato da população
é o peso do estrato h (ponderação).
32Cálculo da média estratificada
onde k é o número de estratos, e
A variância da média estratificada é dada por
onde
33Amostra estratificada Uniforme
Sorteia-se igual número de elementos em cada
estrato.
Uso
- Quando o interesse é derivar estimativas para
cada estrato, ou quando deseja-se comparar
diversos estratos. - É recomendável quando os estratos da população
forem aproximadamente do mesmo tamanho.
34Exemplo selecionar uma amostra estratificada
uniforme de tamanho n12 da comunidade da
universidade. Nesse caso devemos selecionar
quatro pessoas de cada categoria (Professores,
Estudantes e Técnicos Administrativos).
N12 k3 nh12/34, portanto,
n1n2n34
Objetivo deseja-se estimar o número médio de
pessoas por família.
Amostra 1 (Professores) 2 3 3 4 Amostra 2
(Estudantes) 4 5 6 6 Amostra 3
(Técnicos-Administrativos) 4 6 7 7
35Cálculo da média amostral
36Cálculo da variância amostral
O desvio dos valores em relação à média é, em
média, igual a 0,3597.
37Intervalo de confiança
Pode-se afirmar com 95 de confiança que a média
real está entre 4,45 e 5,88.
38Amostra Estratificada Proporcional
População
Amostra
Professores
Professores
20
20
20
20
Servidores
Servidores
Alunos
Alunos
60
60
A proporção na população é mantida na amostra. A
amostra sorteada será , portanto, considerada
auto ponderada, e o procedimento de estimação
poderá sofrer simplificações. Melhor quando as
variâncias dos estratos são próximas.
39Exemplo
Objetivo levantar o estilo de liderança
preferido População 10 professores, 10
servidores e 30 alunos Amostra amostragem
estratificada, proporcional por categoria, de
tamanho n10. (podemos determinar o valor de n
para isso precisamos da variância, precisão e
confiança).
Cálculo do tamanho da amostra por estrato
40Estrato são mais homogêneos que a população, isto
implica em resultados mais precisos (mais
próximos dos parâmetros), e necessidade de menor
tamanho de amostra.
Uso do SAS para obtenção de uma amostra aleatória
estratificada.
Nome do arquivo de dados wilson.txt Nome do
programa SAS Amostra_estratificada_uniforme_propo
rcional.sas
41Exemplo
Objetivo estimar o número médio de pessoas por
família. População 10 professores, 10 servidores
e 30 alunos. Amostra n10 (2 professores(20), 2
servidores (20) e 6 alunos (60))
n10,20102 (20 da amostra) n20,20102 (20
da amostra) n30,60106 (60 da amostra)
A média estratificada e a variância,
simplificam-se para
42Cálculo da média e da variância da média amostral
43Intervalo de confiança
44Estimativas para proporções
Partilha proporcional
Exemplo
Objetivo estimar a proporção de crianças
vacinadas. População 984 crianças menores de 12
meses. Estrato 1 crianças com assistência
pré-natal, N1325. Estrato 2 crianças sem
assistência pré-natal, N2659. Amostra
f1f2f200/9840,2033 n166 n2134 Resultados
no estrato 1, 33 foram vacinadas e, no estrato 2,
40 crianças foram vacinadas.
45Cálculo da variância
46Intervalo de confiança
47- Amostragem de Conglomerados
A base de dados é dividida em clusters (grupos)
no primeiro estágio da seleção da amostra e
alguns desses clusters são aleatoriamente
selecionados através de uma amostragem aleatória
. Todos os registros dos clusters aleatoriamente
selecionados são incluídos no estudo. Cada
conglomerado é uma mini-população ? os
conglomerados são subgrupos heterogêneos. É
adequada quando é possível dividir a população em
um grande número de sub-populações.
- Vantagens
- Facilidade administrativa.
- Tende a ser mais econômica.
- Não exige uma lista de todos os elementos da
população. Basta uma lista dos conglomerados
selecionados.
48Desvantagens
- Produz uma amostra que gera resultados menos
precisos do que uma AAS ou AE.
49População dividida em conglomerados
Primeiro estágio seleção aleatória de
conglomerados
Segundo estágio seleção aleatória de elementos
Amostra
50Exemplo
- Numa população de domicílios de uma cidade, os
quarteirões formam conglomerados de domicílios. - Numa população de propriedades agrícolas no
Estado de Santa Catarina, os municípios formam
conglomerados. - Numa população de domicílios do Estado de Santa
Catarina, podemos no primeiro estágio, selecionar
municípios, no segundo estágio, selecionar
quarteirões e, finalmente, no terceiro estágio
selecionar domicílios.
51Exemplo
Deseja-se sortear uma amostra de 500 escolares
(elementos). Vamos sortear algumas escolas e
considerar todas as crianças dessas escolas para
compor a amostra. Se as escolas tivessem o mesmo
número de crianças (Bj100), o procedimento seria
por conglomerados em um único estágio, e (naBj)
ou (5005100).
Outros procedimentos (3 estágios)
50 escolas ? 2 classes por escola ? 5 crianças
por classe 25 escolas ? 4 classes por escola ? 5
crianças por classe
52Exemplo
Pesquisa Nacional por Amostra de Domicílios
(PNAD) (Fundação IBGE). Primeiro estágioamostras
de municípios para cada uma das sete regiões
geográficas do Brasil. Segundo estágio setores
censitários (áreas menores, por exemplo, 300
domicílios) são sorteados em cada
município. Terceiro estágio sorteados domicílios.
53Como selecionar a amostra?
Primeiro estágio selecionar conglomerados de
elementos. Segundo estágio 1) observa-se
todos os elementos dos conglomerados
(amostragem em um estágio único) 2) faz-se
a seleção de elementos dos conglomerados (AAS,
AE, AC).
54Exemplo
Selecionar uma amostra de domicílios de uma
cidade de tamanho n12, em 3 conglomerados
(ruas). Pode-se tomar as ruas como conglomerados.
Primeiro estágio sorteio de conglomerados
(ruas). Segundo estágio sorteio de domicílios,
dentro de cada rua selecionada
55Amostragem de Conglomerados em Um Único Estágio-
Conglomerados de Tamanhos Diferentes
Notação
População
1
...
i
...
M
2
XiT é o total do cluster Ni é o tamanho do
cluster i
Xij valor da variável de interesse do elemento j
e cluster i.
56Amostra a amostra de cluster consiste de todos
os elementos de cada um dos m cluster
selecionados aleatoriamente a partir dos M
cluster da população.
1
...
i
...
m
2
xiT é o total do cluster ni é o tamanho do
cluster
Unidades primárias são os clusters Unidades
secundárias são os elementos da população dentro
dos clusters
A amostra de cluster é uma amostra aleatória
simples de clusters.
57A média populacional geral (isto é, o valor médio
de X das unidades secundárias) é
Interpretação razão do total dos valores XiT
para o total dos valores Ni.
Estimação desejamos estimar X(barra) a partir de
uma amostra de conglomerados.
A qual é a razão da soma dos totais de clusters
para a soma dos tamanhos de clusters, na amostra
de clusters selecionada.
58Variância de pode ser estimada a
partir da amostra por
E se N for desconhecido, ele pode ser substituído
pelo estimador Mn/m, onde n é o tamanho efetivo
da amostra, obtendo-se
Estimação do total geral XT
59Exemplo
Trata-se de avaliar o rendimento dos alunos da
primeira série do primeiro grau, na rede de
ensino público de certa localidade. A partir da
relação das 3500 turmas existentes, foram
preparados conglomerados (clusters), juntando
turmas de diferentes escolas, com o objetivo de
grupar alunos o mais possível diferentes no que
se refere ao rendimento (necessidade dos
conglomerados serem heterogêneos). Os
conglomerados foram formados com 5 turmas e,
aproximadamente, 150 alunos, supondo uma base de
30 alunos por turma. Deseja-se observar uma
amostra de 1500 alunos. Considerando
60(No Transcript)
61Estimativa do rendimento médio por aluno
Estimativa da variância de
62(No Transcript)
63Estimativa do coeficiente de variação de
Estimação de uma Proporção
Notação
X é uma variável de interesse de estudo. Por
exemplo 1) número de famílias com casa própria
2) número de domicílios com pelo menos um
automóvel.
Xij 1 se o elemento j do conglomerado i tem o
atributo ou característica em estudo Xij 0 se
o elemento j do conglomerado i não tem o atributo
ou característica em estudo
64População
XiT é a quantidade de elementos que possui o
atributo ou a característica em estudo no
conglomerado i.
A proporção de elementos que possuem o atributo
ou a característica no conglomerado i
A proporção dos elementos que possuem o atributo
ou a característica na população
65Estimador
Proporção na população
xiT é a quantidade de elementos que possuem o
atributo no conglomerado i selecionado. ni é o
tamanho (a quantidade de registros, casos,
observações) no conglomerado i selecionado.
66n é a quantidade total de registros, casos ou
observações na amostra selecionada. pi é a
proporção amostral de elementos com o atributo no
conglomerado i selecionado.
67Exemplo
No exemplo anterior observou-se, também, o número
de alunos fumantes, cujos resultados foram
68- Estimativa da proporção dos alunos que fumam
- Estimativa da variância da proporção dos alunos
que fumam
69(No Transcript)
70Determinação do Tamanho de uma Amostra Aleatória
Simples
Para a determinação do tamanho da amostra é
preciso fixar o erro máximo desejado, o grau de
confiança do intervalo de confiança e ter algum
conhecimento a priori da variabilidade da
população. Os dois primeiros são fixados
(fornecidos) pelo responsável pelo trabalho,
enquanto o terceiro pode ser obtido de pesquisas
passadas (referências bibliográficas), próprios
dados do pesquisador ou de amostras pilotos.
Outro procedimento é considerar um intervalo onde
aproximadamente 95 dos indivíduos da população
estariam concentrados, e aí, igualar à amplitude
deste intervalo a quantidade 4? (pois, se os
dados seguem aproximadamente uma distribuição
normal, então, 95 dos mesmos encontram-se no
intervalo média?2desvio padrão). Podemos,
grosseiramente estimar s tomando-se os 2 valores
extremos dos dados e determinar a amplitude. O
tamanho da amostra depende também da estatística
que se deseja estudar (média, proporção ou um
total), se a amostra é com ou sem reposição e dos
custos.
71Conceito de erro amostral
Chama-se de erro amostral a diferença entre o
valor que a estatística pode acusar e o
verdadeiro valor do parâmetro que se deseja
estimar.
Aumentando-se o tamanho da amostra, as
estimativas amostrais aproximam-se cada vez mais
dos valores populacionais (o erro amostral
diminui)
72Amostragem para proporções
Se deseja-se estimar uma proporção na população e
queremos, com nível (1-?) de confiança, que a
proporção da amostra esteja, no máximo a uma
distância e da proporção verdadeira, então
Onde ? é o risco aceitável de que a proporção
populacional esteja fora dos limites p?e z? é o
valor que elimina a área ? de ambos os lados
(bilateral) da distribuição normal (valores
obtidos em tabelas ou softwares da distribuição
normal) P é a proporção populacional. A
proporção populacional geralmente não é
conhecida, então usa-se alguma estimativa para a
mesma pode ser de um estudo anterior,
referências bibliográficas, pode-se também usar
p1/2, assim,
Neste caso, a amostra será, possivelmente,
superestimada.
73Para valores de P muito pequenos (P lt 0,10), a
aproximação de Poisson pode ser utilizada, e o
cálculo do tamanho da amostra é dado por
Quando a amostragem é sem reposição, e a fração
de amostragem n/N não é desprezível (n ? 0,05N),
uma estimativa mais satisfatória do tamanho da
amostra é dada por
(1)
Onde n é obtido como na equação dada
anteriormente.
74Exemplo
Deve-se realizar uma pesquisa sobre consumo de
hortaliças. Deseja-se determinar a proporção de
pessoas que consomem tomate no preparo da salada.
Quantas pessoas deverão ser ouvidas para que
sejam satisfeitas as seguintes condições
e(precisão da pesquisa)0,05 p0,60 (1-?)(
confiança dos resultados)0,95, isto implica que
z1,96. O tamanho da amostra será
Para p1/2, teríamos
75Amostragem para médias
O tamanho da amostra, n, é calculado por
Onde s é o desvio padrão e t é um valor obtido na
tabela ou software da distribuição t de Student
este valor depende do nível de confiança (1-?) e
do tamanho da amostra.
Quando a amostragem é sem reposição e a fração de
amostragem é maior ou igual a 5, usar a
expressão (1) para correção para população finita.
76Exemplo
Deseja-se realizar um estudo sobre o fornecimento
de leite, em litros, em uma cooperativa que reúne
180 pequenos produtores, no mês de dezembro.
Dimensionar uma amostra, com grau de precisão
e0,10(média da amostra piloto), com a finalidade
de se estimar a média, com grau de confiança de
95. Utilizar uma amostra piloto de tamanho n12.
Temos
77Portanto
A fração de amostragem n/N62/1800,3444, é maior
do que 5, e a amostragem foi feita sem
reposição, então o tamanho final da amostra será
Então devemos acrescentar mais 35 fornecedores na
amostra piloto.
78Referências Bibliográficas
Barbetta,P.A.(1998), Estatística Aplicada às
Ciências Sociais, Florianópolis Editora da
UFSC. Bolfarine,H.,e Bussab,W.O.(1994), Elementos
de Amostragem, 11º Simpósio Nacional de
Probabilidade e Estatística, Belo Horizonte,
MG. Cochran,W.G.(1977), Sampling Techniques, New
York John Wiley Sons. Silva, N.N.(1998),
Amostragem Probabilística, São Paulo Editora da
Universidade de São Paulo. Som,R.K.(1996),
Practical Sampling Techniques, New York Marcel
Dekker, Inc.
79Software para amostragem
SAMPLING Endereço www.est.ufmg.br/sampling/ (Func
iona acoplado ao MINITAB) Professora
coordenadora Sueli Ap. Mingoti.