Title: METODOLOGIA
1DPE DIRETORIA DE PESQUISAS COREN COORDENAÇÃO
DE TRABALHO E RENDIMENTO GEPME GERÊNCIA DE
PESQUISA MENSAL
Imputação de Valores Faltantes Referentes às
Variáveis de Rendimento do Trabalho Pesquisa
Mensal de Emprego
METODOLOGIA
02/04/2007
2Rendimentos do Trabalho na PME
habitual
Rendimento no trabalho principal
efetivo
habitual
Rendimento no(s) outro(s) trabalho(s)
efetivo
Metodologia de Imputação de Rendimentos
Adotou-se a metodologia que combina Árvores de
Regressão com seleção probabilística de doadores
em cada estrato construído através da árvore
(Breiman et al, 1984) .
3Árvore de Regressão
O que é? É um método de estratificação que
utiliza os valores respondidos de uma ou mais
variáveis, para classificar registros em grupos
homogêneos, a partir de um conjunto de variáveis
explicativas. Em geral, chamamos estes grupos
de nós ou estratos. Cada estrato é subdividido em
outros dois estratos e assim por diante,
criando-se a árvore.
4Árvore de Regressão
Como escolher a partição?
- Escolher a variável a ser particionada
- Escolher a partição desta variável que faça dos
dois estratos resultantes, os mais homogêneos
possíveis, quanto a variável dependente.
5Árvore de Regressão
- Esse processo de partição se repete até a
chegada do nó terminal, definido por um critério
de parada - Os estratos finais formarão as
classes de imputação - No caso da PME, os
registros são os indivíduos que são agrupados em
estratos homogêneos, em relação ao rendimento.
6Definições para a construção da árvore na PME
- Utilização da função RPART do software R
- Uma árvore por mês para cada região
metropolitana investigada pela PME (Recife,
Salvador, Belo Horizonte, Rio de Janeiro, São
Paulo e Porto Alegre) - Critério de parada mínimo de 1 do total de
registros no nó terminal - Variável dependente rendimento habitual no
trabalho principal
7Definições para a construção da árvore na PME
- Variáveis explicativas para o rendimento
habitual no trabalho principal
- Sexo
- Condição do Morador no Domicílio
- Idade
- Anos de Estudo
- Posição na ocupação no Trabalho Principal
- Tamanho do Empreendimento do Trabalho Principal
- Horas Habitualmente Trabalhadas na Semana no
Trabalho Principal.
8Figura Exemplo de Árvore construída para a
Região Metropolitana de São Paulo em dezembro de
2005.
Nó Raiz
Anos_estudo lt 14,5
Pos_ocup 1,2,3,4,5
Condição 2
Tam 1
Anos_est lt 12,5
Anos_est lt 10,5
Sexo 2
Nó terminal
9Figura Posições de entrada das variáveis
explicativas na
construção da árvore (Região metropolitana de
São Paulo - março de 2002 a dezembro de 2006).
10Procedimento de Imputação
- Procedimento diferenciado para o tipo de
não-resposta de rendimento
- Não resposta total de rendimento rendimento
habitual e rendimento efetivo ignorados (tanto
para o rendimento no trabalho principal quanto
para o rendimento do(s) outro(s) trabalho(s)) - Não resposta parcial de rendimento um dos
rendimentos respondidos e o outro ignorado
11Procedimento de Imputação
- Para a não resposta total dos rendimentos
utiliza-se a árvore construída da seguinte forma - - Procedimento hot-deck com seleção aleatória
dentro de classes, ou seja, em cada nó
seleciona-se aleatoriamente, com probabilidade
proporcional ao peso de cada indivíduo, um doador
para os rendimentos ignorados. - - Os doadores são aqueles que possuem rendimentos
habituais e efetivos respondidos, excluindo em
cada nó aqueles que apresentam valores extremos
12Procedimento de Imputação
LI Q1 - 2,0(Q3-Q1) e LS Q3
2,0(Q3-Q1), - Para uma pessoa com 2 rendimentos
ignorados, seleciona-se um doador que irá ceder
seus 2 rendimentos a este receptor. - Para uma
pessoa que tenha o vetor de 4 rendimentos
ignorados, seleciona-se um doador para ceder os 4
rendimentos. - Caso não haja doadores a seleção
é feita no nó raiz, com doadores com a mesma
posição na ocupação. Se ainda não houver, a
seleção é feita no nó raiz, sem restrições.
13Procedimento de Imputação
- Para a não resposta parcial dos rendimentos
optou-se por aproveitar a informação do outro
rendimento respondido - - Cerca de 90 dos indivíduos declaram rendimento
habitual e efetivo com valores iguais - - Se respondeu efetivo e não respondeu habitual -
imputa o rendimento habitual pelo efetivo
respondido - - Se respondeu habitual e não respondeu efetivo -
imputa o rendimento efetivo pelo habitual
respondido - - Procedimento utilizado tanto para os
rendimentos no trabalho principal quanto no
rendimento do(s) outro(s) trabalho(s).
14Procedimento de Imputação
- Exceções para a não resposta parcial
- Meses de janeiro influência do 13º salário no
rendimento efetivo - É uma razão (efetivo/habitual) média calculada
dentro de cada nó para três grupos distintos - - Trabalhadores domésticos
- - Militares ou funcionários públicos e empregados
com carteira - - Empregados sem carteira, conta própria e
empregadores.
15Procedimento de Imputação
- Exceções para a não resposta parcial
- Rendimento efetivo igual a zero e rendimento
habitual ignorado - - Utiliza-se as classes de imputação obtidas pela
árvore e seleciona-se um doador para o rendimento
habitual
16Procedimento de Imputação
- - Após o procedimento de imputação, em cada nó
terminal da árvore efetua-se o teste de
Kolmogorov-Smirnov - - Avalia se duas distribuições foram extraídas de
uma mesma população - - Efetuado com os rendimentos antes e após da
imputação - - Para os meses de março de 2002 até dezembro de
2006, não foram encontrados p-valores abaixo do
nível de significância (5).
17Referências
- BREIMAN, L., FRIEDMAN, J.H., OLSHEN R.H. and
STONE, C.J. Classification and Regression Trees,
1984, MonterreyWadsworth and Brooks/Cole. - PESSOA, D.G.C. e SANTOS, A.R. Imputação de renda
dos responsáveis por domicílios - conjunto
universo do Censo Demográfico 2000, 2003,
Relatório Técnico, DEMET/DPE/IBGE. - PESSOA,D.G.C., MOREIRA, G.G. e SANTOS, A.R.
Imputação de rendimentos no questionário da
amostra do Censo Demográfico 2000, 2003,
Relatório Técnico, DEMET/DPE/IBGE.