Title: Apresenta
1Regressão Logística e Aplicações em Software
Estatísticos
Orientando Alexandro Vieira
Lopes Orientadora Profª. Drª.Vilma Mayumi
Tachibana Co-Orientador Prof. Dr. Fernando
Antônio Moala
1/ 29
2INTRODUÇÃO
- Modelagem
- Regressão Logística Simples
- Regressão Logística Múltipla
- Seleção de Variáveis STEPWISE
- Avaliação do ajuste do modelo
- Noções sobre Regressão Logística Multinomial
2/ 29
3MODELAGEM
- OBJETIVO Refletir sobre uma porção da realidade,
na tentativa de explicá-la, de entendê-la. - O processo é selecionar no sistema, argumentos ou
parâmetros considerados essenciais e
formalizá-los o modelo. (representação do
sistema). - Quanto mais complexo for o modelo, mais difícil
será mostrar sua validade, isto é, que ele
descreve a realidade.
3/ 29
4MODELAGEM
- Etapas da Modelagem
- 1 Experimentação obtenção os dados.
- 2 Abstração procedimento
formulação dos modelos matemáticos,
procura-se estabelecer - Seleção de variáveis
- variáveis de estado que descrevem a evolução do
sistema - variáveis de controle que agem sobre o sistema.
- -Formulação de hipóteses observação dos fatos,
comparação com outros estudos, dedução
lógica,etc.
4/ 29
5MODELAGEM
3 Resolução A Formulação as vezes só pode ser
viabilizada através de métodos computacionais,
dando uma solução numérica aproximada. 4
Validação é o processo de aceitação ou não do
modelo proposto. Teste dos dados empíricos,
comparando suas soluções e previsões com os
valores obtidos no sistema real.
5/ 29
6MODELAGEM
- 5 Modificação alguns fatores ligados ao problema
original podem provocar a rejeição ou aceitação
dos modelos. - Alguma hipótese falsa ou não suficientemente
próxima da verdade, ou seja, os pressupostos de
partida são incorretos - Alguns dados ou informações podem ter sido
obtidos de maneira incorreta - Existem outras variáveis envolvidas na situação
real que não foram utilizadas.
6/ 29
7MODELAGEM
- Escolha de temas
- Buscar informações relacionadas com o assunto.
- Uma das formas é a coleta de dados qualitativos
ou numéricos que pode ser executada de várias
formas - Entrevistas pesquisas executadas com métodos de
amostragem aleatória. - Pesquisa bibliográfica, utilizando dados já
obtidos e catalogados em livros e revistas
especializadas.
7/ 29
8MODELAGEM
A natureza dos dados orienta a formulação
matemática dos modelos. A relação funcional
entre duas variáveis é expressa por uma fórmula
matemática
y f (x) x variável
independente y variável dependente
8/ 29
9REGRESSÃO LOGÍSTICA SIMPLES
- P(Y 1) relacionada com X1, X2, ..., Xp.
- p assume valores no intervalo 0,1, não é
possível admitir uma relação linear da forma p(x)
?0 ?1x1 ... ?pxp, - Contornar este problema transformação
g, - g(p(x)) pertença ao intervalo -? , ?
- modelada pela função linear ?0 ?1x1 ...
?pxp. - Contexto de modelos lineares generalizados, a
função g é denominada função de ligação.
9/ 29
10REGRESSÃO LOGÍSTICA SIMPLES
Função de Ligação
, g(xi) ?0 ?1xi
10/29
11REGRESSÃO LOGÍSTICA SIMPLES
Transformação Logito
Logito
g(xi) ?0 ?1xi
x varia de -? a ?, g(xi) apresenta a mesma
variação.
11/29
12REGRESSÃO LOGÍSTICA SIMPLES
Estimar ?0 e ?1 por Método da Máxima
Verossimilhança f (xi) é a função que expressa
a probabilidade dos dados observados como uma
função de parâmetros desconhecidos, seus
estimadores maximizam esta função e se aproximam
mais dos dados observados.
Função de Verossimilhança
L(?)
ln L(?)
yi ln ?(xi) (1-yi)ln(1-?(xi))
12/ 29
13REGRESSÃO LOGÍSTICA SIMPLES
Equações de Verossimilhança
- Não é possível igualar as expressões das
derivadas parciais a zero para obter os
estimadores, pois estas expressões em Regressão
Logística não são lineares em ?0 e ?1 e assim
requerem métodos especiais para suas soluções. - Estes métodos são de natureza iterativa e têm
sido programados em software disponíveis de
Regressão Logística.
13/ 29
14REGRESSÃO LOGÍSTICA MÚLTIPLA
Regressão Logística Simples uma variável
independente Regressão Logística Múltipla
diferentes escalas e várias variáveis
independentes.
Probabilidade Sucesso P ( Y
1 x) ? (x) em que x (x1, x2, ..., xp)
Logito Regressão Logística Múltipla g(x) ?0
?1x1 ?2x2 ... ?p xp Modelo da Regressão
Logística
14/ 29
15SELEÇÃO DE VARIÁVEIS STEPWISE
- Etapa (0) Supondo p variáveis independentes
- ajuste do modelo apenas com o intercepto e seja
L0 o log da verossimilhança. - ajuste de cada um dos p possíveis modelos
univariados de regressão logística e os log de
verossimilhança são comparados. - As variáveis mais importantes são aquelas com
menor p-valor. Usa-se p-valor de entrada 0,25.
15/ 29
16SELEÇÃO DE VARIÁVEIS STEPWISE
Etapa (0) Exemplo Hipotético
y x1 x2 x3 x4
Modelo com Intercepto y ?0
y ?0 ?1x1
y ?0 ?1x2
y ?0 ?1x3
y ?0 ?1x4
16/ 29
17SELEÇÃO DE VARIÁVEIS STEPWISE
Etapa (1) Ajuste do modelo de Regressão
Logística contendo X3. log da verossimilhança
deste modelo.
y ?0 ?1x3 ?2x1
y ?0 ?1x3 ?2x2
y ?0 ?1x3 ?2x4
Comparação do log verossimilhança Razão de
Verossimilhanças (G) p-valor lt pENTRADA
17/ 29
18SELEÇÃO DE VARIÁVEIS STEPWISE
Etapa (2) devido a entrada de X2, a variável
X3, não seja mais importante. Seleção
Backward. Para decidir se X3 deve ser removido
comparação com um segundo nível alfa pREMOÇÃO
escolhido anteriormente. Comparação de log de
verossimilhanças p-valor gt pREMOÇÃO. pR gt pE
para que o algoritmo não introduza e remova a
mesma variável nas etapas sucessivas. Na fase de
Seleção Forward, cada um dos p 2 modelos de
Regressão Logística são ajustados.
18/ 29
19SELEÇÃO DE VARIÁVEIS STEPWISE
- Etapa (3) O algoritmo representa uma verificação
na eliminação backward seguida por uma seleção
forward continuando desta maneira até última
etapa (S). -
- Etapa (S) A etapa (S) ocorre se
- todas as p variáveis que entraram no modelo OU
- todas as variáveis no modelo que têm p-valores
para sair menores que pR, e as variáveis não
incluídas no modelo têm p-valores para entrar
maiores que pE.
y ?0 ?2x2 ?3x3
19/ 29
20VERIFICAÇÃO DO AJUSTE TABELA DE
CLASSIFICAÇÃO
Resume os resultados do ajuste do modelo de
Regressão Logística. Classificação cruzada da
variável resposta y com os valores dicotômicos
derivados da probabilidade estimada logística.
Ponto de corte c comparado com a probabilidade
estimada de c. Se a probabilidade exceder c,
então a variável derivada é igual a 1, senão é
igual a 0. O valor comum para c 0,5.
20/ 29
21VERIFICAÇÃO DO AJUSTE TABELA DE
CLASSIFICAÇÃO
- A razão geral da Classificação correta é estimada
como 100 (16 417) /575 75,3
de acerto do modelo.
21/ 29
22VERIFICAÇÃO DO AJUSTE DO
MODELO
OUTROS TESTES
Estatística Pearson Qui-Quadrado e Deviance
Teste de Homer-Lemeshow
Área abaixo da Curva ROC (curva Característica
do Recebimento de Operação ou Receiver Operating
Characteristic).
Estatística R2
22/ 29
23REGRESSÃO LOGÍSTICA MULTINOMIAL
- Variável resposta qualquer número de níveis.
- Exemplo Estudo da escolha de um plano de saúde.
A variável resposta indica o tipo de plano A, B
ou C com as covariáveis idade, tamanho da
família, renda, etc. - A Regressão Logística Multinomial também pode
ser chamada Regressão Logística Politômica.
23/ 29
24REGRESSÃO LOGÍSTICA MULTINOMIAL
Exemplo 3 categorias da
variável resposta Modelo necessita de 2 funções
logito. Comparação de Categorias Y 0 como
referência e comparar com Y 1 e Y 2.
24/ 29
25RELATÓRIO FINAL
Comparação entre Software Estatísticos
Diagnóstico em Regressão Logística
Regressão Logística Ordinal
25/ 29
26REFERÊNCIAS
BASSANEZI, R. C. Ensino-aprendizagem com
modelagem matemática. São Paulo Contexto, 2004.
389 p. BUSSAB, W. de O. MORETIN, P. A.
Estatística básica. 5. ed. São Paulo Saraiva,
2002. 526 p. COLLETT, D. Modelling binary data.
London Chapman Hall, 1991. 369 p. FARHAT, C.
A. V. Análise de diagnóstico em regressão
logística. 2003. 113 f. Dissertação (Mestrado em
Estatística) Instituto de Matemática e
Estatística, Universidade de São Paulo, São Paulo.
26/ 29
27REFERÊNCIAS
HOSMER, D. W. LEMESHOW, S. Applied logistic
regression. 2nd ed. New York Wiley, 2000. 375
p. ISHIKAWA, N. I. Uso de transformações em
modelos de regressão logística. 2007. 92 f.
Dissertação (Mestrado em Ciências) Instituto de
Matemática e Estatística, Universidade de São
Paulo, São Paulo. KUBRUSLY, R. S. O tamanho do
infinito. Projeto novas tecnologias de ensino.
Rio de Janeiro, 2004. Disponível em
lthttp//www.dmm.im.ufrj.br/projeto/diversos/taman
ho.htmlgt. Acesso em 1 jan. 2008. SOUZA, E. C.
Análise de influência local no modelo de
regressão logística. 2006. 101 f. Dissertação
(Mestrado em Agronomia) Escola Superior de
Agricultura Luiz de Queiroz, Universidade de
São Paulo, Piracicaba. Disponível em
lthttp//www.teses.usp.br/teses/disponiveis/11/111
34/tde-12042006-143935/gt. Acesso em 19 mar. 2008.
27/ 29
28BIBLIOGRAFIA
BUSSAB, W. de O. Análise de variância e de
regressão. São Paulo Atual, 1986. 147 p. HAIR
Jr, J. F. et al. Análise multivariada de dados.
Tradução de Adonai Schlup Santana , Anselmo
Chaves Neto. Bookman, 2005. 593 p. MOOD, A. M.
GRAYBILL, A. F. BOES, C. D. Introduction to the
theory of statistics. 3rd ed. New York
McGraw-Hill, 1974. 564 p. SOUZA, A. D. P.
Métodos aproximados em modelos hierárquicos
dinâmicos bayesianos. 1999. 142 f. Tese
(Doutorado em Ciências em Engenharia de Produção)
COPPE, Universidade Federal do Rio de Janeiro,
Rio de Janeiro. TACHIBANA, V. M. Métodos
aproximados em modelos bayesianos de resposta
aleatorizada e regressão logística. 1995. 133 f.
Tese (Doutorado em Ciências em Engenharia de
Produção) COPPE, Universidade Federal do Rio de
Janeiro, Rio de Janeiro.
28/ 29
29Regressão Logística e Aplicações em Software
Estatísticos
Alexandro Vieira Lopes
Contato alexandro2x_at_hotmail.com
4º ANO ESTATÍSTICA
PRESIDENTE PRUDENTE 2008
29/ 29