Slide sem t - PowerPoint PPT Presentation

About This Presentation
Title:

Slide sem t

Description:

Title: Slide sem t tulo Author: emjo Last modified by: fatc Created Date: 11/13/1999 7:58:30 PM Document presentation format: Apresenta o na tela – PowerPoint PPT presentation

Number of Views:37
Avg rating:3.0/5.0
Slides: 62
Provided by: emjo
Category:

less

Transcript and Presenter's Notes

Title: Slide sem t


1
Modelos de Regressão E Séries Temporais
2
Objetivos
Obter um modelo que explique o comportamento dos
exemplos observados (respostas) e usar esse
modelo para fazer predições
Amostra
A amostra de dados deve ser representativa, isto
é, cobrir amplamente o domínio do problema
considerando as operações rotineiras, e as
exceções
Planejamento
Definição da metodologia a ser aplicada,
avaliação da adequação do modelo e interpretação
dos resultados
3
Parte I Modelos de Regressão
4
Previsão
  • Previsão é similar à Classificação
  • Primeiro construa um modelo
  • Depois, use o modelo para a previsão do valor
    desconhecido
  • O método mais importante de previsão é a
    regressão
  • Regressão linear e múltipla
  • Regressão não linear
  • Previsão é diferente de Classificação
  • Na classificação, a variável a explicar é
    categorica
  • Na previsão, a variável a explicar é contínua

5
Regressão Linear Múltipla
Sejam os valores de uma variável dependente
(resposta) Y relacionados com os valores valores
de m variáveis independentes Xk por meio de um
modelo estocástico
Yt ?0 ?1X1 ?2X2... ?mXm ?t t
1,...,n
?k parâmetro desconhecido que indica o grau de
associação linear da variável
independente Xk com a variável
dependente Y
?t erro aleatório devido a natureza estocástica
de Y
6
Suposições para a análise do modelo
de Regressão Linear
Resíduos homocedásticos, isto é, com variância
constante, não correlacionados e média zero
Normalidade nos resíduos (não necessariamente)
Número de parâmetros menor que o número
de observações (problema de overfitting)
7
Métodos de Estimação dos Parâmetros
Mínimos Quadrados
Máxima Verossimilhança (suposição de Normalidade
para os resíduos)
Y X? ?
Modelo ?
  • Y vetor de respostas (n ? 1)
  • X - matriz de observações independentes (n ? p)
  • - vetor de parâmetros
  • ? - vetor de erros (n ? 1)

8
Métodos de Mínimos Quadrados com suposição de
normalidade
A idéia é obter uma estimativa b para o vetor de
parâmetros ? que minimize a soma de quadrados
dos erros ??
Como E(?)0 então o modelo é expresso por E(Y)
X?
A soma de quadrados de resíduos
? ? (Y - X?) (Y - X?) Y Y -
?XY YX? ?XX? Y Y - 2?XY
?XX?
9
Obtendo
A solução do sistema é
Vetor de valores ajustados
10
Experimento 1
25 pares de observações onde Y quantidade de
vapor usado por mês e X temperatura em graus
Farenheit
No obs.
Y
Y
No obs.
X
X
1
10.98
35.3
13
11.88
28.1
2
11.13
29.7
14
9.57
39.1
3
12.51
30.8
15
10.94
46.8
4
8.40
58.8
16
9.58
48.5
5
9.27
61.4
17
10.09
59.3
6
8.73
71.3
18
8.11
70.0
7
6.36
74.4
19
6.83
70.0
8
8.50
76.7
20
8.88
74.5
9
7.82
70.7
21
7.68
72.1
10
9.14
57.5
22
8.47
58.1
11
8.24
46.4
23
8.86
44.6
24
10.36
33.4
12
12.19
28.9
25
11.08
28.6
11
Modelo Yt ?0 ?1X1 ?t t 1,...,25
12
As estimativas b0 e b1 são obtidas por
Então
Equação da regressão estimada
13
Para n 25 e
e
Portanto
14
Gráfico 2 Temperatura versus valores ajustados
Gráfico 1 Temperatura versus Qtd de vapor
O gráfico 1 mostra que existe uma relação linear
entre a qtd de vapor e a temperatura. O gráfico 2
ilustra a regressão linear.
15
Avaliação de desempenho do modelo
de Regressão
Estatística
R2 mede a variabilidade de explicada
pelo modelo de regressão
Exemplo Para os dados do experimento 1
16
Teste de aceitação do modelo
H0 ? 0 H1 ? ? 0
Tabela 1 Análise de Variância
Soma de Quadrados ( SS)
Soma de Quadrados média
(MS)
Estatística do teste (F)
Graus de Liberdade
Variação
p-1
Regressão
SSReg/(p-1)
Resíduo
n-p
s2 SSRes/(n-p)
Total correto por
n-1
F tem distribuição F-snedcor com p-1,n-p graus de
liberdade e nível de significância ?
17
Teste de aceitação do modelo
H0 Rejeita-se o modelo H1 Aceita-se o modelo
Região de aceitação da hipótese H0
18
Exemplo Considere o modelo do exemplo anterior
Tabela 1 Análise de Variância
45.59
57.54
18.22
63.81
Valor de F1,23(5) 4.28
Como a estatística F57.54 gt 4.28 rejeitamos H0
19
Teste de significância do vetor de
parâmetros (?)
H0 ?i 0 (i 1,...,p) H1 ?i ? 0
Estatística do teste
T tem distribuição t-student com n-p graus de
liberdade
Região de aceitação da hipótese H0
20
Intervalo de confiança para o vetor b
b tem distribuição t-student(n-p)
i 1,...p
Exemplo Continuando com o exemplo anterior
H0 ?1 0 (i 1,...,p) H1 ?1 ? 0
T -0.0798/0.0105 7.6 gt t23(0.975)2.069
Rejeita H0
Intervalo de confiança -0.105 lt ?1lt -0.0581
21
Regression Analysis C1 versus C2 The
regression equation is C1 13,6 - 0,0798
C2 Predictor Coef SE Coef T
P Constant 13,6230 0,5815
23,43 0,000 C2 -0,07983 0,01052
-7,59 0,000 S 0,8901 R-Sq 71,4
R-Sq(adj) 70,2 Analysis of
Variance Source DF SS
MS F P Regression 1
45,592 45,592 57,54 0,000 Residual
Error 23 18,223 0,792 Total
24 63,816
22
Outliers
São observações atípicas que podem ser
relevantes para a construção do modelo
Um procedimento paramétrico Teste de Cook
Considere uma matriz H(hij)n?n X(XTX)-1XT
Propriedades
a)
b)
23
Outliers
Medida de influência
onde
D tem distribuição F(p,n-p)(?)
Um ponto i é aberrante se Di gt F(p,n-p)(?)
24
Cooks Distance
25
Diagnóstico da Regressão
Análise do modelo Exemplo 1
Os resultados do ajustamento revelam que
a variável temperatura é significativa no modelo
(t2.069 gt 2)
a variabilidade dos dados explicada pelo modelo é
boa (R2 0.71)
o valor da F57.54 gt F1,23(5) indica que a
regressão é significativa ao nível de
confiança de 95
o modelo proposto não apresenta outilier (Di gt
F2,23(5) 3.42, i 1,...,23)
26
Diagnóstico da Regressão
Análise gráfica dos resíduos
1 Normalidade da variável resposta
2 Independência das observações
3 Homocedasticidade
4 Se uma variável explicativa não incluída no
modelo é relevante
27
Diagnóstico da Regressão
Os resíduos são aleatórios.
Os valores ajustados não apresentam tendência
28
Diagnóstico da Regressão
Os resíduos apresentam normalidade.
O modelo proposto se ajusta aos dados, pois as
hipóteses básicas da regressão clássica são
satisfeitas.
29
Modelos de Regressão Não Linear
A não linearidade é dada pela função de regressão
Yt ?0 ?1X1 X2? ?t t 1,...,n
Um método de estimação Mínimos Quadrados não
Lineares
30
Modelo Logístico Linear
Aplicável quando o valor da variável resposta é
uma proporção
Suposição A distribuição da variável dependente
é uma Bernoulli (1,?) onde ? é a proporção de
sucesso
onde ? E(Y)
Método de estimação por Máxima Verossimilhança
31
Parte II Mineração de Séries Temporais Mineração
de Dados Seqüências
32
  • Series temporais
  • Consiste de sequencia de valores ou eventos que
    mudam com o tempo
  • Os dados são registrados em intervalos regulares
  • Componetes característicos das séries temporais
  • Tendencia, ciclo, sazonalidade, aleatóriedade
  • Aplicações
  • Finanças preço de ações, inflação
  • Biomedicina presão sanguinea
  • Metereologia precipitação

33
  • Uma série temporal pode ser ilustrada por um
    gráfico que descreve pontos que se movem ao longo
    do tempo
  • Categorias de movimentos de séries temporais
  • Tendencia à longo termo (curva de tendencia)
  • Variações ciclicas
  • Variações Sazonais
  • Variações irregulares ou aleatórias

34
Estimação da Série
  • Método manual
  • Ajustar a curva pela observação do gráfico
  • Impraticavel para a mineraçào em larga escala
  • O método dos minimos quadrados
  • Os métodos das médias móveis
  • Eliminaçào de padrões ciclicos, sazonais e
    irregulares
  • Sensivel a valores aberrrantes

35
Descoberta de tendencias em series temporais
  • Estimação de variações sazonais
  • Indice sazonal
  • Conjunto de valores que mostram os valores
    relativos de uma variável durante os meses do ano
  • Ex, vendas em outubro, novembro e dezembro são
    80, 120, e 140 da média de vendas mensal do
    ano inteiro. Então 80, 120, e 140 são índices
    sazonais para esses meses
  • Remoção da Sazonalidade
  • Dados ajustados com relação as variações sazonais
  • Ex., dividir os meses originais pelos indices
    sazonais dos meses correspondentes

36
Descoberta de tendencias em series temporais
  • Estimação das variações ciclicas
  • Se os ciclos ocorrem periodicamente
    (aproximadamente), pode ser introzido um índice
    de cilco como os indices sazonais
  • Estimação de variações irregulares
  • Pelo ajustamento dos dados as variações de
    tendencia, ciclo e estação
  • Através da análise sistemática das tendencias,
    cilcos, estações e componentes irregulares, é
    possivel realizar previzoões de curto e longo
    prazo de boa qualidade

37
Busca por similaridade em series temporais
  • Busca por similaridade encontra sequencias de
    dados que diferem apenas ligeiramente de uma dada
    sequencia
  • Duas categorias de interrogações baseada em
    similaridade
  • Sequencia matching encontrar uma sequencia que é
    similar a sequencia de interrogação
  • Subsequencia matching encontrar todos os pares
    de sequencias similares
  • Aplicações
  • Finanças Financial market
  • Bases de dados cientificas
  • Diagnostico médico

38
Uma Série Temporal
Uma conjunto de observações ordenadas no tempo
Z(t1), Z(t2),...,Z(tn)
Exemplos
  • os valores diários do preço das ações de uma
  • empresa, na bolsa de valores (série econômica)
  • os valores mensais de temperatura de uma cidade
  • registro de eletrocardiograma de uma pessoa

39
Tratamento dos Dados
a) Estacionariedade o desenvolvimento da série
reflete alguma forma de equilíbrio estável
Série não estacionária
40
Tratamento dos Dados
b) Transformações
Presença de não estacionariedade
Diferenças sucessivas da série original até
obter-se uma série estacionária
?ZtZt Zt-1
?2 Zt ?? Zt
Estabilização da variância
Logarítmica
?logZtlogZt logZt-1
41
Tratamento dos Dados
A transformação logarítmica também remove a
tendência.
42
Componentes de uma Série Temporal
Uma série Z1, Z2,...,Zn
Modelo ? Clássico
Zt Tt St ?t t 1,...n
Tt tendência
St sazonalidade
? t erro aleatório
43
Componentes de uma Série Temporal
1 - Têndencia
Aumento ou decremento gradual das observações
44
Componentes de uma Série Temporal
2 - Sazonalidade
Quando as observações são intra-anuais, isto é,
registradas mensalmente, trimestralmente ou
semanalmente
45
Componentes de uma Série Temporal
Exemplo de uma série com tendência e sazonalidade
46
Componentes de uma Série Temporal
3 Resíduo
Removendo as componentes Tt e St a série é
explicada por um componente aleatório, ?t. A
suposição é que ?t tem média zero e variância
constante ??.
Nota
Se as amplitudes sazonais St variam com a
tendência, então um modelo mais adequado é o
multiplicativo
Zt Tt ? St ? ?t t 1,...n
47
Função Perda
Erro Quadrático Médio (EQM)
é a previsão de Z(th)
Considere
EQM ?
48
Métodos de estimação da Tendência
Suponha que a componente sazonal St não está
presente e que o modelo é aditivo
Zt Tt ?t t 1,...n
Existem vários métodos para estimar Tt
  • Ajustar os dados por uma função polinomial,
  • uma exponencial ou outra função suave de t
  • (Métodos paramétricos)

49
Métodos de estimação da Tendência
  • suavizar ou filtrar os valores da série ao redor
    de
  • um ponto para estimar a tendência .
    (Método não
  • paramétrico)
  1. utilizar diferenças (Método não paramétrico)

Estimando a tendência através de , pode-se
obter a série livre de tendência
50
Métodos de estimação da Tendência
A tendência pode ser observada através de uma
inspeção gráfica ou através de testes de
hipóteses que pode ser realizado de antes ou
depois da estimação de Tt
As hipóteses são
H0 não existe tendência H1 existe tendência
Com base nas observações Zt (t1,...,N)
51
Métodos de estimação da Sazonalidade
As flutuações sazonais presentes em uma série
tendem a perturbar as outras componentes. Uma
solução é remover a componente, facilitando
assim a identificação e interpretação dos outros
fenômenos.
Considere um modelo aditivo
Zt Tt St ?t t 1,...n
ou multiplicativo
Zt Tt ? St ? ?t t 1,...n
52
Métodos de estimação da Sazonalidade
Um procedimento de ajustamento sazonal
  1. obter estimativas e St
  2. calcular a série sazonalmente ajustada

modelo aditivo
modelo multiplicativo
53
Métodos de estimação da Sazonalidade
Existem vários métodos para estimar a sazonalidade
  1. Método de Regressão (método paramétrico)
  2. Método de Médias Móveis (método não paramétrico)
  3. Método de diferença sazonal

54
Métodos de estimação da Sazonalidade
Pode se testar a existência de sazonalidade antes
e depois de sua estimação
H0 não existe sazonalidade determinística H1
existe sazonalidade
  • Testes não paramétricos Kruskal-Wallis, Friedman
  • Teste paramétrico uma estatística F clássica
    tendo
  • como hipóteses

H0 S1 S2 ... Ss H1 Si ? Sj para algum i e
j
55
Um método de Previsão de séries localmente
constantes - Médias Móveis (MM)
Zt ?t ?t t 1,...n
E(?t ) 0, Var(?t) ?? e ?t nível da série que
varia com o tempo
com h 1,2,... (horizonte de previsão)
onde
56
Um método de Previsão Médias Móveis (MM)
O valor de r deve ser proporcional à
aleatoriedade de ?t. Um procedimento é selecionar
o valor de r que minimize
Vantagens do método MM
Fácil aplicação
Aplicável quando se tem poucas observações
57
Um método de Previsão Médias Móveis (MM)
Desvantagens
Aplicável apenas para séries estacionárias
Dificuldade em determinar r
Uma alternativa é usar os modelos de Box Jenkins
58
Experimento 2
Consumo de energia (jan 68 dez 69)
59
Previsão com origem na observação 24
h 1,...,5 e r 4
60
?
Previsão atualizada a cada observação
h 1,...,5 e r 4
61
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com