Time%20Series

About This Presentation

Title:

Time%20Series

Description:

Les processus autor gressifs supposent que chaque point peut tre pr dit par la ... Les processus de moyenne mobile supposent que chaque point est fonction des ... – PowerPoint PPT presentation

Number of Views:219

Avg rating:3.0/5.0

Slides: 38

Provided by: georgesGa

Category:

more less

Transcript and Presenter's Notes

Title: Time%20Series

1
Time Series

César Emmanuel
Richard Bruno

XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
2
Sommaire

Présentation des Séries Temporelles
Définitions Explications
But de lAnalyse
Modèles Mathématiques
Les Algorithmes
Présentation générale
Détails de lART dans SQL Server 2005
Détails du modèle ARIMA
Avantages et inconvénients des différents modèles

3
Présentation des Séries Temporelles
XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
4
Présentation des Séries Temporelles
1. Définitions Explications
Sintéresser à la dynamique dune variable
Lanalyse des séries temporelles
Définition
La suite dobservations (yt, t?T) dune variable
y à différentes dates t est appelée série
temporelle. Habituellement T est dénombrable, de
sorte que t1T.
Importance de la dimension temporelle
La périodicité de la série nimporte pas
5
Présentation des Séries Temporelles
1. Définitions Explications
Une série temporelle est donc toute suite
dobservations correspondant à la même variable

Macroéconomiques

PIB dun pays, Inflation, Exportations
Ventes dune entreprise donnée, Nombre
demployés, Revenus dun individu

Microéconomiques

Financières

CAC40, Prix dune option dachat, Cours dune
action

Météorologiques

Pluviosité, Nombre de jours de soleil par an

Politiques

Nombre de votants, Voix reçu par un candidat

Démographiques

Taille moyenne des habitants, Leur âge
Tout ce qui est chiffrable et varie en fonction
du temps
6
Présentation des Séries Temporelles
1. Définitions Explications
Représentation
généralement un graphique de valeurs (ordonnées)
en fonction du temps (abscisses)
(a)
(b)
Stationnarité Tendance Saisonnalité
(c)
(d)
7
Présentation des Séries Temporelles
2. But de lAnalyse
On peut en distinguer 9 principales applications

Prévoir

Relier les variables

Déterminer la causalité

Étudier des anticipations des agents

Repérer les tendances et cycles

Corriger des variations saisonnières

Détecter les chocs structurels

Contrôler les processus

8
Présentation des Séries Temporelles
3. Modèles Mathématiques
Définition
Le but poursuivi est la formulation dun modèle
statistique qui soit une représentation
congruente du processus stochastique qui génère
la série observée.
Approche
Il est en pratique impossible de connaître la
distribution dune série temporelle ytt0, on
sintéresse par conséquent à la modélisation de
la distribution conditionnelle de yt via sa
densité
f(yt Yt-1)
Conditionnée sur lhistorique du processus
Yt-1 (yt-1, yt-2,, y0)
Il sagit donc dexprimé yt en fonction de son
passé
9
Présentation des Séries Temporelles
3. Modèles Mathématiques
Résultat
Lapproche conditionnelle fournit une
Décomposition Prévision Erreur selon laquelle
Yt Eyt Yt-1 et
Eyt Yt-1
est la composante de yt qui peut donner lieu à
une prévision, quand lhistorique du processus
Yt-1 est connu
où
et
représente les informations imprévisibles
10
Présentation des Séries Temporelles
3. Modèles Mathématiques
Modèle de séries temporelles
1. Processus autorégressifs dordre 1, AR(1)
yt ayt-1 et
et WN(0,s2) (bruit blanc)
La valeur de yt ne dépend que de son
prédécesseur. Ses propriétés sont fonction de a
qui est facteur dinertie

yt est imprévisible et ne dépend pas de son
passé, on parle de bruit blanc

a ? -1,1

yt est stable autour de zéro

yt est instable et ses variations sont
imprévisibles

a lt 1

yt est explosif
11
Présentation des Séries Temporelles
3. Modèles Mathématiques
1. Processus autorégressifs dordre 1, AR(1)
12
Présentation des Séries Temporelles
3. Modèles Mathématiques
2. Séries Multi variées
3. Processus autorégressif vectoriel, VAR(1)
4. Modèle autorégressif à retard distribués, ADL
13
Les Algorithmes
XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
14
Les Algorithmes
1. Présentation Générale
Listing des modèles

ARIMA (Box Jenkins) and Autocorrelations

Interrupted Time Series ARIMA

Exponential Smoothing

Seasonal Decomposition (Census1)

X-11 Census method II seasonal adjustement

Distributed Lags Analysis

Single Spectrum (Fourier) Analysis

Cross Spectrum Analysis

Spectrum Analysis

Fast Fourier Transformations

15
Les Algorithmes
2. Détails de lART dans SQL Server 2005
Lalgorithme est en fait une version hybride
dautorégression et des techniques darbres de
décisions.
Autorégression
1er étape La méthode Case Transform
Mois Lait Pain
Jan-2005 5000 4500
Fev-2005 5200 4600
Mar-2005 5240 5130
Avr-2005 6390 6280
Mai-2005 6750 6160
Jui-2005 6280 6560
Juy-2005 7680 7200

Case Id Lait (t-2) Lait (t-1) Lait (t0) Pain (t-2) Pain (t-1) Pain (t0)
1 5000 5200 5240 4500 4600 5130
2 5200 5240 6390 4600 5130 6280
3 5240 6390 6750 5130 6280 6160
4 6390 6750 6280 6280 6160 6560
5 6750 6280 7680 6160 6560 7200

Case Transform
16
Les Algorithmes
2. Détails de lART dans SQL Server 2005
2ème étape Trouver la fonction f
On a Xt f(Xt-1,Xt-2,,Xt-n) et
Si f est linéaire Xt a1Xt-1, a2Xt-2 anXt-n
et
où ai sont les coefficients dautorégression
Pour trouver f
trouver les ai
Méthode ajuster les coefficients par un
processus de minimisation
Abouti a un système déquations linéaires pour
les coefficients an (Yule Walker Equation)
Permet le calcul des coefficients grâce a la
matrice de covariance
1 r1 r2 r3 r4 rn-1
r1 1 r1 r2 r3 rn-2
r2 r1 1 r1 r2 rn-3
. . . . . . .
. . . . . . .
. . . . . . .
rn-1 rn-2 rn-3 rn-4 rn-5 1
a1
a2
a3
.
.
.
an
r1
r2
r3
.
.
.
rn

17
Les Algorithmes
2. Détails de lART dans SQL Server 2005
Autorégression Tree
La fonction f correspond a un arbre de régression
Représentation
18
Les Algorithmes
2. Détails de lART dans SQL Server 2005
Saisonnalité
Ex La moyenne des t en été nest pas la même
quen hiver, et le phénomène se répète tous les
ans.
Comment cela fonctionne dans lART
Pendant létape Case Transform , lalgorithme
ajoute des points de données basé sur des
paramètres de saisonnalité.
Paramètre Periodicity_Hint
Avec lexemple précédent et une période de
saisonnalité de 12mois, lalgorithme ajoute dans
la table
Lait(t-8x12)
Lait(t-12)
Lait(t-24)
Lait(t-36)

Lait(t0)
Pain(t-8x12)
Pain(t-12)
Pain(t-24)
Pain(t-36)

Pain(t0)
Note On peut spécifier plusieurs
Periodicity_Hint
Note Détection automatique la saisonnalité basé
sur lalgorithme Fast Fourier Transform
Note Lalgorithme reconnaît les séries
croisées
19
Les Algorithmes
2. Détails de lART dans SQL Server 2005
Saisonnalité
Les principaux paramètres de lART

Minimum_Support

Complexity_Penalty

Historical_Model_Count

Historical_Model_Gap

Periodicity_Hint

Auto_Detect_Periodicity

Maximum_Series_Value

Minimum_Series_Value

20
Les modèles ARIMA

Présentation
ARIMA (Auto-Regressive-Integrated-Moving
Average) popularisée et formalisée par Box et
Jenkins (1976).
Les processus autorégressifs supposent que
chaque point peut être prédit par la somme
pondérée dun ensemble de points précédents plus
un terme aléatoire derreur.
Le processus dintégration suppose que chaque
point présente une différence constante avec le
point précédent.
Les processus de moyenne mobile supposent que
chaque point est fonction des erreurs entachant
les points précédents plus sa propre erreur.

21
Les modèles ARIMA

Un modèle ARIMA est étiqueté comme modèle ARIMA
(p,d,q) dans lequel
p est le nombre de terme autorégressifs,
d est le nombre de différence,
q est le nombre de moyennes mobiles.

22
Les modèles ARIMA
2. Les différentes étapes On part de la série
temporelle originale de lévolution des unités de
ventes suivant
23
Les modèles ARIMA

Etape 1 détermination de lordre de
différenciation
Le graphique de la fonction dauto-corrélation
présente une régression lente et linéaire typique
de séries non stationnaires
Or la méthode ARIMA suppose que lon travaille
sur une série stationnaire, cest-à-dire que la
moyenne et la variance soient constantes dans le
temps.
On va donc remplacer la série originale par une
série de différences adjacentes.
Pour corriger la non-stationnarité des valeurs,
on pourra utiliser une transformation
logarithmique ou exponentielle.

24
Les modèles ARIMA
On a un écart type important 17.56. Cette série
nécessite donc dêtre différenciée. Une
différenciation dordre 1 suppose que la
différence entre 2 valeurs successives de y est
constante. On utilise donc la fonction suivante
yt - yt-1 µ ?t où µ est la constante du
modèle et représente la différence moyenne en
y. Si µ 0, la série est stationnaire. Une
première différenciation avec lapplication du
modèle ARIMA(0,1,0) donne les résidus suivants
La série semble a peu près
stationnaire et lécart type a été réduit de
manière importante 1.54 au lieu de 17.56.
25
Les modèles ARIMA

Si on essaie une seconde différenciation en
appliquant un modèle ARIMA(0,2,0).
Les modèles dordre 2 ne travaillent plus sur des
différences mais sur les différences de
différence. On utilisera alors léquation de
prédiction suivante
yt - 2yt-1 yt-2 µ ?t ou encore yt µ
2yt-1 - yt-2 ?t
on obtient les résultats suivants
Cette série montre des signes clairs de
sur-différenciation et lécart type a augmenté de
1.54 à 1.81. Ceci semble indiqué que lordre
optimal de différenciation pour cette série est
de 1.
Toute fois ce modèle devra être optimisé par
lajout des termes AR ou MA.

26
Les modèles ARIMA

Conclusion intermédiaire
Un modèle sans différenciation suppose que la
série originale est stationnaire.
Un modèle avec une différenciation d'ordre 1
suppose que la série originale présente une
tendance constante.
Un modèle avec une différenciation d'ordre 2
suppose que la série originale
présente une tendance variant dans le temps.

27
Les modèles ARIMA

Etape 2 détermination des termes AR
Analyse basée sur lexamen des fonctions
dauto-corrélation (ACF) et dauto-corrélations
partielles (PACF).
Auto-corrélation est la corrélation dune série
avec elle-même selon un décalage défini.
Les modèles autorégressifs supposent que yt est
une fonction linéaire des fonctions précédentes
yt µ ?1 yt-1 ?2 yt-2 ?3 yt-3 ?t
où ? est le choc aléatoire et ?1, ?2 et ?3 sont
les coefficients dauto-régression compris dans
lintervalle -1,1

28
Les modèles ARIMA
Si on ajuste cette série avec un modèle
ARIMA(2,1,0) on obtient les fonctions ACF ET PACF
suivantes Lanalyse montre que les
coefficients AR sont significativement différents
de 0 et que lécart type a été réduit de 10
(1.42 au lieu de 1.54). Léquation de prédiction
a donc la forme suivante yt µ yt-1
?1(yt-1 - yt-2) ?2(yt-2 - yt-3) avec µ
0.258178, ?1 0.2524 et ?2 0.195572 Cette
équation permet détablir le graphique de
prédictions suivant
29
Les modèles ARIMA

Etape 3 détermination des termes MA
Analyse également basée sur lexamen des
fonctions dauto-corrélation (ACF) et
dauto-corrélations partielles (PACF).
Les modèles à moyenne mobile suggèrent que la
série présente des fluctuations autour dune
valeur moyenne.
yt µ ?1 ?t-1 ?2 ?t-2 ?3 ?t-3 ?t
où ?1, ?2 et ?3 sont les coefficients de moyenne
mobile.
Lanalyse des différents résultats va montrer que
le modèle le plus pertinent serait un
ARIMA(0,2,1) dont léquation de prédiction serait
la suivante
yt 2yt-1 - yt-2 ?1?t-1

30
Les modèles ARIMA

Conclusion
Ces deux modèles peuvent ajuster de manière
alternative la série de départ.
Le choix d'un ou l'autre modèle peut reposer sur
des présupposé théoriques liés au phénomène
observé.
La décision n'est pas simple et les cas les plus
atypiques requièrent, outre l'expérience, de
nombreuses expérimentations avec des modèles
différents (avec divers paramètres ARIMA).
Puisque le nombre de paramètres (à estimer) de
chaque type dépasse rarement 2, il est souvent
judicieux d'essayer des modèles alternatifs sur
les mêmes données.
Toutefois, les composantes des séries
chronologiques empiriques peuvent souvent être
assez bien approchées en utilisant l'un des 5
modèles de base suivants, identifiables par la
forme de l'autocorrélogramme (FAC) et de
l'autocorrélogramme partiel (FACP).

31
Les modèles ARIMA
Modèle FAC FACP
Un paramètre autorégressif (p) décomposition exponentielle pic à la période 1, pas de corrélation pour les autres périodes.
Deux paramètres autorégressifs (p) une composante de forme sinusoïdale ou un ensemble de décompositions exponentielles pics aux périodes 1 et 2, Aucune corrélation pour les autres périodes.
Un paramètre de moyenne mobile (q) pic à la période 1, aucune corrélation pour les autres périodes exponentielle amortie.
Deux paramètres de moyenne mobile (q) pics aux périodes 1 et 2, Aucune corrélation pour les autres périodes une composante de forme sinusoïdale ou un ensemble de décompositions exponentielles.
Un paramètre autorégressif (p) et un de moyenne mobile (q) Décomposition exponentielle commençant à la période 1 décomposition exponentielle commençant à la période 1.
32
Comparatif des méthodes
XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
33
Comparatif des méthodes
La segmentation neuronale
Avantages

aptitude à modéliser des relations linéaires
entre les données,
on détermine automatiquement le nombre optimal
de segments au lieu de le fixer automatiquement.

Inconvénients

temps dexécution plus élevé du fait du nombre
ditérations nécessaires pour une bonne
segmentation,
se présentent comme des boîtes noires,
les segments sont moins différenciés en taille
et en contenu,
un bon apprentissage nécessite un grand
échantillon important pour un bon calcul,
les variables doivent être numériques et leurs
modalités comprises dans lintervalle 0,1 ce
qui implique une normalisation des données,
très sensibles aux valeurs extrêmes et aux
individus isolés.

34
Comparatif des méthodes
La méthode des centres mobiles
Avantages

temps dexécution proportionnel au nombre
dindividus ce qui la rend applicable à de grands
volumes de données,
nombre ditérations nécessaires est faible.

Inconvénients

ne sapplique quà des données continues ce qui
nécessite des transformations,
absence de solutions optimales mais des
meilleures solutions possibles par rapport aux
hypothèses dorigine,
le nombre de segments est fixé au départ. Il ya
donc un risque quon séloigne du véritable nuage
des individus.

35
Comparatif des méthodes
La méthode des arbres de décision
Avantages

grande compréhensibilité des résultats pour les
utilisateurs,
faible dépendance aux valeurs extrêmes ou
manquantes,
faible sensibilité au bruit des variables non
discriminantes,
permettent de gérer des variables de tout type
continues, discrètes, catégoriques,
certains arbres permettent de traiter un très
grand nombre de variables explicatives.

Inconvénients

larbre détecte des optimums locaux et non
globaux car il utilise les variables
séquentiellement et non simultanément. Le choix
dune branche nest plus jamais remis en cause,
lapprentissage nécessite un grand nombre
dindividus,
la forme des modèles obtenus ne correspond pas
forcément à celle de léchantillon,
les valeurs obtenues ne sont pas uniformément
distribuées,
le temps de calcul dun arbre est long.

36
Comparatif des méthodes
Les méthodes ARIMA
Avantages