Title: Time%20Series
1Time Series
- César Emmanuel
- Richard Bruno
XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
2Sommaire
- Présentation des Séries Temporelles
- Définitions Explications
- But de lAnalyse
- Modèles Mathématiques
- Les Algorithmes
- Présentation générale
- Détails de lART dans SQL Server 2005
- Détails du modèle ARIMA
- Avantages et inconvénients des différents modèles
3Présentation des Séries Temporelles
XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
4Présentation des Séries Temporelles
1. Définitions Explications
Sintéresser à la  dynamique dune variable
Lanalyse des séries temporelles
Définition
La suite dobservations (yt, t?T) dune variable
y à différentes dates t est appelée série
temporelle. Habituellement T est dénombrable, de
sorte que t1T.
Importance de la dimension temporelle
La périodicité de la série nimporte pas
5Présentation des Séries Temporelles
1. Définitions Explications
Une série temporelle est donc toute suite
dobservations correspondant à la même variable
PIB dun pays, Inflation, Exportations
Ventes dune entreprise donnée, Nombre
demployés, Revenus dun individu
CAC40, Prix dune option dachat, Cours dune
action
Pluviosité, Nombre de jours de soleil par an
Nombre de votants, Voix reçu par un candidat
Taille moyenne des habitants, Leur âge
Tout ce qui est chiffrable et varie en fonction
du temps
6Présentation des Séries Temporelles
1. Définitions Explications
Représentation
généralement un graphique de valeurs (ordonnées)
en fonction du temps (abscisses)
(a)
(b)
Stationnarité Tendance Saisonnalité
(c)
(d)
7Présentation des Séries Temporelles
2. But de lAnalyse
On peut en distinguer 9 principales applications
- Déterminer la causalité
- Étudier des anticipations des agents
- Repérer les tendances et cycles
- Corriger des variations saisonnières
- Détecter les chocs structurels
8Présentation des Séries Temporelles
3. Modèles Mathématiques
Définition
Le but poursuivi est la formulation dun modèle
statistique qui soit une représentation
congruente du processus stochastique qui génère
la série observée.
Approche
Il est en pratique impossible de connaître la
distribution dune série temporelle ytt0, on
sintéresse par conséquent à la modélisation de
la distribution conditionnelle de yt via sa
densité
f(yt Yt-1)
Conditionnée sur lhistorique du processus
Yt-1 (yt-1, yt-2,, y0)
Il sagit donc dexprimé yt en fonction de son
passé
9Présentation des Séries Temporelles
3. Modèles Mathématiques
Résultat
Lapproche conditionnelle fournit une
Décomposition Prévision Erreur selon laquelle
Yt Eyt Yt-1 et
Eyt Yt-1
est la composante de yt qui peut donner lieu Ã
une prévision, quand lhistorique du processus
Yt-1 est connu
où
et
représente les informations imprévisibles
10Présentation des Séries Temporelles
3. Modèles Mathématiques
Modèle de séries temporelles
1. Processus autorégressifs dordre 1, AR(1)
yt ayt-1 et
et WN(0,s2) (bruit blanc)
La valeur de yt ne dépend que de son
prédécesseur. Ses propriétés sont fonction de a
qui est facteur dinertie
yt est imprévisible et ne dépend pas de son
passé, on parle de bruit blanc
yt est stable autour de zéro
yt est instable et ses variations sont
imprévisibles
yt est explosif
11Présentation des Séries Temporelles
3. Modèles Mathématiques
1. Processus autorégressifs dordre 1, AR(1)
12Présentation des Séries Temporelles
3. Modèles Mathématiques
2. Séries Multi variées
3. Processus autorégressif vectoriel, VAR(1)
4. Modèle autorégressif à retard distribués, ADL
13Les Algorithmes
XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
14Les Algorithmes
1. Présentation Générale
Listing des modèles
- ARIMA (Box Jenkins) and Autocorrelations
- Interrupted Time Series ARIMA
- Seasonal Decomposition (Census1)
- X-11 Census method II seasonal adjustement
- Distributed Lags Analysis
- Single Spectrum (Fourier) Analysis
- Fast Fourier Transformations
15Les Algorithmes
2. Détails de lART dans SQL Server 2005
Lalgorithme est en fait une version hybride
dautorégression et des techniques darbres de
décisions.
Autorégression
1er étape La méthode Case Transform
Mois Lait Pain
Jan-2005 5000 4500
Fev-2005 5200 4600
Mar-2005 5240 5130
Avr-2005 6390 6280
Mai-2005 6750 6160
Jui-2005 6280 6560
Juy-2005 7680 7200
Case Id Lait (t-2) Lait (t-1) Lait (t0) Pain (t-2) Pain (t-1) Pain (t0)
1 5000 5200 5240 4500 4600 5130
2 5200 5240 6390 4600 5130 6280
3 5240 6390 6750 5130 6280 6160
4 6390 6750 6280 6280 6160 6560
5 6750 6280 7680 6160 6560 7200
Case Transform
16Les Algorithmes
2. Détails de lART dans SQL Server 2005
2ème étape Trouver la fonction f
On a Xt f(Xt-1,Xt-2,,Xt-n) et
Si f est linéaire Xt a1Xt-1, a2Xt-2 anXt-n
et
où ai sont les coefficients dautorégression
Pour trouver f
trouver les ai
Méthode ajuster les coefficients par un
processus de minimisation
Abouti a un système déquations linéaires pour
les coefficients an (Yule Walker Equation)
Permet le calcul des coefficients grâce a la
matrice de covariance
1 r1 r2 r3 r4 rn-1
r1 1 r1 r2 r3 rn-2
r2 r1 1 r1 r2 rn-3
. . . . . . .
. . . . . . .
. . . . . . .
rn-1 rn-2 rn-3 rn-4 rn-5 1
a1
a2
a3
.
.
.
an
r1
r2
r3
.
.
.
rn
17Les Algorithmes
2. Détails de lART dans SQL Server 2005
Autorégression Tree
La fonction f correspond a un arbre de régression
Représentation
18Les Algorithmes
2. Détails de lART dans SQL Server 2005
Saisonnalité
Ex La moyenne des t en été nest pas la même
quen hiver, et le phénomène se répète tous les
ans.
Comment cela fonctionne dans lART
Pendant létape  Case Transform , lalgorithme
ajoute des points de données basé sur des
paramètres de saisonnalité.
Paramètre Periodicity_Hint
Avec lexemple précédent et une période de
saisonnalité de 12mois, lalgorithme ajoute dans
la table
Lait(t-8x12)
Lait(t-12)
Lait(t-24)
Lait(t-36)
Lait(t0)
Pain(t-8x12)
Pain(t-12)
Pain(t-24)
Pain(t-36)
Pain(t0)
Note On peut spécifier plusieurs
Periodicity_Hint
Note Détection automatique la saisonnalité basé
sur lalgorithme  Fast Fourier TransformÂ
Note Lalgorithme reconnaît les  séries
croiséesÂ
19Les Algorithmes
2. Détails de lART dans SQL Server 2005
Saisonnalité
Les principaux paramètres de lART
20Les modèles ARIMA
- Présentation
- ARIMA (Auto-Regressive-Integrated-Moving
Average) popularisée et formalisée par Box et
Jenkins (1976). - Les processus autorégressifs supposent que
chaque point peut être prédit par la somme
pondérée dun ensemble de points précédents plus
un terme aléatoire derreur. - Le processus dintégration suppose que chaque
point présente une différence constante avec le
point précédent. - Les processus de moyenne mobile supposent que
chaque point est fonction des erreurs entachant
les points précédents plus sa propre erreur.
21Les modèles ARIMA
- Un modèle ARIMA est étiqueté comme modèle ARIMA
(p,d,q) dans lequel - p est le nombre de terme autorégressifs,
- d est le nombre de différence,
- q est le nombre de moyennes mobiles.
22Les modèles ARIMA
2. Les différentes étapes On part de la série
temporelle originale de lévolution des unités de
ventes suivant
23Les modèles ARIMA
- Etape 1 détermination de lordre de
différenciation - Le graphique de la fonction dauto-corrélation
présente une régression lente et linéaire typique
de séries non stationnaires - Or la méthode ARIMA suppose que lon travaille
sur une série stationnaire, cest-à -dire que la
moyenne et la variance soient constantes dans le
temps. - On va donc remplacer la série originale par une
série de différences adjacentes. - Pour corriger la non-stationnarité des valeurs,
on pourra utiliser une transformation
logarithmique ou exponentielle.
24Les modèles ARIMA
On a un écart type important 17.56. Cette série
nécessite donc dêtre différenciée. Une
différenciation dordre 1 suppose que la
différence entre 2 valeurs successives de y est
constante. On utilise donc la fonction suivante
yt - yt-1 µ ?t où µ est la constante du
modèle et représente la différence moyenne en
y. Si µ 0, la série est stationnaire. Une
première différenciation avec lapplication du
modèle ARIMA(0,1,0) donne les résidus suivants
La série semble a peu près
stationnaire et lécart type a été réduit de
manière importante 1.54 au lieu de 17.56.
25Les modèles ARIMA
- Si on essaie une seconde différenciation en
appliquant un modèle ARIMA(0,2,0). - Les modèles dordre 2 ne travaillent plus sur des
différences mais sur les différences de
différence. On utilisera alors léquation de
prédiction suivante - yt - 2yt-1 yt-2 µ ?t ou encore yt µ
2yt-1 - yt-2 ?t - on obtient les résultats suivants
- Cette série montre des signes clairs de
sur-différenciation et lécart type a augmenté de
1.54 à 1.81. Ceci semble indiqué que lordre
optimal de différenciation pour cette série est
de 1. - Toute fois ce modèle devra être optimisé par
lajout des termes AR ou MA.
26Les modèles ARIMA
- Conclusion intermédiaire
- Un modèle sans différenciation suppose que la
série originale est stationnaire. - Un modèle avec une différenciation d'ordre 1
suppose que la série originale présente une
tendance constante. - Un modèle avec une différenciation d'ordre 2
suppose que la série originale - présente une tendance variant dans le temps.
27Les modèles ARIMA
- Etape 2 détermination des termes AR
- Analyse basée sur lexamen des fonctions
dauto-corrélation (ACF) et dauto-corrélations
partielles (PACF). - Auto-corrélation est la corrélation dune série
avec elle-même selon un décalage défini. - Les modèles autorégressifs supposent que yt est
une fonction linéaire des fonctions précédentes - yt µ ?1 yt-1 ?2 yt-2 ?3 yt-3 ?t
- où ? est le choc aléatoire et ?1, ?2 et ?3 sont
les coefficients dauto-régression compris dans
lintervalle -1,1
28Les modèles ARIMA
Si on ajuste cette série avec un modèle
ARIMA(2,1,0) on obtient les fonctions ACF ET PACF
suivantes Lanalyse montre que les
coefficients AR sont significativement différents
de 0 et que lécart type a été réduit de 10
(1.42 au lieu de 1.54). Léquation de prédiction
a donc la forme suivante yt µ yt-1
?1(yt-1 - yt-2) ?2(yt-2 - yt-3) avec µ
0.258178, ?1 0.2524 et ?2 0.195572 Cette
équation permet détablir le graphique de
prédictions suivant
29Les modèles ARIMA
- Etape 3 détermination des termes MA
- Analyse également basée sur lexamen des
fonctions dauto-corrélation (ACF) et
dauto-corrélations partielles (PACF). - Les modèles à moyenne mobile suggèrent que la
série présente des fluctuations autour dune
valeur moyenne. - yt µ ?1 ?t-1 ?2 ?t-2 ?3 ?t-3 ?t
- où ?1, ?2 et ?3 sont les coefficients de moyenne
mobile. - Lanalyse des différents résultats va montrer que
le modèle le plus pertinent serait un
ARIMA(0,2,1) dont léquation de prédiction serait
la suivante - yt 2yt-1 - yt-2 ?1?t-1
30Les modèles ARIMA
- Conclusion
- Ces deux modèles peuvent ajuster de manière
alternative la série de départ. - Le choix d'un ou l'autre modèle peut reposer sur
des présupposé théoriques liés au phénomène
observé. - La décision n'est pas simple et les cas les plus
atypiques requièrent, outre l'expérience, de
nombreuses expérimentations avec des modèles
différents (avec divers paramètres ARIMA). - Puisque le nombre de paramètres (à estimer) de
chaque type dépasse rarement 2, il est souvent
judicieux d'essayer des modèles alternatifs sur
les mêmes données. - Toutefois, les composantes des séries
chronologiques empiriques peuvent souvent être
assez bien approchées en utilisant l'un des 5
modèles de base suivants, identifiables par la
forme de l'autocorrélogramme (FAC) et de
l'autocorrélogramme partiel (FACP).
31Les modèles ARIMA
Modèle FAC FACP
Un paramètre autorégressif (p) décomposition exponentielle pic à la période 1, pas de corrélation pour les autres périodes.
Deux paramètres autorégressifs (p) une composante de forme sinusoïdale ou un ensemble de décompositions exponentielles pics aux périodes 1 et 2, Aucune corrélation pour les autres périodes.
Un paramètre de moyenne mobile (q) pic à la période 1, aucune corrélation pour les autres périodes exponentielle amortie.
Deux paramètres de moyenne mobile (q) pics aux périodes 1 et 2, Aucune corrélation pour les autres périodes une composante de forme sinusoïdale ou un ensemble de décompositions exponentielles.
Un paramètre autorégressif (p) et un de moyenne mobile (q) Décomposition exponentielle commençant à la période 1 décomposition exponentielle commençant à la période 1.
32Comparatif des méthodes
XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
33Comparatif des méthodes
La segmentation neuronale
Avantages
- aptitude à modéliser des relations linéaires
entre les données, - on détermine automatiquement le nombre optimal
de segments au lieu de le fixer automatiquement.
Inconvénients
- temps dexécution plus élevé du fait du nombre
ditérations nécessaires pour une bonne
segmentation, - se présentent comme des boîtes noires,
- les segments sont moins différenciés en taille
et en contenu, - un bon apprentissage nécessite un grand
échantillon important pour un bon calcul, - les variables doivent être numériques et leurs
modalités comprises dans lintervalle 0,1 ce
qui implique une normalisation des données, - très sensibles aux valeurs extrêmes et aux
individus isolés.
34Comparatif des méthodes
La méthode des centres mobiles
Avantages
- temps dexécution proportionnel au nombre
dindividus ce qui la rend applicable à de grands
volumes de données, - nombre ditérations nécessaires est faible.
Inconvénients
- ne sapplique quà des données continues ce qui
nécessite des transformations, - absence de solutions optimales mais des
meilleures solutions possibles par rapport aux
hypothèses dorigine, - le nombre de segments est fixé au départ. Il ya
donc un risque quon séloigne du véritable nuage
des individus.
35Comparatif des méthodes
La méthode des arbres de décision
Avantages
- grande compréhensibilité des résultats pour les
utilisateurs, - faible dépendance aux valeurs extrêmes ou
manquantes, - faible sensibilité au bruit des variables non
discriminantes, - permettent de gérer des variables de tout type
continues, discrètes, catégoriques, - certains arbres permettent de traiter un très
grand nombre de variables explicatives.
Inconvénients
- larbre détecte des optimums locaux et non
globaux car il utilise les variables
séquentiellement et non simultanément. Le choix
dune branche nest plus jamais remis en cause, - lapprentissage nécessite un grand nombre
dindividus, - la forme des modèles obtenus ne correspond pas
forcément à celle de léchantillon, - les valeurs obtenues ne sont pas uniformément
distribuées, - le temps de calcul dun arbre est long.
36Comparatif des méthodes
Les méthodes ARIMA
Avantages
- modèle de référence dans léconométrie,
- permet de comprendre la signification théorique
de différents processus, - faible impact des valeurs extrêmes.
Inconvénients
- appropriées que si la série chronologique est
stationnaire, - nécessitent au moins 50 observations dans le
fichier de données, - nécessite de tester tous les paramètres donc
long en terme dapprentissage.
37Conclusion
Intérêt des séries temporelles
On considère lintérêt des séries temporelles
selon trois perspectives
- descriptive,
- explicative,
- prévisionnelle.