Time%20Series - PowerPoint PPT Presentation

About This Presentation
Title:

Time%20Series

Description:

Les processus autor gressifs supposent que chaque point peut tre pr dit par la ... Les processus de moyenne mobile supposent que chaque point est fonction des ... – PowerPoint PPT presentation

Number of Views:219
Avg rating:3.0/5.0
Slides: 38
Provided by: georgesGa
Category:

less

Transcript and Presenter's Notes

Title: Time%20Series


1
Time Series
  • César Emmanuel
  • Richard Bruno

XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
2
Sommaire
  • Présentation des Séries Temporelles
  • Définitions Explications
  • But de lAnalyse
  • Modèles Mathématiques
  • Les Algorithmes
  • Présentation générale
  • Détails de lART dans SQL Server 2005
  • Détails du modèle ARIMA
  • Avantages et inconvénients des différents modèles

3
Présentation des Séries Temporelles
XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
4
Présentation des Séries Temporelles
1. Définitions Explications
Sintéresser à la  dynamique  dune variable
Lanalyse des séries temporelles
Définition
La suite dobservations (yt, t?T) dune variable
y à différentes dates t est appelée série
temporelle. Habituellement T est dénombrable, de
sorte que t1T.
Importance de la dimension temporelle
La périodicité de la série nimporte pas
5
Présentation des Séries Temporelles
1. Définitions Explications
Une série temporelle est donc toute suite
dobservations correspondant à la même variable
  • Macroéconomiques

PIB dun pays, Inflation, Exportations
Ventes dune entreprise donnée, Nombre
demployés, Revenus dun individu
  • Microéconomiques
  • Financières

CAC40, Prix dune option dachat, Cours dune
action
  • Météorologiques

Pluviosité, Nombre de jours de soleil par an
  • Politiques

Nombre de votants, Voix reçu par un candidat
  • Démographiques

Taille moyenne des habitants, Leur âge
Tout ce qui est chiffrable et varie en fonction
du temps
6
Présentation des Séries Temporelles
1. Définitions Explications
Représentation
généralement un graphique de valeurs (ordonnées)
en fonction du temps (abscisses)
(a)
(b)
Stationnarité Tendance Saisonnalité
(c)
(d)
7
Présentation des Séries Temporelles
2. But de lAnalyse
On peut en distinguer 9 principales applications
  • Prévoir
  • Relier les variables
  • Déterminer la causalité
  • Étudier des anticipations des agents
  • Repérer les tendances et cycles
  • Corriger des variations saisonnières
  • Détecter les chocs structurels
  • Contrôler les processus

8
Présentation des Séries Temporelles
3. Modèles Mathématiques
Définition
Le but poursuivi est la formulation dun modèle
statistique qui soit une représentation
congruente du processus stochastique qui génère
la série observée.
Approche
Il est en pratique impossible de connaître la
distribution dune série temporelle ytt0, on
sintéresse par conséquent à la modélisation de
la distribution conditionnelle de yt via sa
densité
f(yt Yt-1)
Conditionnée sur lhistorique du processus
Yt-1 (yt-1, yt-2,, y0)
Il sagit donc dexprimé yt en fonction de son
passé
9
Présentation des Séries Temporelles
3. Modèles Mathématiques
Résultat
Lapproche conditionnelle fournit une
Décomposition Prévision Erreur selon laquelle
Yt Eyt Yt-1 et
Eyt Yt-1
est la composante de yt qui peut donner lieu à
une prévision, quand lhistorique du processus
Yt-1 est connu
où
et
représente les informations imprévisibles
10
Présentation des Séries Temporelles
3. Modèles Mathématiques
Modèle de séries temporelles
1. Processus autorégressifs dordre 1, AR(1)
yt ayt-1 et
et WN(0,s2) (bruit blanc)
La valeur de yt ne dépend que de son
prédécesseur. Ses propriétés sont fonction de a
qui est facteur dinertie
  • a 0

yt est imprévisible et ne dépend pas de son
passé, on parle de bruit blanc
  • a ? -1,1

yt est stable autour de zéro
  • a 1

yt est instable et ses variations sont
imprévisibles
  • a lt 1

yt est explosif
11
Présentation des Séries Temporelles
3. Modèles Mathématiques
1. Processus autorégressifs dordre 1, AR(1)
12
Présentation des Séries Temporelles
3. Modèles Mathématiques
2. Séries Multi variées
3. Processus autorégressif vectoriel, VAR(1)
4. Modèle autorégressif à retard distribués, ADL
13
Les Algorithmes
XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
14
Les Algorithmes
1. Présentation Générale
Listing des modèles
  • ARIMA (Box Jenkins) and Autocorrelations
  • Interrupted Time Series ARIMA
  • Exponential Smoothing
  • Seasonal Decomposition (Census1)
  • X-11 Census method II seasonal adjustement
  • Distributed Lags Analysis
  • Single Spectrum (Fourier) Analysis
  • Cross Spectrum Analysis
  • Spectrum Analysis
  • Fast Fourier Transformations

15
Les Algorithmes
2. Détails de lART dans SQL Server 2005
Lalgorithme est en fait une version hybride
dautorégression et des techniques darbres de
décisions.
Autorégression
1er étape La méthode Case Transform
Mois Lait Pain
Jan-2005 5000 4500
Fev-2005 5200 4600
Mar-2005 5240 5130
Avr-2005 6390 6280
Mai-2005 6750 6160
Jui-2005 6280 6560
Juy-2005 7680 7200

Case Id Lait (t-2) Lait (t-1) Lait (t0) Pain (t-2) Pain (t-1) Pain (t0)
1 5000 5200 5240 4500 4600 5130
2 5200 5240 6390 4600 5130 6280
3 5240 6390 6750 5130 6280 6160
4 6390 6750 6280 6280 6160 6560
5 6750 6280 7680 6160 6560 7200

Case Transform
16
Les Algorithmes
2. Détails de lART dans SQL Server 2005
2ème étape Trouver la fonction f
On a Xt f(Xt-1,Xt-2,,Xt-n) et
Si f est linéaire Xt a1Xt-1, a2Xt-2 anXt-n
et
où ai sont les coefficients dautorégression
Pour trouver f
trouver les ai
Méthode ajuster les coefficients par un
processus de minimisation
Abouti a un système déquations linéaires pour
les coefficients an (Yule Walker Equation)
Permet le calcul des coefficients grâce a la
matrice de covariance
1 r1 r2 r3 r4 rn-1
r1 1 r1 r2 r3 rn-2
r2 r1 1 r1 r2 rn-3
. . . . . . .
. . . . . . .
. . . . . . .
rn-1 rn-2 rn-3 rn-4 rn-5 1
a1
a2
a3
.
.
.
an
r1
r2
r3
.
.
.
rn

17
Les Algorithmes
2. Détails de lART dans SQL Server 2005
Autorégression Tree
La fonction f correspond a un arbre de régression
Représentation
18
Les Algorithmes
2. Détails de lART dans SQL Server 2005
Saisonnalité
Ex La moyenne des t en été nest pas la même
quen hiver, et le phénomène se répète tous les
ans.
Comment cela fonctionne dans lART
Pendant létape  Case Transform , lalgorithme
ajoute des points de données basé sur des
paramètres de saisonnalité.
Paramètre Periodicity_Hint
Avec lexemple précédent et une période de
saisonnalité de 12mois, lalgorithme ajoute dans
la table
Lait(t-8x12)
Lait(t-12)
Lait(t-24)
Lait(t-36)

Lait(t0)
Pain(t-8x12)
Pain(t-12)
Pain(t-24)
Pain(t-36)

Pain(t0)
Note On peut spécifier plusieurs
Periodicity_Hint
Note Détection automatique la saisonnalité basé
sur lalgorithme  Fast Fourier Transform 
Note Lalgorithme reconnaît les  séries
croisées 
19
Les Algorithmes
2. Détails de lART dans SQL Server 2005
Saisonnalité
Les principaux paramètres de lART
  • Minimum_Support
  • Complexity_Penalty
  • Historical_Model_Count
  • Historical_Model_Gap
  • Periodicity_Hint
  • Auto_Detect_Periodicity
  • Maximum_Series_Value
  • Minimum_Series_Value

20
Les modèles ARIMA
  • Présentation
  • ARIMA (Auto-Regressive-Integrated-Moving
    Average) popularisée et formalisée par Box et
    Jenkins (1976).
  • Les processus autorégressifs supposent que
    chaque point peut être prédit par la somme
    pondérée dun ensemble de points précédents plus
    un terme aléatoire derreur.
  • Le processus dintégration suppose que chaque
    point présente une différence constante avec le
    point précédent.
  • Les processus de moyenne mobile supposent que
    chaque point est fonction des erreurs entachant
    les points précédents plus sa propre erreur.

21
Les modèles ARIMA
  • Un modèle ARIMA est étiqueté comme modèle ARIMA
    (p,d,q) dans lequel
  • p est le nombre de terme autorégressifs,
  • d est le nombre de différence,
  • q est le nombre de moyennes mobiles.

22
Les modèles ARIMA
2. Les différentes étapes On part de la série
temporelle originale de lévolution des unités de
ventes suivant
23
Les modèles ARIMA
  • Etape 1 détermination de lordre de
    différenciation
  • Le graphique de la fonction dauto-corrélation
    présente une régression lente et linéaire typique
    de séries non stationnaires
  • Or la méthode ARIMA suppose que lon travaille
    sur une série stationnaire, cest-à-dire que la
    moyenne et la variance soient constantes dans le
    temps.
  • On va donc remplacer la série originale par une
    série de différences adjacentes.
  • Pour corriger la non-stationnarité des valeurs,
    on pourra utiliser une transformation
    logarithmique ou exponentielle.

24
Les modèles ARIMA
On a un écart type important 17.56. Cette série
nécessite donc dêtre différenciée. Une
différenciation dordre 1 suppose que la
différence entre 2 valeurs successives de y est
constante. On utilise donc la fonction suivante
yt - yt-1 µ ?t où µ est la constante du
modèle et représente la différence moyenne en
y. Si µ 0, la série est stationnaire. Une
première différenciation avec lapplication du
modèle ARIMA(0,1,0) donne les résidus suivants
La série semble a peu près
stationnaire et lécart type a été réduit de
manière importante 1.54 au lieu de 17.56.
25
Les modèles ARIMA
  • Si on essaie une seconde différenciation en
    appliquant un modèle ARIMA(0,2,0).
  • Les modèles dordre 2 ne travaillent plus sur des
    différences mais sur les différences de
    différence. On utilisera alors léquation de
    prédiction suivante
  • yt - 2yt-1 yt-2 µ ?t ou encore yt µ
    2yt-1 - yt-2 ?t
  • on obtient les résultats suivants
  • Cette série montre des signes clairs de
    sur-différenciation et lécart type a augmenté de
    1.54 à 1.81. Ceci semble indiqué que lordre
    optimal de différenciation pour cette série est
    de 1.
  • Toute fois ce modèle devra être optimisé par
    lajout des termes AR ou MA.

26
Les modèles ARIMA
  • Conclusion intermédiaire
  • Un modèle sans différenciation suppose que la
    série originale est stationnaire.
  • Un modèle avec une différenciation d'ordre 1
    suppose que la série originale présente une
    tendance constante.
  • Un modèle avec une différenciation d'ordre 2
    suppose que la série originale
  • présente une tendance variant dans le temps.

27
Les modèles ARIMA
  • Etape 2 détermination des termes AR
  • Analyse basée sur lexamen des fonctions
    dauto-corrélation (ACF) et dauto-corrélations
    partielles (PACF).
  • Auto-corrélation est la corrélation dune série
    avec elle-même selon un décalage défini.
  • Les modèles autorégressifs supposent que yt est
    une fonction linéaire des fonctions précédentes
  • yt µ ?1 yt-1 ?2 yt-2 ?3 yt-3 ?t
  • où ? est le choc aléatoire et ?1, ?2 et ?3 sont
    les coefficients dauto-régression compris dans
    lintervalle -1,1

28
Les modèles ARIMA
Si on ajuste cette série avec un modèle
ARIMA(2,1,0) on obtient les fonctions ACF ET PACF
suivantes Lanalyse montre que les
coefficients AR sont significativement différents
de 0 et que lécart type a été réduit de 10
(1.42 au lieu de 1.54). Léquation de prédiction
a donc la forme suivante yt µ yt-1
?1(yt-1 - yt-2) ?2(yt-2 - yt-3) avec µ
0.258178, ?1 0.2524 et ?2 0.195572 Cette
équation permet détablir le graphique de
prédictions suivant
29
Les modèles ARIMA
  • Etape 3 détermination des termes MA
  • Analyse également basée sur lexamen des
    fonctions dauto-corrélation (ACF) et
    dauto-corrélations partielles (PACF).
  • Les modèles à moyenne mobile suggèrent que la
    série présente des fluctuations autour dune
    valeur moyenne.
  • yt µ ?1 ?t-1 ?2 ?t-2 ?3 ?t-3 ?t
  • où ?1, ?2 et ?3 sont les coefficients de moyenne
    mobile.
  • Lanalyse des différents résultats va montrer que
    le modèle le plus pertinent serait un
    ARIMA(0,2,1) dont léquation de prédiction serait
    la suivante
  • yt 2yt-1 - yt-2 ?1?t-1

30
Les modèles ARIMA
  • Conclusion
  • Ces deux modèles peuvent ajuster de manière
    alternative la série de départ.
  • Le choix d'un ou l'autre modèle peut reposer sur
    des présupposé théoriques liés au phénomène
    observé.
  • La décision n'est pas simple et les cas les plus
    atypiques requièrent, outre l'expérience, de
    nombreuses expérimentations avec des modèles
    différents (avec divers paramètres ARIMA).
  • Puisque le nombre de paramètres (à estimer) de
    chaque type dépasse rarement 2, il est souvent
    judicieux d'essayer des modèles alternatifs sur
    les mêmes données.
  • Toutefois, les composantes des séries
    chronologiques empiriques peuvent souvent être
    assez bien approchées en utilisant l'un des 5
    modèles de base suivants, identifiables par la
    forme de l'autocorrélogramme (FAC) et de
    l'autocorrélogramme partiel (FACP).

31
Les modèles ARIMA
Modèle FAC FACP
Un paramètre autorégressif (p) décomposition exponentielle pic à la période 1, pas de corrélation pour les autres périodes.
Deux paramètres autorégressifs (p) une composante de forme sinusoïdale ou un ensemble de décompositions exponentielles pics aux périodes 1 et 2, Aucune corrélation pour les autres périodes.
Un paramètre de moyenne mobile (q) pic à la période 1, aucune corrélation pour les autres périodes exponentielle amortie.
Deux paramètres de moyenne mobile (q) pics aux périodes 1 et 2, Aucune corrélation pour les autres périodes une composante de forme sinusoïdale ou un ensemble de décompositions exponentielles.
Un paramètre autorégressif (p) et un de moyenne mobile (q) Décomposition exponentielle commençant à la période 1 décomposition exponentielle commençant à la période 1.
32
Comparatif des méthodes
XML et Data Mining 2005-2006 Université de
Versailles Saint-Quentin en Yvelines
33
Comparatif des méthodes
La segmentation neuronale
Avantages
  • aptitude à modéliser des relations linéaires
    entre les données,
  • on détermine automatiquement le nombre optimal
    de segments au lieu de le fixer automatiquement.

Inconvénients
  • temps dexécution plus élevé du fait du nombre
    ditérations nécessaires pour une bonne
    segmentation,
  • se présentent comme des boîtes noires,
  • les segments sont moins différenciés en taille
    et en contenu,
  • un bon apprentissage nécessite un grand
    échantillon important pour un bon calcul,
  • les variables doivent être numériques et leurs
    modalités comprises dans lintervalle 0,1 ce
    qui implique une normalisation des données,
  • très sensibles aux valeurs extrêmes et aux
    individus isolés.

34
Comparatif des méthodes
La méthode des centres mobiles
Avantages
  • temps dexécution proportionnel au nombre
    dindividus ce qui la rend applicable à de grands
    volumes de données,
  • nombre ditérations nécessaires est faible.

Inconvénients
  • ne sapplique quà des données continues ce qui
    nécessite des transformations,
  • absence de solutions optimales mais des
    meilleures solutions possibles par rapport aux
    hypothèses dorigine,
  • le nombre de segments est fixé au départ. Il ya
    donc un risque quon séloigne du véritable nuage
    des individus.

35
Comparatif des méthodes
La méthode des arbres de décision
Avantages
  • grande compréhensibilité des résultats pour les
    utilisateurs,
  • faible dépendance aux valeurs extrêmes ou
    manquantes,
  • faible sensibilité au bruit des variables non
    discriminantes,
  • permettent de gérer des variables de tout type
    continues, discrètes, catégoriques,
  • certains arbres permettent de traiter un très
    grand nombre de variables explicatives.

Inconvénients
  • larbre détecte des optimums locaux et non
    globaux car il utilise les variables
    séquentiellement et non simultanément. Le choix
    dune branche nest plus jamais remis en cause,
  • lapprentissage nécessite un grand nombre
    dindividus,
  • la forme des modèles obtenus ne correspond pas
    forcément à celle de léchantillon,
  • les valeurs obtenues ne sont pas uniformément
    distribuées,
  • le temps de calcul dun arbre est long.

36
Comparatif des méthodes
Les méthodes ARIMA
Avantages
  • modèle de référence dans léconométrie,
  • permet de comprendre la signification théorique
    de différents processus,
  • faible impact des valeurs extrêmes.

Inconvénients
  • appropriées que si la série chronologique est
    stationnaire,
  • nécessitent au moins 50 observations dans le
    fichier de données,
  • nécessite de tester tous les paramètres donc
    long en terme dapprentissage.

37
Conclusion
Intérêt des séries temporelles
On considère lintérêt des séries temporelles
selon trois perspectives
  • descriptive,
  • explicative,
  • prévisionnelle.
Write a Comment
User Comments (0)
About PowerShow.com