Saturday, 21 October 2017

Glidande medelvärde modell acf


Generella säsongsbetonade ARIMA-modeller: (0,1,1) x (0,1,1) etc. Översikt av säsongsbetonad ARIMA-modellering: Den säsongsmässiga delen av en ARIMA-modell har samma struktur som den icke-säsongsbetonade delen: det kan ha en AR-faktor, en MA-faktor, och eller en ordning med differentiering. I den säsongsmässiga delen av modellen arbetar alla dessa faktorer över multiplar av lag s (antalet perioder under en säsong). En säsongsbetonad ARIMA-modell klassificeras som en ARIMA-modell (p, d, q) x (P, D, Q), där Pnumber av säsongens autoregressiva (SAR) termer, Dnumber av säsongsskillnader, Qnumber med säsongsrörliga medelvärden Vid identifieringen av en säsongsmodell är det första steget att avgöra huruvida en säsongsskillnad behövs, förutom eller kanske istället för en säsongsbetonad skillnad. Du bör titta på tidsserier och ACF - och PACF-tomter för alla möjliga kombinationer av 0 eller 1 icke-säsongsskillnad och 0 eller 1 säsongsskillnad. Varning: Använd aldrig någonsin mer än en säsongsskillnad, eller mer än två totala skillnader (säsongsbetonad och utan säsong kombinerad). Om säsongsmönstret är både starkt och stabilt över tid (t. ex. högt på sommaren och lågt på vintern eller vice versa), ska du förmodligen använda en säsongsskillnad oavsett om du använder en säsongsmässig skillnad, eftersom det här kommer förhindra att säsongsmönstret avviker från de långsiktiga prognoserna. Låt oss lägga till detta i vår lista med regler för att identifiera modeller Regel 12: Om serien har ett starkt och konsekvent säsongsmönster, bör du använda en ordningsföljd av säsongsskillnader - men använd aldrig mer än en ordningsföljd av säsongsskillnader eller mer än 2 order av total differensiering (seasonalnasonasonal). Signaturen för rent SAR eller rent SMA-beteende liknar signaturen av rent AR eller rent MA-beteende, förutom att mönstret uppträder över multiplar av lag s i ACF och PACF. Till exempel har en ren SAR (1) - process spikar i ACF vid lags s, 2s, 3s, etc. medan PACF skärs av efter lag s. Omvänt har en ren SMA (1) - process spikar i PACF vid lags s, 2s, 3s, etc. medan ACF avbryts efter fördröjning s. En SAR-signatur uppträder vanligtvis när autokorrelationen under säsongperioden är positiv e, medan en SMA-signatur vanligtvis uppstår när säsongens autokorrelation är negativ. Därmed: Regel 13: Om autokorrelationen under säsongperioden är positiv. Överväg att lägga till en SAR-term i modellen. Om autokorrelationen under säsongperioden är negativ. överväg att lägga till en SMA-term i modellen. Försök att undvika att blanda SAR - och SMA-termer i samma modell och undvik att använda mer än något av något slag. Vanligtvis är en SAR (1) eller SMA (1) termen tillräcklig. Du kommer sällan att stöta på en äkta SAR (2) eller SMA (2) - process och har ännu sällan tillräckligt med data för att uppskatta 2 eller flera säsongskoefficienter utan att estimeringsalgoritmen kommer in i en kvotbackback loop. quot Även om en säsongsbetonad ARIMA-modell verkar ha bara några parametrar, kom ihåg att backforecasting kräver uppskattning av en eller två säsonger värt av implicita parametrar för att initiera den. Därför bör du ha minst 4 eller 5 säsonger av data för att passa en säsongsbetonad ARIMA-modell. Förmodligen är den mest använda säsongsmässiga ARIMA modellen modellen (0,1,1) x (0,1,1) - dvs. en MA (1) xSMA (1) modell med både säsongsbetonad och en säsongsbetonad skillnad. Detta är i grunden en kvotasonal exponentiell smoothingquot-modell. När säsongsbetonade ARIMA-modeller är utrustade med loggade data kan de spåra ett multiplicativt säsongsmönster. Exempel: Reviderad AUTOSALE-serie Minns att vi tidigare förutspådde försäljningsserien för detaljhandeln genom att använda en kombination av deflation, säsongjustering och exponentiell utjämning. Låt oss nu försöka montera samma serie med säsongsbetonade ARIMA-modeller, med samma samplingsdata från januari 1970 till maj 1993 (281 observationer). Som tidigare kommer vi att arbeta med deflaterad automatisk försäljning - dvs. vi kommer att använda serien AUTOSALECPI som ingångsvariabel. Här är tidsserierna och ACF - och PACF-diagrammen i den ursprungliga serien, vilka erhålls i prognosproceduren genom att plotta quotresidualsquot av en ARIMA (0,0,0) x (0,0,0) modell med konstant: The quotsuspension bridgequot mönster i ACF är typiskt för en serie som är både icke-stationär och starkt säsongsbetonad. Det är uppenbart att vi behöver minst en ordning med differentiering. Om vi ​​tar en icke-säsongsskillnad, är de motsvarande diagrammen följande: De olika serierna (resterna av en slumpmässig walk-on-growth-modell) ser mer eller mindre stationära ut, men det finns fortfarande mycket stark autokorrelation under säsongsperioden (lag 12). Eftersom säsongsmönstret är starkt och stabilt vet vi (från regel 12) att vi kommer att vilja använda en ordning med säsongsskillnader i modellen. Här ser du hur bilden ser ut efter en säsongsskillnad (endast): Den säsongsvariationerade serien visar ett mycket starkt mönster av positiv autokorrelation, vilket vi påminner om från vårt tidigare försök att passa en säsongsmässig slumpmässig promenadmodell. Det här kan vara en kvotens signaturquot - eller det kan signalera behovet av en annan skillnad. Om vi ​​tar både en säsongsmässig och icke-säsongsskillnad erhålls följande resultat: Det här är förstås de rester från den säsongsmässiga slumpmässiga trendmodellen som vi tidigare monterade på försäljningsdata. Vi ser nu telltale tecken på mild overdifferensiering. De positiva spikarna i ACF och PACF har blivit negativa. Vad är den korrekta ordningen för differentiering En ytterligare information som kan vara till hjälp är en beräkning av felstatistiken i serien på varje nivå av differentiering. Vi kan beräkna dessa genom att passa motsvarande ARIMA-modeller där endast differens används. De minsta felen, både i beräkningsperioden och i valideringsperioden, erhålls genom modell A, som använder en skillnad av varje typ. Detta, tillsammans med utseendet på tomterna ovan, föreslår starkt att vi bör använda både en säsongsbetonad och en nonseasonal skillnad. Observera att förutom den gratuösa konstanta termen är modell A SRT-modellen, medan modell B bara är SRW-modellen. Som vi noterade tidigare när man jämförde dessa modeller verkar SRT-modellen passa bättre än SRW-modellen. I analysen som följer kommer vi att försöka förbättra dessa modeller genom att lägga till säsongsbetonade ARIMA villkor. Återgå till början av sidan. Den ofta använda ARIMA-modellen (0,1,1) x (0,1,1): SRT-modellen plus MA (1) och SMA (1) termer Återgå till den sista uppsättningen diagram ovan, observera det med en skillnad på varje typ finns en negativ spik i ACF vid lag 1 och även en negativ spik i ACF vid lag 12. medan PACF visar ett mer gradvis citadecayotmönster i närheten av båda dessa lager. Genom att tillämpa våra regler för att identifiera ARIMA-modeller (specifikt regel 7 och regel 13) kan vi nu dra slutsatsen att SRT-modellen skulle förbättras genom att tillägga en MA (1) term och en SMA (1) term. Genom regel 5 utesluter vi också konstanten eftersom två order av differentiering är inblandade. Om vi ​​gör allt detta får vi modellen ARIMA (0,1,1) x (0,1,1). vilket är den vanligaste säsongsbetonade ARIMA-modellen. Dess prognosekvation är: där 952 1 är MA (1) - koefficienten och 920 1 (kapital theta-1) är SMA (1) - koefficienten. Observera att det här är bara den säsongsmässiga slumpmässiga trendmodellen som fancied-up genom att lägga till multiplar av felen i lags 1, 12 och 13. Också observera att koefficienten för lag-13-felet är produkten från MA (1) och SMA (1) koefficienter. Denna modell är begreppsmässigt liknande Winters-modellen i den mån den effektivt tillämpar exponentiell utjämning till nivå, trend och säsongssituation på en gång, även om den bygger på mer solida teoretiska fundament, särskilt när det gäller att beräkna konfidensintervall för långsiktiga prognoser. Dess kvarvarande tomter är i detta fall följande: Även om en liten mängd autokorrelation förblir vid lag 12 är det totala utseendet på tomterna bra. Modellerna som visar resultat visar att de uppskattade MA (1) och SMA (1) koefficienterna (erhållna efter 7 iterationer) är faktiskt signifikanta: Prognoserna från modellen liknar den säsongsmässiga slumpmässiga trendmodellen - dvs. de plockar upp säsongsmönstret och den lokala trenden i slutet av serien - men de är lite slätare eftersom både säsongsmönster och trend effektivt ses som medelvärde (i en exponentiell utjämning) över den sista några årstider: Vad gör den här modellen verkligen Du kan tänka på det på följande sätt. Först beräknar man skillnaden mellan varje monthly8217s värde och ett 8220 exponentialt viktat historiskt genomsnitt8221 för den månaden som beräknas genom att applicera exponentiell utjämning till värden som observerades under samma månad i tidigare år, där mängden utjämning bestäms av SMA (1 ) koefficienten. Då tillämpas det enbart exponentiell utjämning på dessa skillnader för att kunna förutse avvikelsen från det historiska genomsnittet som kommer att observeras nästa månad. Värdet av SMA (1) - koefficienten nära 1,0 tyder på att många säsonger av data används för att beräkna det historiska genomsnittet för en viss månad av året. Minns att en MA (1) - koefficient i en ARIMA-modell (0,1,1) motsvarar 1-minus-alfa i motsvarande exponentiell utjämningsmodell, och att medelåldern för data i en exponentiell utjämningsmodellprognos är 1 apha. SMA (1) - koefficienten har en liknande tolkning med avseende på medelvärden mellan säsonger. Här tyder sitt värde på 0,91 att medelåldern för de data som används för att uppskatta det historiska säsongsmönstret är lite mer än 10 år (nästan hälften av datasatsen), vilket innebär att ett nästan konstant säsongsmönster antas. Det mycket mindre värdet på 0,5 för MA (1) - koefficienten tyder på att relativt liten utjämning görs för att uppskatta den aktuella avvikelsen från det historiska genomsnittet för samma månad, så nästa månad8217s förutspådda avvikelse från dess historiska medelvärde kommer att ligga nära avvikelserna från det historiska genomsnittet som observerades under de senaste månaderna. ARIMA-modellen (1,0,0) x (0,1,0) med konstant: SRW-modell plus AR (1) termen Den tidigare modellen var en modell för säsongsrelaterad trend (SRT) finjusterad genom tillsats av MA 1) och SMA (1) koefficienter. En alternativ ARIMA-modell för denna serie kan erhållas genom att ersätta en AR (1) term för nonseasonal skillnaden - dvs. genom att lägga till en AR (1) term till serien SRM (Seasonal Random Walk). Detta kommer att göra det möjligt för oss att bevara säsongsmönstret i modellen samtidigt som den totala skillnaden sänks, vilket ökar stabiliteten hos trendprojektionerna om så önskas. (Minns det med en säsongsskillnad ensam, ser serien ut en stark AR (1) signatur.) Om vi ​​gör det får vi en ARIMA (1,0,0) x (0,1,0) modell med konstant, vilket ger följande resultat: AR-koefficienten är verkligen mycket signifikant, och RMSE är bara 2,06 jämfört med 3,00 för SRW-modellen (modell B i jämförelsesrapporten ovan). Prognosekvationen för denna modell är: Tilläggstiden på högra sidan är en multipel av säsongsskillnaden observerad under den senaste månaden, vilket medför att korrigeringen av effekten av ett ovanligt gott eller dåligt år korrigeras. Här betecknar 981 1 AR (1) - koefficienten, vars uppskattade värde är 0,73. Om till exempel om försäljningen förra månaden var X dollar före försäljningen ett år tidigare, skulle kvantiteten 0,73X läggas till prognosen för denna månad. 956 betecknar CONSTANT i prognosekvationen, vars uppskattade värde är 0,20. Den uppskattade MÄNGDEN, vars värde är 0,75, är medelvärdet för den säsongsvariationerade serien, vilket är den årliga trenden i de långsiktiga prognoserna för denna modell. Konstanten är (per definition) lika med medeltiderna 1 minus AR (1) - koefficienten: 0,2 0,75 (1 8211 0,73). Prognosplotten visar att modellen verkligen gör ett bättre jobb än SRW-modellen för att spåra cykliska förändringar (dvs ovanligt bra eller dåliga år): MSE för denna modell är dock fortfarande betydligt större än vad vi fick för ARIMA (0, 1,1) x (0,1,1) modell. Om vi ​​tittar på rester av rester ser vi utrymme för förbättringar. Resterna visar fortfarande ett tecken på cyklisk variation: ACF och PACF föreslår behovet av både MA (1) och SMA (1) koefficienter: En förbättrad version: ARIMA (1,0,1) x (0,1,1) med konstant Om vi ​​lägger till de angivna MA (1) och SMA (1) termerna till föregående modell, erhåller vi en ARIMA (1,0,1) x (0,1,1) modell med konstant vars prognosförening är This är nästan detsamma som ARIMA-modellen (0,1,1) x (0,1,1), förutom att den ersätter den icke-säsongsskillnad med en AR (1) term (en kvotentialskillnad) och den innehåller en konstant term som representerar långsiktig trend. Därför antar denna modell en mer stabil trend än ARIMA-modellen (0,1,1) x (0,1,1), och det är den huvudsakliga skillnaden mellan dem. De modellanpassade resultaten är följande: Observera att den uppskattade AR (1) - koefficienten (981 1 i modellekvationen) är 0,96, som ligger mycket nära 1,0 men inte så nära att det föreslås att det absolut borde ersättas med en första skillnad: dess standardfel är 0,02, så det är ca 2 standardfel från 1.0. Den andra statistiken av modellen (de uppskattade MA (1) och SMA (1) koefficienterna och felstatistiken i estimerings - och valideringsperioderna är annars nästan identiska med de för ARIMA (0,1,1) x (0,1 , 1) modell. (De uppskattade MA (1) och SMA (1) koefficienterna är 0,45 och 0,91 i denna modell vs 0,48 och 0,91 i den andra.) Den uppskattade MEAN på 0,68 är den förutsagda långsiktiga trenden (genomsnittlig årlig ökning). Detta är i huvudsak samma värde som erhölls i (1,0,0) x (0,1,0) - med-konstant modell. Standardfelet för det uppskattade medelvärdet är 0,26, så skillnaden mellan 0,75 och 0,68 är inte signifikant. Om konstanten inte inkluderades i den här modellen skulle den vara en dämpad trendmodell: trenden i de mycket långsiktiga prognoserna skulle gradvis utplansas. Punktprognoserna från denna modell ser ganska ut som de som är av typen 0,1,1 (0,1,1), eftersom den genomsnittliga trenden liknar den lokala trenden i slutet av serien. Förtroendeintervallet för denna modell utökas dock något mindre på grund av antagandet att trenden är stabil. Observera att konfidensgränserna för de tvååriga prognoserna nu ligger inom de horisontella rutorna vid 24 och 44, medan de av modellen (0,1,1) x (0,1,1) inte var: Seasonal ARIMA jämfört med exponentiell utjämning och säsongsjustering: Nu kan vi jämföra prestanda de två bästa ARIMA-modellerna mot enkla och linjära exponentiella utjämningsmodeller tillsammans med multiplicativ säsongjustering och Winters-modellen, som visas i bilderna på prognoser med säsongsjustering: Felstatistiken för Prognoserna för alla framtidsprognoser är extremt nära i det här fallet. Det är svårt att välja en 8220winner8221 baserat på dessa siffror ensamma. Återgå till början av sidan. Vilka är skillnaderna mellan de olika säsongsmodellerna De tre modellerna som använder multiplicativ säsongsjustering handlar om säsongsmässighet på ett tydligt sätt - dvs. säsongens index bryts ut som en explicit del av modellen. ARIMA-modellerna hanterar säsongsmässigt på ett mer implisitt sätt - vi kan inte se i ARIMA-produktionen hur genomsnittet i december säger, skiljer sig från medeltalet juli. Beroende på om det anses viktigt att isolera säsongsmönstret kan detta vara en faktor vid valet mellan olika modeller. ARIMA-modellerna har fördelen att de, när de initialiseras, har färre kvoter än de exponentiella utjämnings - och justeringsmodellerna, och som sådana kan de vara mindre benägna att överföra data. ARIMA-modellerna har också en mer solid underliggande teori med avseende på beräkningen av konfidensintervaller för längre horisontprognoser än de andra modellerna. Det finns mer dramatiska skillnader bland modellerna med avseende på beteendet hos sina prognoser och konfidensintervall för prognoser mer än en period framåt. Det är här de antaganden som görs med hänsyn till förändringar i trend och säsongsmönster är mycket viktiga. Mellan de två ARIMA-modellerna beräknar en (modell A) en tidsvarierande trend, medan den andra (modell B) innehåller en långsiktig genomsnittlig trend. (Vi kunde, om vi önskade, utplåna den långsiktiga trenden i modell B genom att undertrycka den konstanta termen.) Bland modellerna för exponentiell utjämning plus plus antar en (modell C) en platt trend medan den andra modell D) antar en tidsvarierande trend. Wintersmodellen (E) antar också en tidsvarierande trend. Modeller som antar en konstant trend är relativt säkrare i sina långsiktiga prognoser än modeller som inte gör det, och det brukar återspeglas i hur mycket konfidensintervall för prognoser blir bredare vid längre prognoshorisonter. Modeller som inte antar tidsvarierande trender har vanligtvis smalare konfidensintervaller för längre horisontprognoser, men smalare är inte bättre om inte detta antagande är korrekt. De två exponentiella utjämningsmodellerna kombinerat med säsongsjustering förutsätter att säsongsmönstret har varit konstant under de 23 åren i dataprovet, medan de andra tre modellerna inte gör det. I den mån säsongsmönstret står för det mesta av månad till månadens variation i uppgifterna är det viktigt att förutse vad som kommer att hända flera månader in i framtiden. Om säsongsmönstret tros ha förändrats långsamt över tiden, skulle en annan metod vara att bara använda en kortare datalogik för att anpassa modellerna som uppskattar fasta säsongsindex. För rekordet är här prognoserna och 95 konfidensgränser för maj 1995 (24 månader framåt) som produceras av de fem modellerna: Poängprognoserna är faktiskt förvånansvärt nära varandra i förhållande till bredden av alla konfidensintervall. SES-poängprognosen är den lägsta, eftersom den är den enda modellen som inte antar en uppåtgående trend i slutet av serien. ARIMA (1,0,1) x (0,1,1) c-modellen har de minsta konfidensgränserna, eftersom det förutsätter mindre tidsvariation i parametrarna än de andra modellerna. Dessutom är dess prognosprognos något större än de andra modellernas, eftersom den extrapolerar en långsiktig trend snarare än en kortsiktig trend (eller ingen trend). Winters modellen är minst stabil i modellerna och dess prognos har därför de största konfidensgränserna, vilket framgår av detaljerade prognosplottor för modellerna. Och prognoserna och konfidensgränserna för ARIMA-modellen (0,1,1) x (0,1,1) och de av LESseasonaljusteringsmodellen är nästan identiska att logga eller inte logga någonting som vi ännu inte har gjort, men kan ha, är en logtransformation som en del av modellen. Seasonal ARIMA-modeller är i sig additiva modeller, så om vi vill fånga ett multiplicativt säsongsmönster. Vi måste göra det genom att logga in data innan du monterar ARIMA-modellen. (I Statgraphics skulle vi bara behöva ange kvadratisk Logquot som ett modelleringsalternativ - ingen stor sak.) I det här fallet verkar deflationstransformationen ha gjort ett tillfredsställande jobb för att stabilisera amplituden för säsongscyklerna, så det gör inte verkar vara en tvingande anledning att lägga till en loggförändring vad gäller långsiktiga trender. Om resterna visade en markant ökning av variationen över tiden, kan vi bestämma oss annars. Det är fortfarande fråga om huruvida felet i dessa modeller har en konsekvent varians över månaderna på året. Om de inte gör det, kan konfidensintervall för prognoser tendera att vara för breda eller för smala enligt säsongen. Resterande vs-tid-tomter visar inte ett uppenbart problem i detta avseende, men för att vara noggrann skulle det vara bra att titta på felvariationen per månad. Om det verkligen finns ett problem, kan en loggomvandling fixa den. Returnera till början av sidan. Identifiera antalet AR - eller MA-termer i en ARIMA-modell ACF - och PACF-diagram: Efter en tidsserie har stationerats genom differentiering, är nästa steg för att ange en ARIMA-modell att bestämma om AR - eller MA-termerna är behövs för att korrigera någon autokorrelation som förblir i den olika serien. Självklart kan du, med programvara som Statgraphics, bara prova olika kombinationer av termer och se vad som fungerar bäst. Men det finns ett mer systematiskt sätt att göra detta. Genom att titta på autokorrelationsfunktionen (ACF) och partial autocorrelation (PACF) av de olika serierna kan du preliminärt identifiera antalet AR andor MA termer som behövs. Du är redan bekant med ACF-diagrammet: det är bara ett stapeldiagram över koefficienterna för korrelation mellan en tidsserie och lagar av sig själv. PACF-plot är en plot av de partiella korrelationskoefficienterna mellan serien och lager av sig själv. I allmänhet är quotpartialquot-korrelationen mellan två variabler mängden korrelation mellan dem som inte förklaras av deras ömsesidiga korrelationer med en specificerad uppsättning andra variabler. Om vi ​​till exempel regresserar en variabel Y på andra variabler X1, X2 och X3 är den partiella korrelationen mellan Y och X3 mängden korrelation mellan Y och X3 som inte förklaras av deras gemensamma korrelationer med X1 och X2. Denna partiella korrelation kan beräknas som kvadratroten av reduktionen i variansen som uppnås genom att lägga X3 till regressionen av Y på X1 och X2. En partiell automatisk korrelation är mängden korrelation mellan en variabel och en lag i sig som inte förklaras av korrelationer i alla lägre ordningslag. Autokorrelationen av en tidsserie Y vid lag 1 är koefficienten för korrelation mellan Y t och Y t - 1. vilket förmodligen också är sambandet mellan Yt-1 och Yt-2. Men om Y t är korrelerad med Y t -1. och Y t-1 är lika korrelerad med Y t-2. då borde vi också förvänta oss att hitta korrelation mellan Y t och Y t-2. Faktum är att den korrelation som vi borde förvänta oss vid lag 2 är exakt kvadraten av lag-1-korrelationen. Korrelationen vid lag 1 citerar således kvoten till lag 2 och förmodligen till högre ordning. Den partiella autokorrelationen vid lag 2 är därför skillnaden mellan den faktiska korrelationen vid lag 2 och den förväntade korrelationen på grund av propagation av korrelation vid lag 1. Här är autokorrelationsfunktionen (ACF) i UNITS-serien innan någon skillnad utförs: Autokorrelationerna är signifikanta för ett stort antal lags - men kanske är autokorrelationerna vid lags 2 och över bara beroende av utbredningen av autokorrelationen vid lag 1. Det bekräftas av PACF-plot: Observera att PACF-plotet har en signifikant spik endast vid lag 1, vilket innebär att alla högre orderautokorrelationer effektivt förklaras av lag-1 autokorrelationen. De partiella autokorrelationerna i alla lags kan beräknas genom att passa en följd av autoregressiva modeller med ökande antal lags. I synnerhet är den partiella autokorrelationen vid lag k lika med den uppskattade AR (k) - koefficienten i en autoregressiv modell med k-termer, dvs en multipelregressionsmodell där Y regresseras på LAG (Y, 1), LAG (Y, 2), etc. upp till LAG (Y, k). Således kan du, genom enbart inspektion av PACF, bestämma hur många AR-termer du behöver använda för att förklara autokorrelationsmönstret i en tidsserie: om den partiella autokorrelationen är signifikant vid lag k och inte signifikant vid vilken högre ordning som helst, dvs om PACF citerar offquot vid lag k - det här tyder på att du ska försöka anpassa en autoregressiv modell av order k PACF i UNITS-serien ger ett extremt exempel på cut-off-fenomenet: det har en mycket stor spets vid lag 1 och inga andra signifikanta spikar, vilket indikerar att en AR (1) modell borde användas i avsaknad av differentiering. AR (1) termen i denna modell kommer dock att motsvara en första skillnad, eftersom den uppskattade AR (1) - koefficienten (vilken är höjden av PACF-spetsen vid lag 1) kommer att vara nästan exakt lika med 1 . Förutsättningsekvationen för en AR (1) - modell för en serie Y utan ordningsskillnader är nu: Om AR (1) - koefficienten 981 1 i denna ekvation är lika med 1, motsvarar den att förutsäga att den första skillnaden av Y är konstant - dvs det motsvarar ekvationen för den slumpmässiga promenadmodellen med tillväxt: PACF i UNITS-serien säger att om vi inte skiljer det, ska vi passa en AR (1) modell som kommer att visa sig vara likvärdig med att ta en första skillnad. Med andra ord, det berättar för oss att enheter verkligen behöver en order för differentiering att vara stationäriserad. AR - och MA-signaturer: Om PACF visar en skarp avstängning medan ACF sönder långsammare (dvs. har betydande spikar vid högre lags), säger vi att den stationära serien visar en kvot-signatur, vilket betyder att autokorrelationsmönstret lättare kan förklaras genom att lägga till AR-villkor än genom att lägga till MA-termer. Du kommer förmodligen att finna att en AR-signatur ofta är associerad med positiv autokorrelation vid lag 1 - dvs. det tenderar att uppstå i serie som är något under olika. Anledningen till detta är att en AR-term kan fungera som en kvotdifferentialkvoten i prognosekvationen. I en AR (1) - modell fungerar AR-termen som en första skillnad om den autoregressiva koefficienten är lika med 1, det gör inget om den autoregressiva koefficienten är noll och den fungerar som en partiell skillnad om koefficienten är mellan 0 och 1. Så, om serien är något underdifferentierad - dvs om det icke-stationära mönstret av positiv autokorrelation inte helt har eliminerats kommer den att kvotera förquot en partiell skillnad genom att visa en AR-signatur. Följaktligen har vi följande tumregel för att bestämma när du ska lägga till AR-termer: Regel 6: Om PACF för de olika serierna visar en skarp cutoff andor är lag-1 autokorrelationen positiv - dvs. om serien verkar något quotunderdifferencedquot - överväg då att lägga till en AR-term till modellen. Lagen vid vilken PACF avbryts är det angivna antalet AR-termer. I princip kan varje autokorrelationsmönster avlägsnas från en stationär serie genom att lägga till tillräckligt autoregressiva termer (lags av den stationära serien) till prognosförhållandet, och PACF berättar hur många sådana termer som sannolikt behövs. Det här är emellertid inte alltid det enklaste sättet att förklara ett givet autokorrelationsmönster: ibland är det mer effektivt att lägga till MA-termer (lags av prognosfel) istället. Autokorrelationsfunktionen (ACF) spelar samma roll för MA-termer som PACF spelar för AR-termer - det vill säga ACF berättar hur många MA-termer som kommer att behövas för att ta bort återstående autokorrelation från de olika serierna. Om autokorrelationen är signifikant vid lag k men inte vid något högre lag - dvs. om ACF citerar offquot vid lag k - detta indikerar att exakt k MA termer ska användas i prognosekvationen. I det senare fallet säger vi att den stationära serien visar en kvota-signatur, vilket betyder att autokorrelationsmönstret lättare kan förklaras genom att lägga till MA-termer än genom att lägga till AR-termer. En MA-signatur är allmänt associerad med negativ autokorrelation vid lag 1 - dvs. det tenderar att uppstå i serier som är något över olika. Anledningen till detta är att en MA term kan partiellt annullera en order av differentiering i prognosekvationen. För att se detta, kom ihåg att en ARIMA (0,1,1) modell utan konstant motsvarar en Simple Exponential Smoothing-modell. Prognosekvationen för denna modell är där MA (1) koefficienten 952 1 motsvarar kvantiteten 1 - 945 i SES-modellen. Om 952 1 är lika med 1, motsvarar detta en SES-modell med 945 0, vilket bara är en CONSTANT-modell eftersom prognosen aldrig uppdateras. Detta betyder att när 952 1 är lika med 1, avbryter den faktiskt avvikelsen som normalt möjliggör SES-prognosen att återförankra sig vid den sista observationen. Å andra sidan, om den glidande medelkoefficienten är lika med 0, minskar denna modell till en slumpmässig promenadmodell, dvs. det lämnar differentieringsoperationen ensam. Så, om 952 1 är något större än 0, är ​​det som om vi delvis avbryter en order av differentiering. Om serien redan är något överstegd - dvs. om negativ autokorrelation har införts - då kommer det att kvotera forquot en skillnad att delvis avbrytas genom att visa en MA-signatur. (Många armvinklingar pågår här En mer noggrann förklaring till denna effekt finns i den matematiska strukturen i ARIMA Models handout.) Följaktligen följande extra tumregel: Regel 7: Om ACF i den olika serien visar en skarp avstängning och fördröjningen 1-autokorrelationen är negativ - om serien verkar något quotoverdifferencedquot - överväg då att lägga till en MA term till modellen. Fördröjningen vid vilken ACF avbryts är det angivna antalet MA-termer. En modell för UNITS-serien - ARIMA (2,1,0): Tidigare bestämde vi oss för att UNITS-serien behövde (åtminstone) en order av nonseasonal differencing att stationera. Efter att ha tagit en nonseasonal skillnad - dvs. Montera en ARIMA (0,1,0) modell med konstant - ACF - och PACF-diagrammen ser så här ut: Notera att (a) korrelationen vid lag 1 är signifikant och positiv, och (b) PACF visar en skarpare kvotoffot än ACF. I synnerhet har PACF endast två signifikanta toppar, medan ACF har fyra. Således, enligt regel 7 ovan, visar den olika serien en AR (2) signatur. Om vi ​​därför sätter ordningen på AR-termen till 2 - dvs. passa in en ARIMA (2,1,0) modell - vi får följande ACF - och PACF-tomter för rester: Autokorrelationen vid de avgörande lagarna - nämligen lags 1 och 2 - har eliminerats och det finns inget märkbart mönster i högre ordning lags. Tidsseriens plot av residualerna visar en något orolig tendens att vandra bort från medelvärdet: Analysrapporten visar dock att modellen ändå fungerar ganska bra under valideringsperioden, båda AR-koefficienterna skiljer sig avsevärt från noll och standarden avvikelsen av resthalterna har minskats från 1,54371 till 1,4215 (nästan 10) genom tillsats av AR-termerna. Vidare finns det ingen tecken på en kvotenhet, eftersom summan av AR-koefficienterna (0.2522540.195572) inte ligger nära 1. (Enhetsrotsar diskuteras mer detaljerat nedan.) Det verkar som helhet vara en bra modell . De prognostiserade prognoserna för modellen visar en linjär uppåtgående trend framåt i framtiden. Trenden i de långsiktiga prognoserna beror på att modellen innehåller en icke-säsongsskillnad och en konstant term: denna modell är i grunden en slumpmässig promenad med tillväxt finjusterad genom tillägg av två autoregressiva termer - dvs två lager av den olika serien. The slope of the long-term forecasts (i. e. the average increase from one period to another) is equal to the mean term in the model summary (0.467566). The forecasting equation is: where 956 is the constant term in the model summary (0.258178), 981 1 is the AR(1) coefficient (0.25224) and 981 2 is the AR(2) coefficient (0.195572). Mean versus constant: In general, the quotmeanquot term in the output of an ARIMA model refers to the mean of the differenced series (i. e. the average trend if the order of differencing is equal to 1), whereas the quotconstantquot is the constant term that appears on the right-hand-side of the forecasting equation . The mean and constant terms are related by the equation: CONSTANT MEAN(1 minus the sum of the AR coefficients). In this case, we have 0.258178 0.467566(1 - 0.25224 - 0.195572) Alternative model for the UNITS series--ARIMA(0,2,1): Recall that when we began to analyze the UNITS series, we were not entirely sure of the correct order of differencing to use. One order of nonseasonal differencing yielded the lowest standard deviation (and a pattern of mild positive autocorrelation), while two orders of nonseasonal differencing yielded a more stationary-looking time series plot (but with rather strong negative autocorrelation). Here are both the ACF and PACF of the series with two nonseasonal differences: The single negative spike at lag 1 in the ACF is an MA(1) signature, according to Rule 8 above. Thus, if we were to use 2 nonseasonal differences, we would also want to include an MA(1) term, yielding an ARIMA(0,2,1) model. According to Rule 5, we would also want to suppress the constant term. Here, then, are the results of fitting an ARIMA(0,2,1) model without constant: Notice that the estimated white noise standard deviation (RMSE) is only very slightly higher for this model than the previous one (1.46301 here versus 1.45215 previously). The forecasting equation for this model is: where theta-1 is the MA(1) coefficient. Recall that this is similar to a Linear Exponential Smoothing model, with the MA(1) coefficient corresponding to the quantity 2(1-alpha) in the LES model. The MA(1) coefficient of 0.76 in this model suggests that an LES model with alpha in the vicinity of 0.72 would fit about equally well. Actually, when an LES model is fitted to the same data, the optimal value of alpha turns out to be around 0.61, which is not too far off. Here is a model comparison report that shows the results of fitting the ARIMA(2,1,0) model with constant, the ARIMA(0,2,1) model without constant, and the LES model: The three models perform nearly identically in the estimation period, and the ARIMA(2,1,0) model with constant appears slightly better than the other two in the validation period. On the basis of these statistical results alone, it would be hard to choose among the three models. However, if we plot the long-term forecasts made by the ARIMA(0,2,1) model without constant (which are essentially the same as those of the LES model), we see a significant difference from those of the earlier model: The forecasts have somewhat less of an upward trend than those of the earlier model--because the local trend near the end of the series is slightly less than the average trend over the whole series--but the confidence intervals widen much more rapidly. The model with two orders of differencing assumes that the trend in the series is time-varying, hence it considers the distant future to be much more uncertain than does the model with only one order of differencing. Which model should we choose That depends on the assumptions we are comfortable making with respect to the constancy of the trend in the data. The model with only one order of differencing assumes a constant average trend--it is essentially a fine-tuned random walk model with growth--and it therefore makes relatively conservative trend projections. It is also fairly optimistic about the accuracy with which it can forecast more than one period ahead. The model with two orders of differencing assumes a time-varying local trend--it is essentially a linear exponential smoothing model--and its trend projections are somewhat more more fickle. As a general rule in this kind of situation, I would recommend choosing the model with the lower order of differencing, other things being roughly equal. In practice, random-walk or simple-exponential-smoothing models often seem to work better than linear exponential smoothing models. Mixed models: In most cases, the best model turns out a model that uses either only AR terms or only MA terms, although in some cases a quotmixedquot model with both AR and MA terms may provide the best fit to the data. However, care must be exercised when fitting mixed models. It is possible for an AR term and an MA term to cancel each others effects . even though both may appear significant in the model (as judged by the t-statistics of their coefficients). Thus, for example, suppose that the quotcorrectquot model for a time series is an ARIMA(0,1,1) model, but instead you fit an ARIMA(1,1,2) model--i. e. you include one additional AR term and one additional MA term. Then the additional terms may end up appearing significant in the model, but internally they may be merely working against each other. The resulting parameter estimates may be ambiguous, and the parameter estimation process may take very many (e. g. more than 10) iterations to converge. Hence: Rule 8: It is possible for an AR term and an MA term to cancel each others effects, so if a mixed AR-MA model seems to fit the data, also try a model with one fewer AR term and one fewer MA term--particularly if the parameter estimates in the original model require more than 10 iterations to converge. For this reason, ARIMA models cannot be identified by quotbackward stepwisequot approach that includes both AR and MA terms. In other words, you cannot begin by including several terms of each kind and then throwing out the ones whose estimated coefficients are not significant. Instead, you normally follow a quotforward stepwisequot approach, adding terms of one kind or the other as indicated by the appearance of the ACF and PACF plots. Unit roots: If a series is grossly under - or overdifferenced--i. e. if a whole order of differencing needs to be added or cancelled, this is often signalled by a quotunit rootquot in the estimated AR or MA coefficients of the model. An AR(1) model is said to have a unit root if the estimated AR(1) coefficient is almost exactly equal to 1. (By quotexactly equal quot I really mean not significantly different from . in terms of the coefficients own standard error . ) When this happens, it means that the AR(1) term is precisely mimicking a first difference, in which case you should remove the AR(1) term and add an order of differencing instead. (This is exactly what would happen if you fitted an AR(1) model to the undifferenced UNITS series, as noted earlier.) In a higher-order AR model, a unit root exists in the AR part of the model if the sum of the AR coefficients is exactly equal to 1. In this case you should reduce the order of the AR term by 1 and add an order of differencing. A time series with a unit root in the AR coefficients is nonstationary --i. e. it needs a higher order of differencing. Rule 9: If there is a unit root in the AR part of the model--i. e. if the sum of the AR coefficients is almost exactly 1--you should reduce the number of AR terms by one and increase the order of differencing by one. Similarly, an MA(1) model is said to have a unit root if the estimated MA(1) coefficient is exactly equal to 1. When this happens, it means that the MA(1) term is exactly cancelling a first difference, in which case, you should remove the MA(1) term and also reduce the order of differencing by one. In a higher-order MA model, a unit root exists if the sum of the MA coefficients is exactly equal to 1. Rule 10: If there is a unit root in the MA part of the model--i. e. if the sum of the MA coefficients is almost exactly 1--you should reduce the number of MA terms by one and reduce the order of differencing by one. For example, if you fit a linear exponential smoothing model (an ARIMA(0,2,2) model) when a simple exponential smoothing model (an ARIMA(0,1,1) model) would have been sufficient, you may find that the sum of the two MA coefficients is very nearly equal to 1. By reducing the MA order and the order of differencing by one each, you obtain the more appropriate SES model. A forecasting model with a unit root in the estimated MA coefficients is said to be noninvertible . meaning that the residuals of the model cannot be considered as estimates of the quottruequot random noise that generated the time series. Another symptom of a unit root is that the forecasts of the model may quotblow upquot or otherwise behave bizarrely. If the time series plot of the longer-term forecasts of the model looks strange, you should check the estimated coefficients of your model for the presence of a unit root. Rule 11: If the long-term forecasts appear erratic or unstable, there may be a unit root in the AR or MA coefficients. None of these problems arose with the two models fitted here, because we were careful to start with plausible orders of differencing and appropriate numbers of AR and MA coefficients by studying the ACF and PACF models. More detailed discussions of unit roots and cancellation effects between AR and MA terms can be found in the Mathematical Structure of ARIMA Models handout.2.1 Moving Average Models (MA models) Time series models known as ARIMA models may include autoregressive terms andor moving average terms. I vecka 1 lärde vi oss en autoregressiv term i en tidsseriemodell för variabeln x t är ett fördröjt värde av x t. Till exempel är en lag 1-autoregressiv term x t-1 (multiplicerad med en koefficient). Denna lektion definierar glidande medelvärden. En glidande medelfrist i en tidsseriemodell är ett tidigare fel (multiplicerat med en koefficient). Låt (wt overset N (0, sigma2w)), vilket betyder att wt är identiskt oberoende fördelat, var och en med en normal fördelning med medelvärde 0 och samma varians. Den första ordningens rörliga genomsnittsmodell, betecknad med MA (1) är (xt mu wt theta1w) Den andra ordens rörliga genomsnittsmodellen, betecknad med MA (2) är (xt mu wt theta1w theta2w) , betecknad med MA (q) är (xt mu wt theta1w theta2w punkter thetaqw) Not. Många läroböcker och programvara definierar modellen med negativa tecken före villkoren. Detta ändrar inte de allmänna teoretiska egenskaperna hos modellen, även om den vrider de algebraiska tecknen på uppskattade koefficientvärden och (unsquared) termer i formler för ACF och variationer. Du måste kontrollera din programvara för att kontrollera om negativa eller positiva tecken har använts för att korrekt beräkna den beräknade modellen. R använder positiva tecken i sin underliggande modell, som vi gör här. Teoretiska egenskaper hos en tidsserie med en MA (1) modell Observera att det enda nonzero-värdet i teoretisk ACF är för lag 1. Alla andra autokorrelationer är 0. Således är ett prov ACF med en signifikant autokorrelation endast vid lag 1 en indikator på en möjlig MA (1) modell. För intresserade studenter är bevis på dessa egenskaper en bilaga till denna handout. Exempel 1 Antag att en MA (1) modell är x t10 w t .7 w t-1. var (överskridande N (0,1)). Således är koefficienten 1 0,7. Den teoretiska ACF ges av En plot av denna ACF följer. Den visade ploten är den teoretiska ACF för en MA (1) med 1 0,7. I praktiken ger ett prov vanligen vanligtvis ett så tydligt mönster. Med hjälp av R simulerade vi n 100 provvärden med hjälp av modellen x t 10 w t .7 w t-1 där vikt N (0,1). För denna simulering följer en tidsserieplot av provdata. Vi kan inte berätta mycket från denna plot. Provet ACF för den simulerade data följer. Vi ser en spik vid lag 1 följt av allmänt icke-signifikanta värden för lags över 1. Observera att provet ACF inte matchar det teoretiska mönstret för den underliggande MA (1), vilket är att alla autokorrelationer för lags över 1 kommer att vara 0 . Ett annat prov skulle ha ett något annorlunda prov ACF som visas nedan, men skulle troligen ha samma breda funktioner. Terapeutiska egenskaper för en tidsreaktion med en MA (2) modell För MA (2) modellen är teoretiska egenskaper följande: Observera att de enda nonzero-värdena i teoretisk ACF är för lags 1 och 2. Autokorrelationer för högre lags är 0 . En ACF med signifikanta autokorrelationer vid lags 1 och 2, men icke-signifikanta autokorrelationer för högre lags indikerar en möjlig MA (2) modell. iid N (0,1). Koefficienterna är 1 0,5 och 2 0,3. Eftersom det här är en MA (2), kommer den teoretiska ACF endast att ha nonzero-värden endast på lags 1 och 2. Värdena för de två icke-oberoende autokorrelationerna är A-plot av den teoretiska ACF följer. Såsom nästan alltid är fallet kommer provdata inte att verka så perfekt som teori. Vi simulerade n 150 provvärden för modellen x t 10 w t .5 w t-1 .3 w t-2. var vet N (0,1). Tidsserierna av data följer. Som med tidsserien för MA (1) provdata kan du inte berätta mycket för det. Provet ACF för den simulerade data följer. Mönstret är typiskt för situationer där en MA (2) modell kan vara användbar. Det finns två statistiskt signifikanta spikar vid lags 1 och 2 följt av icke signifikanta värden för andra lags. Observera att provet ACF på grund av provtagningsfel inte exakt matchade det teoretiska mönstret. ACF för General MA (q) Modeller En egenskap hos MA (q) modeller är generellt att det finns icke-oberoende autokorrelationer för de första q-lagsna och autokorrelationerna 0 för alla lags gt q. Icke-unikhet av koppling mellan värden på 1 och (rho1) i MA (1) Modell. I MA (1) modellen, för något värde av 1. den ömsesidiga 1 1 ger samma värde. Använd exempelvis 0,5 för 1. och använd sedan 1 (0,5) 2 för 1. Du får (rho1) 0,4 i båda fallen. För att tillfredsställa en teoretisk restriktion kallad invertibility. vi begränsar MA (1) - modellerna till att ha värden med absolutvärdet mindre än 1. I exemplet just givet är 1 0,5 ett tillåtet parametervärde, medan 1 10,5 2 inte kommer att. Omvändbarhet av MA-modeller En MA-modell sägs vara omvändbar om den är algebraiskt ekvivalent med en konvergerande oändlig ordning AR-modell. Genom att konvergera menar vi att AR-koefficienterna minskar till 0 när vi flyttar tillbaka i tiden. Omvändbarhet är en begränsning programmerad i tidsserieprogramvara som används för att uppskatta koefficienterna för modeller med MA-termer. Det är inte något vi söker efter i dataanalysen. Ytterligare information om invertibilitetsbegränsningen för MA (1) - modeller ges i bilagan. Avancerad teorinotation. För en MA (q) modell med en specificerad ACF finns det bara en inverterbar modell. Det nödvändiga villkoret för invertibilitet är att koefficienterna har värden så att ekvationen 1- 1 y-. - q y q 0 har lösningar för y som faller utanför enhetens cirkel. R-kod för exemplen I exempel 1 ritade vi den teoretiska ACF av modellen x t10 wt. 7w t-1. och sedan simulerade n 150 värden från denna modell och plottade provets tidsserie och provet ACF för de simulerade data. R-kommandon som användes för att plotta den teoretiska ACF var: acfma1ARMAacf (mac (0.7), lag. max10) 10 lags av ACF för MA (1) med theta1 0,7 lags0: 10 skapar en variabel som heter lags som sträcker sig från 0 till 10. plot (lags, acfma1, xlimc (1,10), ylabr, typh, huvud ACF för MA (1) med theta1 0,7) abline (h0) adderar en horisontell axel till plottet Det första kommandot bestämmer ACF och lagrar det i ett objekt namnet acfma1 (vårt val av namn). Plot-kommandot (det tredje kommandot) plottar jämfört med ACF-värdena för lags 1 till 10. ylab-parametern markerar y-axeln och huvudparametern lägger en titel på plotten. För att se de numeriska värdena för ACF använder du bara kommandot acfma1. Simuleringen och diagrammen gjordes med följande kommandon. xcarima. sim (n150, lista (mac (0.7))) Simulerar n 150 värden från MA (1) xxc10 lägger till 10 för att göra medelvärdet 10. Simulering standardvärden betyder 0. plot (x, typeb, mainSimulated MA (1) data) acf (x, xlimc (1,10), mainACF för simulerad provdata) I exempel 2 ritade vi den teoretiska ACF av modellen xt 10 wt5 w t-1, 3 w t-2. och sedan simulerade n 150 värden från denna modell och plottade provets tidsserie och provet ACF för de simulerade data. De R-kommandon som användes var acfma2ARMAacf (mac (0,5,0,3), lag. max10) acfma2 lags0: 10 plot (lags, acfma2, xlimc (1,10), ylabr, typh, huvud ACF för MA (2) med theta1 0,5, theta20.3) abline (h0) xcarima. sim (n150, lista (mac (0,5, 0,3)) xxc10 plot (x, typeb, huvudsimulerad MA (2) serie) acf (x, xlimc (1,10) mainACF för simulerade MA (2) data) Bilaga: Bevis på egenskaper hos MA (1) För intresserade studenter, här är bevis för teoretiska egenskaper hos MA (1) modellen. Varians: (text (xt) text (mu wt theta1 w) 0 text (wt) text (theta1w) sigma2w theta21sigma2w (1theta21) sigma2w) När h 1, föregående uttryck 1 w 2. För varje h 2, föregående uttryck 0 . Orsaken är att, per definition av vägtons oberoende. E (w k w j) 0 för någon k j. Vidare, eftersom w t har medelvärdet 0, E (w jw j) E (wj 2) w 2. För en tidsserie, Applicera detta resultat för att få ACF ges ovan. En inverterbar MA-modell är en som kan skrivas som en oändlig ordning AR-modell som konvergerar så att AR-koefficienterna konvergerar till 0 när vi rör sig oändligt tillbaka i tiden. Visa väl omvändbarhet för MA (1) modellen. Vi ersätter sedan förhållandet (2) för w t-1 i ekvation (1) (3) (zt wt theta1 (z-tetww) wt theta1z-tetanw) Vid tid t-2. ekvationen (2) blir Vi ersätter sedan förhållandet (4) för w t-2 i ekvation (3) (zt wt theta1z-teteta21wt theta1z-teteta21 (z-tetww) wt theta1z-teteta12z theta31w) Om vi ​​skulle fortsätta oändligt) skulle vi få oändlig ordning AR-modellen (zt wt theta1z-theta21z theta31z-tetta41z punkter) Observera dock att om koefficienterna som multiplicerar lagren av z ökar (oändligt) i storlek när vi flyttar tillbaka i tid. För att förhindra detta behöver vi 1 lt1. Detta är förutsättningen för en inverterbar MA (1) modell. Oändlig ordning MA-modell I vecka 3 ser du att en AR (1) - modell kan konverteras till en oändlig ordning MA-modell: (xt - mu wt phi1w phi21w prickar phik1 w dots sum phij1w) Denna summering av tidigare vita ljudvillkor är känd som orsakssammanställning av en AR (1). Med andra ord är x t en special typ av MA med ett oändligt antal termer som går tillbaka i tiden. Detta kallas en oändlig ordning MA eller MA (). En ändlig ordning MA är en oändlig ordning AR och någon ändlös ordning AR är en oändlig ordning MA. Minns i vecka 1 noterade vi att ett krav på en stationär AR (1) är att 1 lt1. Låt beräkna Var (x t) med hjälp av kausalrepresentationen. Det här sista steget använder ett grundläggande faktum om geometriska serier som kräver (phi1lt1) annars skiljer serien. Navigering

No comments:

Post a Comment