A partire dal rilascio 6.08 del Sistema SAS, PROC espandersi nel software SASETS può essere usato per fare una varietà di trasformazioni di dati. Queste trasformazioni sono: cavi, ritardi, ponderate e non ponderati medie mobili, somme e somme cumulative, in movimento solo per citarne alcuni. Molte nuove trasformazioni sono state aggiunte nella versione 6.12, comprese le specifiche distinte per le medie mobili centrate e arretrate. Queste nuove trasformazioni hanno reso necessario modificare la sintassi per alcune delle trasformazioni supportate prima di rilasciare 6.12. Esempi di come specificare la sintassi per medie mobili centrate e indietro utilizzando uscita 6.11 e precedenti e Release 6.12 e in seguito sono riportati di seguito. PROC EXPAND grado di calcolare sia una centrato media mobile o di una media mobile a ritroso. A 5-periodo centrata media mobile viene calcolato facendo la media di un totale di 5 valori consecutivi della serie (il valore del periodo corrente oltre ai due valori immediatamente precedenti e due valori immediatamente successivi al valore attuale). Una media all'indietro mobile a 5 periodi è calcolato facendo la media del valore del periodo corrente con i valori dei 4 periodi immediatamente precedenti. La sintassi seguente illustra come utilizzare le specifiche TRASFORMARE (MOVAVE n) per calcolare un 5-periodo centrato media mobile utilizzando uscita 6.11 o precedenti: Per calcolare un periodo di n all'indietro media mobile utilizzando uscita 6.11 o versioni precedenti, fare uso della trasformazione (MOVAVE n GAL k) specifica, dove k (n-1) 2 se n è dispari o dove k (n-2) 2 se n è pari. Ad esempio, la seguente sintassi illustra come calcolare un 5-periodo medio all'indietro in movimento con uscita 6.11 o precedenti: la seguente sintassi illustra come utilizzare le specifiche TRASFORMARE (CMOVAVE n) per calcolare un 5-periodo di media mobile centrata utilizzando uscita 6.12 o in movimento in seguito: la seguente sintassi simile illustra come utilizzare le specifiche TRASFORMARE (MOVAVE n) per calcolare un 5-periodo medio all'indietro in movimento con uscita 6.12 o versioni successive: per ulteriori informazioni, vedere operazioni di trasformazione nel capitolo EXPAND dei SASETS utenti Guida. Se non si ha accesso a SASETS, è possibile calcolare una media mobile nel passaggio DATA come illustrato in questo programma di esempio. Sistema operativo e di uscita InformationCompute una media mobile a SAS Questo post è stato gentilmente contribuito da The Loop DO - andare lì per commentare e per leggere l'intero post. Una domanda comune sul forum di discussione SAS è come calcolare una media mobile a SAS. In questo articolo viene illustrato come utilizzare PROC espandere e contiene link ad articoli che utilizzano il passo DATA o macro per calcolare medie mobili a SAS. In un post precedente, ho spiegato come definire una media mobile e ha fornito un esempio, che viene qui mostrato. Il grafico è un grafico a dispersione del prezzo di chiusura mensile per IBM stock in un periodo di 20 anni. Le tre curve si muovono medie. La curva 8220MA8221 è a cinque punti (finale) media mobile. La curva 8220WMA8221 è una media mobile ponderata con pesi 1 a 5. (Nel calcolo della media mobile ponderata al tempo t. Il valore yt ha un peso 5, il valore y t-1 ha un peso 4, il valore y t-2 ha un peso 3, ecc.) La curva 8220EWMA8221 è una media mobile ponderata esponenzialmente con lisciatura fattore alfa 0,3. In questo articolo viene illustrato come utilizzare la procedura di espandersi in software SASETS per calcolare una media mobile semplice, una media mobile ponderata, ed una media mobile esponenziale ponderata in SAS. Per una panoramica delle PROC espandersi e le sue numerose funzionalità, vi consiglio di leggere le brevi carta trucchi 8220Stupid umane con PROC EXPAND8221 da David Cassell (2010). Poiché non tutti i SAS cliente dispone di una licenza per il software SASETS, ci sono link alla fine di questo articolo che mostrano come calcolare una media mobile semplice a SAS utilizzando il passo DATA. Crea un serie storica esempio Prima di poter calcolare una media mobile a SAS, avete bisogno di dati. La seguente chiamata per PROC SORT crea una serie storica esempio con 233 osservazioni. Non ci sono valori mancanti. I dati sono ordinati per la variabile tempo, T. La variabile Y contiene il prezzo di chiusura mensile di IBM magazzino nel corso di un periodo di 20 anni. Calcolare una media mobile a SAS utilizzando PROC EXPAND EXPAND PROC calcola molti tipi di medie mobili e altre statistiche di rotolamento, come Rolling deviazioni standard, le correlazioni, e somme cumulative dei quadrati. Nella procedura, la dichiarazione ID identifica la variabile tempo, T. I dati deve essere ordinato per la variabile ID. L'istruzione CONVERT specifica i nomi delle variabili di ingresso e di uscita. L'opzione TRANSFORMOUT specifica il metodo e parametri utilizzati per calcolare le statistiche di rotolamento. L'esempio utilizza tre dichiarazioni Converti: La prima specifica che MA è una variabile di uscita che viene calcolato come (indietro) media mobile che utilizza cinque valori dei dati (K 5). La seconda affermazione CONVERT specifica che WMA è una variabile di uscita che è una media mobile ponderata. I pesi sono standardizzati automaticamente dalla procedura, per cui la formula è WMA (t) (5 YT 4 y T-1 3 y t-2 2 y T-3 1 y t-4) 15. La terza affermazione CONVERTI specifica che EWMA è una variabile di uscita che è una media mobile esponenziale ponderata con il parametro 0.3. Si noti l'opzione METHODNONE sul PROC EXPAND dichiarazione. Per impostazione predefinita, la procedura EXPAND adatta curve spline cubiche ai valori non mancanti delle variabili. Le opzioni METHODNONE assicura che i punti dati grezzi vengono utilizzati per calcolare le medie mobili, piuttosto che valori interpolati. Visualizzare le medie mobili Un uso importante di una media mobile è quello di sovrapporre una curva su un grafico a dispersione dei dati grezzi. Ciò consente di visualizzare le tendenze a breve termine nei dati. La seguente chiamata per PROC SGPOT crea il grafico nella parte superiore di questo articolo: Per mantenere questo articolo il più semplice possibile, non ho discusso come gestire i dati mancanti nel calcolo medie mobili. Vedere la documentazione per PROC espandersi per vari temi legati ai dati mancanti. In particolare, è possibile utilizzare l'opzione di metodo per specificare come interpolare i valori mancanti. È inoltre possibile utilizzare le opzioni di trasformazione per controllare come le medie mobili sono definiti per i primi punti di dati. Creare una media mobile a SAS utilizzando il passo DATI Se non si dispone di un software SASETS, i seguenti riferimenti mostrano come utilizzare il passo DATI SAS per calcolare semplici medie mobili utilizzando la funzione GAL. La Knowledge Base SAS fornisce l'articolo 8220Compute la media mobile di un variable.8221 Premal Vora (2008) confronta il passo DATA per PROC EXPAND codice nella carta 8220Easy statistiche di rotolamento con PROC EXPAND.8221 Ron Cody include una macro SAS in molti dei suo libri. Ad esempio, Cody8217s Collezione di Popolare SAS attività di programmazione e come affrontarli fornisce una macro denominata movingAve. È possibile scaricare la macro come parte del Codice 8220Example e Data8221 per il libro. Il passo DATI, che è stato progettato per gestire una osservazione alla volta, non è il miglior strumento per i calcoli di serie storiche, che richiedono naturalmente osservazioni multiple (GAL e cavi). In un futuro post sul blog, vi mostrerò come scrivere funzioni SASIML che calcolano semplici, ponderati, e in modo esponenziale ponderata medie mobili. La lingua matrice PROC IML è più facile lavorare con per i calcoli che richiedono l'accesso a più punti di tempo. ffTheDoLoopdyIl2AUoC8zA ffTheDoLoopdqj6IDK7rITs ffTheDoLoopicbsotKEf1zY: e5B0sfO55lA: gIN9vFwOqvQ ffTheDoLoopicbsotKEf1zY: e5B0sfO55lA: VsGLiPBpWU ffTheDoLoopicbsotKEf1zY: e5B0sfO55lA: F7zBnMyn0Lo ffTheDoLoopdl6gmwiTKsz0 13 Ogni punto sul grafico indica il valore della media mobile uniformemente ponderato per il sottogruppo. La media mobile per l'i-esimo sottogruppo (A i) è definito come dove w è l'intervallo, o il numero di termini, della media mobile. È possibile specificare l'intervallo con l'opzione SPAN nell'istruzione Machart o con il valore di SPAN in un set di dati LIMITI. Central Line 13 Per impostazione predefinita, la linea centrale su un grafico media mobile indica una stima, che viene calcolato come Se si specifica un valore noto () per la linea centrale, indica il valore di. 13 È possibile calcolare i limiti nei seguenti modi: come un multiplo specificato (k) l'errore standard AI sopra e sotto la linea centrale. I limiti predefiniti sono calcolati con k 3 (questi sono indicati come limiti). come limiti probabilità definita in termini di una data probabilità che AI supera i limiti La tabella seguente illustra le formule per limiti: Tabella 21.19: Limiti per Moving Grafico medio 13 Queste formule presuppongono che i dati sono distribuiti normalmente. Se i valori standard e sono rispettivamente disponibili e, sostituire con e sostituirlo con nella Tabella 21.19. Si noti che i limiti variano sia con n iei. Se le dimensioni del campione sottogruppo sono costanti (i n), le formule per i limiti di controllo semplificano per fare riferimento a Montgomery (1996) per ulteriori dettagli. Quando le dimensioni del campione sottogruppo sono costanti, la larghezza dei limiti di controllo per il primo w media mobile diminuisce monotonicamente perché ciascuno del primo w media mobile comprende un termine più della media mobile precedente. Se si specifica l'opzione ASINTOTICA, vengono visualizzati i limiti di controllo costante con i seguenti valori: Per i limiti di probabilità asintotica, sostituire k con in queste equazioni. È possibile visualizzare i limiti asintotici specificando l'opzione ASINTOTICA. È possibile specificare i parametri per la movimentazione limiti medi come segue: Specificare k con l'opzione sigma o con la variabile di Sigma in un dato limiti stabiliti. Specificare con l'opzione ALPHA o con l'ALPHA variabili in un insieme di dati LIMITI. Specificare una dimensione del campione nominale costante per i limiti di controllo con l'opzione LIMITN o con lo LIMITN variabile in un insieme di dati LIMITS. Specificare w con l'opzione SPAN o con l'SPAN variabile in un set di limiti di dati. Specificare con l'opzione MU0 o con la media variabile in un set di limiti di dati. Specificare con l'opzione sigma0 o con l'STDDEV variabili in un insieme di dati LIMITI. 13 Ci sono alcune linee guida pubblicate per la scelta del w arco. In alcune applicazioni, l'esperienza pratica può dettare la scelta di w. Un approccio più sistematico è quello di scegliere w considerando il suo effetto sulla tiratura media (il numero previsto di punti tracciati prima di un cambiamento viene rilevato). Questo effetto è stato studiato da Roberts (1959), che ha usato metodi di simulazione. È possibile utilizzare la Tabella 21.20 e 21.21 Tabella trovare una combinazione di k e w che produce un ARL desiderato per un processo di controllo () e uno spostamento specificato. Tabella 21.20: Medio tirature che per un solo lato uniformemente ponderato Moving Grafici media, ad esempio, si supponga di voler costruire un grafico media mobile su due lati con un'ARL in controllo di 100 e un ARL del 9 per rilevare un cambiamento di. Tabella 21.21 mostra che la combinazione w 3 e k 2.5 produce un ARL in controllo di 101.24 e un'ARL di 8.61 per. Si noti che è possibile anche utilizzare la Tabella 21.20 e 21.21 Tabella di valutare un grafico media mobile esistente (vedi Esempio 21.2). Il seguente programma SAS calcola la lunghezza media corsa per due lati movimento grafico media di vari spostamenti nel mezzo. Questo programma può essere adattato per calcolare le medie tirature per varie combinazioni di k e w. Nel programma precedente, la dimensione della campata w (SPAN) è 4 e gli spostamenti nel mezzo vengono introdotti alla variabile (Y) dopo i primi 100 osservazioni. Il primo ciclo DO specifica turni di varia grandezza, il secondo ciclo DO esegue 50000 simulazioni per ogni turno, e il terzo ciclo DO conta la lunghezza dei tratti (TIME), cioè, il numero di campioni osservati prima che i segnali di controllo grafico. Un grande limite superiore (15000) per il tempo viene specificato in modo che la lunghezza corsa è senza censure. Il programma può essere generalizzato per vari formati campata assegnando un valore per la variabile SPAN e cambiando l'espressione per X appropriato. Opzionalmente, è possibile calcolare l'ARL per un grafico su un solo lato, modificando i limiti, cioè, x623sqrt (arco). Questa è stata la tecnica usata per costruire Tabella 21.20 e medie Tabella 21.21.Moving Moving medie con set di dati convenzionali il valore medio è spesso il primo, e uno dei più utili, statistiche di riepilogo per calcolare. Quando i dati sono in forma di una serie temporale, serie significano è una misura utile, ma non riflette la natura dinamica dei dati. I valori medi calcolati su periodi di cortocircuito, sia che precede il periodo corrente o incentrate sul periodo attuale, sono spesso più utili. Poiché tali valori medi variano, o spostare, come le mosse del periodo corrente da tempo t 2, t 3. ecc sono conosciuti come le medie mobili (MAS). Una media mobile semplice è (in genere) la media non ponderata dei k valori precedenti. Una media mobile ponderata esponenzialmente è essenzialmente lo stesso come semplice media mobile, ma con contributi alla media ponderata per la loro vicinanza al tempo corrente. Perché non ce n'è uno, ma tutta una serie di medie per ogni serie in movimento, l'insieme di Mas può si essere tracciata su grafici, ha analizzato come una serie, e utilizzato nella modellazione e previsione. Una gamma di modelli può essere costruito utilizzando medie mobili, e questi sono conosciuti come modelli MA. Se tali modelli sono combinati con autoregressivo (AR) modelli modelli compositi risultanti sono noti come modelli ARMA o ARIMA (l'io è per integrato). Semplici media mobile Da una serie temporale possono essere considerate come un insieme di valori,, t 1,2,3,4, n la media di questi valori possono essere calcolati. Se assumiamo che n è abbastanza grande, e selezionare un intero k che è molto più piccolo di n. possiamo calcolare un insieme di calze blocco, o semplici medie mobili (dell'ordine k): Ogni misura rappresenta la media dei valori dei dati in un intervallo di k osservazioni. Si noti che la prima possibile MA di ordine k GT0 è che per t k. Più in generale possiamo cadere il pedice in più nelle espressioni sopra e scrivere: Questo si afferma che la media stimata al tempo t è la media semplice del valore osservato al tempo t e le precedenti fasi k -1 tempo. Se i pesi vengono applicate che diminuire il contributo di osservazioni che sono più lontani nel tempo, la media mobile si dice che sia in modo esponenziale levigata. Le medie mobili sono spesso utilizzati come forma di previsione, per cui il valore stimato di una serie al tempo t 1, S t1. è presa come MA per il periodo fino al tempo t. per esempio. oggi stima si basa su una media di precedenti valori registrati fino ad includere ieri (per i dati di tutti i giorni). Semplici medie mobili può essere visto come una forma di lisciatura. Nell'esempio illustrato di seguito, il set di dati di inquinamento atmosferico mostrato nella introduzione a questo argomento è stato aumentato da un movimento linea 7 giorni di media (MA), mostrato qui in rosso. Come si può vedere, la linea MA appiana i picchi e depressioni nei dati e può essere molto utile per identificare tendenze. L'attaccante-calcolo della formula standard significa che i primi punti k -1 di dati non hanno alcun valore MA, ma da allora in poi i calcoli estendersi al punto di dati finale della serie. PM10 valori medi al giorno, Greenwich fonte: London Air Quality Network, londonair. org. uk Uno dei motivi per il calcolo semplici medie mobili nel modo descritto è che consente valori da calcolare per tutte le fasce orarie da tempo tk fino ad oggi, e come si ottiene una nuova misurazione per il tempo t 1, il MA per il tempo t 1 può essere aggiunto al set già calcolato. Questo fornisce una semplice procedura per set di dati dinamici. Tuttavia, ci sono alcuni problemi con questo approccio. È ragionevole sostenere che il valore medio degli ultimi 3 periodi, per esempio, deve essere posizionato al tempo t -1, non il tempo t. e per un MA su un numero pari di periodi forse dovrebbe essere posizionata a metà punto tra due intervalli di tempo. Una soluzione a questo problema è quello di utilizzare i calcoli MA centrato, in cui il MA al tempo t è la media di un insieme di valori simmetrica intorno t. Nonostante i suoi evidenti meriti, questo approccio non è generalmente utilizzato perché richiede che i dati sono disponibili per gli eventi futuri, che potrebbero non essere il caso. Nei casi in cui l'analisi è interamente di una serie esistente, l'uso di centrata Mas può essere preferibile. medie mobili semplici possono essere considerati come una forma di smoothing eliminando alcune componenti ad alta frequenza di una serie temporale ed evidenziando (ma non rimozione) tendenze in modo simile alla nozione generale di filtraggio digitale. Infatti, le medie mobili sono una forma di filtro lineare. E 'possibile applicare un calcolo media mobile ad una serie già levigata, cioè l'attenuazione o il filtraggio di una serie già levigata. Ad esempio, con una media mobile di ordine 2, possiamo considerare come siano calcolate utilizzando pesi, in modo che il MA in x 2 x 0,5 1 0,5 x 2. Analogamente, il MA in x 3 0,5 x 2 x 0,5 3. Se applicare un secondo livello di finitura o di filtraggio, abbiamo 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0.25 x 1 0,5 x 2 0,25 x 3 cioè il filtraggio a 2 stadi processo (o la convoluzione) ha prodotto una simmetrica variabile ponderata media mobile, con i pesi. circonvoluzioni multipli possono produrre abbastanza complessi medie mobili ponderate, alcuni dei quali sono stati trovati di particolare utilità nei settori specializzati, come ad esempio nei calcoli di assicurazione sulla vita. Le medie mobili possono essere utilizzati per rimuovere gli effetti periodici se calcolata con la lunghezza della periodicità come noto. Ad esempio, con dati mensili variazioni stagionali spesso possono essere rimossi (se questo è l'obiettivo) si applicano con una media mobile di 12 mesi simmetrica con tutti i mesi ponderati allo stesso modo, tranne il primo e l'ultimo, che sono ponderati in base 12. Questo perché non ci sarà di 13 mesi nel modello simmetrico (ora corrente, t -. 6 mesi). Il totale è diviso per 12. Procedure simili può essere adottato alcuna periodicità ben definita. medie mobili ponderate in modo esponenziale (EWMA) con la semplice formula media mobile: tutte le osservazioni sono ugualmente ponderato. Se abbiamo chiamato questi pesi uguali, alfa t. ciascuno dei pesi k sarebbe uguale 1 k. quindi la somma dei pesi sarebbe 1, e la formula sarebbe: Abbiamo già visto che più applicazioni di questo risultato processo nei pesi diversi. Con medie mobili esponenziale ponderata il contributo al valore medio dalle osservazioni che sono più rimossi in tempo è deliberata ridotta, sottolineando in tal modo gli eventi più recenti (locali). Essenzialmente un parametro smoothing, 0LT alfa LT1, viene introdotto, e la formula rivisto per: Una versione simmetrica di questa formula sarebbe la forma: Se i pesi nel modello simmetrico vengono selezionati come i termini dei termini di espansione binomiale, (1212) 2q. che si somma a 1, e come q diventa grande, si approssimare la distribuzione normale. Questa è una forma di ponderazione kernel, con la recitazione Binominale come funzione del kernel. La convoluzione due fasi descritta nel paragrafo precedente, è proprio questa disposizione, con q 1, cedendo i pesi. In livellamento esponenziale è necessario utilizzare un insieme di pesi che somma a 1 e che riducono dimensioni geometricamente. I pesi utilizzati sono in genere di forma: Per dimostrare che questi pesi sommano a 1, prendere in considerazione l'espansione di 1 come una serie. Siamo in grado di scrivere e ampliare l'espressione tra parentesi con la formula binomiale (1- x) p. dove x (1-) e p -1, che assicura: Questo fornisce quindi una forma di ponderata media mobile della forma: Questa somma può essere scritta come una relazione di ricorrenza: il che semplifica notevolmente il calcolo, ed evita il problema che il regime ponderazione va rigorosamente infinito per i pesi sommano a 1 (per piccoli valori di alfa. questo non è tipicamente il caso). La notazione usata da diversi autori varia. Alcuni usano la lettera S per indicare che la formula è essenzialmente una variabile levigato, e scrivere: considerando che la letteratura teoria del controllo utilizza spesso Z invece di S per i valori in modo esponenziale ponderata o levigate (vedi, per esempio, Lucas e Saccucci 1990, luc1 , e il sito web del NIST per maggiori dettagli e lavorato esempi). Le formule sopra citati derivano dal lavoro di Roberts (1959, Rob1), ma Hunter (1986, HUN1) utilizza un'espressione della forma: che può essere più appropriato per l'uso in alcune procedure di controllo. Con alpha 1 la stima media è semplicemente il valore misurato (o il valore del dato precedente). Con 0,5 la stima è la media mobile semplice delle misure attuali e precedenti. In previsione modelli il valore, S t. viene spesso utilizzato come stima o un valore meteo per il periodo di tempo successivo, cioè come la stima per x al tempo t 1. Così abbiamo: Questo mostra che il valore di previsione al tempo t 1 è una combinazione della media mobile ponderata esponenzialmente precedente più un componente che rappresenta la pesata errore di predizione, epsilon. al tempo t. Assumendo una serie temporale è dato e si richiede una previsione, è richiesto un valore per alfa. Questo può essere definita sulla base dei dati esistenti, valutando la somma degli errori di previsione quadrati ottenere con diversi valori di alfa per ogni t 2,3. modificando la prima stima di essere il primo valore di dati osservati, x 1. In applicazioni di controllo il valore di alfa è importante che viene utilizzato per la determinazione dei limiti di controllo superiore e inferiore, e colpisce la tiratura media (ARL) previsto prima che questi limiti di controllo sono rotti (sotto l'ipotesi che la serie temporale rappresenta un insieme di casuale, identicamente distribuite variabili indipendenti con varianza comune). In queste circostanze la varianza della statistica di controllo: è (Lucas e Saccucci, 1990): Controllo limiti sono di solito impostati come multipli fissi di questa varianza asintotica, per esempio - 3 volte la deviazione standard. Se alfa 0,25, per esempio, ed i dati monitorati si assume di avere una distribuzione normale, N (0,1), quando nel controllo, i limiti di controllo saranno - 1.134 e il processo raggiungerà uno o altro limite in 500 passi in media. Lucas e Saccucci (1990 luc1) derivano le ARLS per una vasta gamma di valori alfa e sotto diverse ipotesi utilizzando le procedure di Markov Chain. Essi tabulare i risultati, compresa la fornitura ARLS quando la media del processo di controllo è stato spostato da un multiplo della deviazione standard. Ad esempio, con uno spostamento di 0,5 con alpha 0.25 l'ARL è inferiore a 50 fasi temporali. Gli approcci sopra descritti è noto come singolo livellamento esponenziale. le procedure sono applicate una volta alla serie tempo e poi analisi o processi di controllo vengono effettuate sul dataset lisciato risultante. Se il set di dati include una tendenza Andor componenti stagionali, a due o tre stadi di livellamento esponenziale può essere applicato come un mezzo per rimuovere (esplicitamente modellazione) questi effetti (vedi più avanti, la sezione sulle previsioni. Di seguito, e il NIST ha lavorato esempio). CHA1 Chatfield C (1975) L'analisi dei tempi della serie: teoria e pratica. Chapman and Hall, London HUN1 Hunter J S (1986) La media mobile esponenziale ponderata. J of Technology Qualità, 18, 203-210 luc1 Lucas J M, Saccucci M S (1990) esponenziale mobile ponderata sistemi basati sulla media di controllo: Proprietà e miglioramenti. Technometrics, 32 (1), 1-12 Rob1 Roberts S W (1959) controllo grafico test basati su medie mobili geometriche. Technometrics, 1, 239-250
No comments:
Post a Comment