Tuesday, 21 February 2017

Sas Moving Average Regression

Der Beispielcode auf der Registerkarte Vollständige Code veranschaulicht, wie man den gleitenden Durchschnitt einer Variablen durch einen ganzen Datensatz, über die letzten N Beobachtungen in einem Datensatz oder über die letzten N Beobachtungen innerhalb einer BY-Gruppe berechnet. Diese Beispieldateien und Codebeispiele werden von SAS Institute Inc zur Verfügung gestellt, da ohne jegliche Gewährleistung, weder ausdrücklich noch stillschweigend, einschließlich, aber nicht beschränkt auf die implizierten Garantien der Marktgängigkeit und Eignung für einen bestimmten Zweck. Die Empfänger bestätigen und stimmen zu, dass das SAS-Institut nicht haftbar ist Schäden, die sich aus der Verwendung dieses Materials ergeben, Darüber hinaus wird das SAS-Institut die hierin enthaltenen Materialien nicht unterstützen. Diese Beispieldateien und Codebeispiele werden von SAS Institute Inc zur Verfügung gestellt, ohne jegliche ausdrückliche oder stillschweigende Gewährleistung, Einschließlich, aber nicht beschränkt auf die implizierten Garantien der Marktgängigkeit und Eignung für einen bestimmten Zweck Die Empfänger bestätigen und stimmen zu, dass das SAS-Institut nicht verpflichtet ist E für irgendwelche Schäden, die sich aus ihrer Verwendung dieses Materials ergeben. Darüber hinaus wird das SAS-Institut keine Unterstützung für die darin enthaltenen Materialien liefern, um den gleitenden Durchschnitt einer Variablen über einen ganzen Datensatz zu übermitteln, über die letzten N Beobachtungen in einem Datensatz oder Über die letzten N Beobachtungen innerhalb einer BY-Gruppe. Autoregressive gleitende durchschnittliche Fehlerprozesse ARMA-Fehler und andere Modelle, die Verzögerungen von Fehlerbegriffen beinhalten, können mit Hilfe von FIT-Anweisungen geschätzt und mit SOLVE-Anweisungen simuliert oder prognostiziert werden. ARMA-Modelle für den Fehlerprozess sind Oft verwendet für Modelle mit autokorrelierten Resten Das AR-Makro kann verwendet werden, um Modelle mit autoregressiven Fehlerprozessen zu spezifizieren Das MA-Makro kann verwendet werden, um Modelle mit gleitenden durchschnittlichen Fehlerprozessen zu definieren. Autoregressive Fehler. Modell mit Autoregressiven Fehlern erster Ordnung, AR 1 , Hat die form. while ein AR 2 - Fehlerprozess hat die Form. und so weiter für höherwertige Prozesse Beachten Sie, dass die s unabhängig und identisch verteilt sind und Haben einen erwarteten Wert von 0. Ein Beispiel für ein Modell mit einer AR 2 - Komponente ist und so weiter für höherwertige Prozesse. Zum Beispiel können Sie ein einfaches lineares Regressionsmodell mit MA 2 gleitenden Durchschnittsfehlern wie überall MA1 schreiben Und MA2 sind die gleitenden Mittelparameter. Hinweis, dass RESID Y automatisch von PROC MODEL as definiert wird. Hinweis, dass RESID Y negativ ist. Die ZLAG-Funktion muss für MA-Modelle verwendet werden, um die Rekursion der Lags zu verkürzen Dies stellt sicher, dass die verzögerten Fehler beginnen bei Null in der Lag-Priming-Phase und breiten keine fehlenden Werte aus, wenn Verzögerungs-Priming-Periodenvariablen fehlen, und es stellt sicher, dass die zukünftigen Fehler null sind, anstatt während der Simulation oder Prognose zu fehlen. Einzelheiten zu den Lag-Funktionen finden Sie unter Abschnitt Lag Logic. This Modell geschrieben mit dem MA-Makro ist wie folgt. General Form für ARMA-Modelle. Die allgemeine ARMA p, q-Prozess hat die folgende Form. An ARMA p, q-Modell kann wie folgt spezifiziert werden. Awo AR i und MA J repräsentieren die autoregressive und movin G-durchschnittliche Parameter für die verschiedenen Verzögerungen Sie können beliebige Namen für diese Variablen verwenden, und es gibt viele gleichwertige Möglichkeiten, dass die Spezifikation geschrieben werden könnte. Vector ARMA-Prozesse können auch mit PROC MODEL geschätzt werden Zum Beispiel ein Zwei-Variable AR 1-Prozess für die Fehler der beiden endogenen Variablen Y1 und Y2 können wie folgt spezifiziert werden. Konvergenz Probleme mit ARMA-Modellen. ARMA-Modelle können schwer abzuschätzen sein Wenn die Parameter-Schätzungen nicht innerhalb des entsprechenden Bereichs liegen, ist ein Rest-Durchschnitt-Modell s-Rest Begriffe wachsen exponentiell Die berechneten Residuen für spätere Beobachtungen können sehr groß sein oder überlaufen sein. Dies kann entweder geschehen, weil falsche Startwerte verwendet wurden oder weil die Iterationen von vernünftigen Werten entfernt wurden. Bei der Auswahl von Startwerten für ARMA-Parameter sollten Startwerte verwendet werden 0 001 für ARMA-Parameter arbeiten in der Regel, wenn das Modell die Daten gut passt und das Problem gut konditioniert ist. Beachten Sie, dass ein MA-Modell oft genehmigt werden kann Durch ein höherwertiges AR-Modell und umgekehrt verkürzt Dies kann zu einer hohen Kollinearität in gemischten ARMA-Modellen führen, was wiederum eine ernsthafte Konditionierung in den Berechnungen und Instabilitäten der Parameterschätzungen verursachen kann. Wenn Sie Konvergenzprobleme bei der Schätzung haben Modell mit ARMA-Fehlerprozessen, versuchen, in Schritten zu schätzen Zuerst verwenden Sie eine FIT-Anweisung, um nur die strukturellen Parameter mit den ARMA-Parametern auf Null oder zu vernünftigen vorherigen Schätzungen zu schätzen, falls verfügbar Als nächstes verwenden Sie eine andere FIT-Anweisung, um nur die ARMA-Parameter zu schätzen, Unter Verwendung der strukturellen Parameterwerte aus dem ersten Lauf Da die Werte der strukturellen Parameter wahrscheinlich nahe an ihren endgültigen Schätzungen liegen, können die ARMA-Parameterschätzungen nun konvergieren. Schließlich verwenden wir eine andere FIT-Anweisung, um simultane Schätzungen aller Parameter zu erzeugen. Seit der Initiale Werte der Parameter sind nun wahrscheinlich ganz in der Nähe ihrer endgültigen gemeinsamen Schätzungen, die Schätzungen sollten schnell konvergieren, wenn die mo Del ist für die data. AR-Anfangsbedingungen geeignet. Die anfänglichen Verzögerungen der Fehlerausdrücke von AR p-Modellen können auf unterschiedliche Weise modelliert werden. Die autoregressiven Fehlerstartmethoden, die von SAS-ETS-Prozeduren unterstützt werden, sind die folgenden kleinsten Quadrate ARIMA - und MODEL-Prozeduren. Bedingungslose kleinste Quadrate AUTOREG, ARIMA und MODELL Verfahren. Maximum Wahrscheinlichkeit AUTOREG, ARIMA und MODELL Prozeduren. Yule-Walker AUTOREG Verfahren nur. Hildreth-Lu, die die ersten P-Beobachtungen MODELL-Prozedur nur löscht. Siehe Kapitel 8, die AUTOREG-Prozedur, Für eine Erläuterung und Diskussion der Vorzüge verschiedener AR p-Startmethoden. Die CLS-, ULS-, ML - und HL-Initialisierungen können von PROC MODEL durchgeführt werden. Für AR 1 - Fehler können diese Initialisierungen wie in Tabelle 18 2 dargestellt hergestellt werden. Diese Methoden sind Äquivalent in großen Samples. Tabelle 18 2 Initialisierungen, die von PROC MODEL AR 1 ERRORS durchgeführt werden. Die anfänglichen Verzögerungen der Fehlertermine von MA q Modellen können auch auf unterschiedliche Weise modelliert werden Die folgenden Moving-Av Error-Start-up-Paradigmen werden von den ARIMA - und MODEL-Prozeduren unterstützt. bedingten kleinsten Quadrate. Konditionale kleinste Quadrate. Die bedingte Methode der kleinsten Quadrate zur Schätzung von gleitenden durchschnittlichen Fehlerbegriffen ist nicht optimal, da sie das Start-Problem ignoriert. Dies verringert die Effizienz Der Schätzungen, obwohl sie nach wie vor bleiben Die anfänglichen verzögerten Residuen, die sich vor dem Beginn der Daten erstrecken, werden als 0 angenommen, ihr unbedingter Erwartungswert Dies führt zu einem Unterschied zwischen diesen Residuen und den verallgemeinerten kleinsten Quadraten-Resten für die gleitende Durchschnittskovarianz , Die im Gegensatz zum autoregressiven Modell durch den Datensatz anhält. Normalerweise konvergiert diese Differenz schnell auf 0, aber für fast nicht umwandelbare gleitende Durchschnittsprozesse ist die Konvergenz ziemlich langsam Um dieses Problem zu minimieren, sollten Sie genügend Daten haben und die Moving - Durchschnittliche Parameterschätzungen sollten innerhalb des invertierbaren Bereichs liegen. Dieses Problem kann auf Kosten von writin korrigiert werden Ga komplexeres Programm Unbedingte kleinste Quadrate Schätzungen für die MA 1 - Prozess kann durch die Angabe des Modells wie folgt produziert werden. Moving-durchschnittliche Fehler können schwer zu schätzen sein Sie sollten in Erwägung ziehen, eine AR p-Näherung an den gleitenden Durchschnitt-Prozess ein Gleitender Durchschnitt Prozess kann in der Regel durch einen autoregressiven Prozess gut angenähert werden, wenn die Daten nicht geglättet oder differenziert wurden. Das AR-Makro. Das SAS-Makro AR erzeugt Programmieranweisungen für PROC MODEL für autoregressive Modelle Das AR-Makro ist Teil der SAS-ETS-Software und nein Spezielle Optionen müssen eingestellt werden, um das Makro zu verwenden Der autoregressive Prozess kann auf die strukturellen Gleichungsfehler oder auf die endogene Reihe selbst angewendet werden. Das AR-Makro kann für die folgenden Arten von autoregression. unrestricted vector autoregression. restricted vector autoregression. Univariate verwendet werden Autoregression. Um Modell der Fehler Begriff einer Gleichung als autoregressive Prozess, verwenden Sie die folgende Aussage nach der Gleichung. Für ex Reichlich, nehme an, dass Y eine lineare Funktion von X1, X2 und ein AR 2 - Fehler ist. Sie würden dieses Modell wie folgt schreiben. Die Anrufe nach AR müssen nach allen Gleichungen kommen, die der Prozess anwendet. Der vorhergehende Makroaufruf, AR Y, 2, erzeugt die in der LIST-Ausgabe in Abbildung 18 58 dargestellten Aussagen. Abbildung 18 58 LIST Option Ausgang für ein AR 2 - Modell Die PRED-vordefinierten Variablen sind temporäre Programmvariablen, die verwendet werden, so dass die Verzögerungen der Residuen die korrekten Residuen sind und Nicht die, die durch diese Gleichung neu definiert werden. Beachten Sie, dass dies den Aussagen entspricht, die explizit im Abschnitt Allgemeine Formular für ARMA-Modelle geschrieben sind. Sie können die autoregressiven Parameter auch bei ausgewählten Lags auf Null setzen. Wenn Sie beispielsweise autoregressive Parameter an den Verzögerungen 1 wünschen, 12 und 13 können Sie die folgenden Aussagen verwenden. Diese Anweisungen erzeugen die in Abbildung 18 59 dargestellte Ausgabe. Abbildung 18 59 LIST Option Ausgabe für ein AR-Modell mit Lags bei 1, 12 und 13.Die MODEL-Prozedur. Listing of Compiled Programm Co De. Statement as Parsed. PRED yab x1 c x2.RESID y PRED y - ACTUAL y. ERROR y PRED y - y. OLDPRED y PRED y yl1 ZLAG1 y - perdy yl12 ZLAG12 y - perdy yl13 ZLAG13 y - PREDY. RESID y PRED Y - ACTUAL y. ERROR y PRED y - y. Es gibt Variationen über die bedingte Methode der kleinsten Quadrate, je nachdem, ob Beobachtungen am Anfang der Serie zum Aufwärmen des AR - Prozesses verwendet werden. Standardmäßig verwendet die AR - Bedingung für die kleinste Quadrate Alle Beobachtungen und nimmt Nullen für die anfänglichen Verzögerungen von autoregressiven Begriffen an Mit der M-Option können Sie verlangen, dass AR die bedingungslose Kleinste-Quadrate-ULS - oder Maximum-Likelihood-ML-Methode verwendet. Zum Beispiel. Diskussionen dieser Methoden finden Sie im Abschnitt AR Anfangsbedingungen. Mit der Option M CLS n können Sie verlangen, dass die ersten n Beobachtungen verwendet werden, um Schätzungen der ursprünglichen autoregressiven Verzögerungen zu berechnen. In diesem Fall beginnt die Analyse mit der Beobachtung n 1 Zum Beispiel können Sie das AR-Makro verwenden Ein autoregressives Modell anwenden Endogene Variable anstelle des Fehlerbegriffs durch Verwendung der Option TYPE V Wenn Sie z. B. die fünf vergangenen Verzögerungen von Y der Gleichung im vorherigen Beispiel hinzufügen möchten, können Sie mit AR die Parameter und die Verzögerungen verwenden, indem Sie sie verwenden Die folgenden Aussagen. Die vorstehenden Aussagen erzeugen die in Abbildung 18 60 gezeigte Ausgabe. Abbildung 18 60 LIST Option Ausgang für ein AR-Modell von Y. Dieses Modell prognostiziert Y als lineare Kombination von X1, X2, einem Intercept und den Werten von Y In den letzten fünf Perioden. Unterrestricted Vector Autoregression. Um Modell die Fehler Begriffe eines Satzes von Gleichungen als Vektor autoregressive Prozess, verwenden Sie die folgende Form des AR-Makros nach den Gleichungen. Der Prozessname Wert ist ein beliebiger Name, den Sie für AR liefern Zu verwenden, um Namen für die autoregressiven Parameter zu verwenden Sie können das AR-Makro verwenden, um mehrere verschiedene AR-Prozesse für verschiedene Sätze von Gleichungen zu modellieren, indem unterschiedliche Prozessnamen für jeden Satz verwendet werden. Der Prozessname stellt sicher, dass die verwendeten Variablennamen uni sind Que Verwenden Sie einen kurzen Prozeßnamenwert für den Prozeß, wenn Parameterschätzungen in einen Ausgabedatensatz geschrieben werden sollen. Das AR-Makro versucht, Parameternamen kleiner oder gleich acht Zeichen zu erstellen, aber dies ist durch die Länge des Prozessnamens begrenzt, der als verwendet wird Ein Präfix für die AR-Parameternamen. Der Variablenlistenwert ist die Liste der endogenen Variablen für die Gleichungen. Zum Beispiel nehmen wir an, dass Fehler für die Gleichungen Y1, Y2 und Y3 durch einen autoregressiven Prozess zweiter Ordnung erzeugt werden. Sie können folgendes verwenden Aussagen, die für Y1 und ähnlichen Code für Y2 und Y3 generieren. Nur die bedingte kleinste Quadrate M CLS oder M CLS n Methode können für Vektorprozesse verwendet werden. Sie können auch die gleiche Form mit Einschränkungen verwenden, dass die Koeffizientenmatrix 0 ist Bei ausgewählten Lags Zum Beispiel geben die folgenden Aussagen einen Vektorprozess dritter Ordnung an die Gleichungsfehler mit allen Koeffizienten bei Verzögerung 2, die auf 0 beschränkt ist, und mit den Koeffizienten bei Verzögerungen 1 und 3 uneingeschränkt. Sie können die drei Serien Y1 Y3 als Vektor autoregressiven Prozess in den Variablen anstatt in den Fehlern unter Verwendung der TYPE V Option modellieren Wenn du Y1 Y3 als Funktion von vergangenen Werten von Y1 Y3 und einigen exogenen Variablen oder Konstanten modellieren möchtest , Können Sie AR verwenden, um die Anweisungen für die Verzögerungsbegriffe zu erzeugen. Schreiben Sie eine Gleichung für jede Variable für den nichtautoregressiven Teil des Modells und rufen Sie dann AR mit der Option TYPE V an. Der nichtautoregressive Teil des Modells kann eine Funktion von sein Exogene Variablen, oder es können Intercept-Parameter sein Wenn es keine exogenen Komponenten zum Vektor-Autoregression-Modell gibt, einschließlich keine Abschnitte, dann null zu jeder der Variablen zuweisen Es muss eine Zuordnung zu jeder der Variablen geben, bevor AR aufgerufen wird. Dieses Beispiel Modelliert den Vektor Y Y1 Y2 Y3 als lineare Funktion nur seines Wertes in den vorherigen zwei Perioden und ein weißer Rauschfehlervektor Das Modell hat 18 3 3 3 3 Parameter. Syntax des AR Macro. Es gibt zwei Fälle des sy Ntax des AR-Makros Wenn keine Beschränkungen für einen Vektor-AR-Prozess benötigt werden, hat die Syntax des AR-Makros die allgemeine Form. Spezifiziert ein Präfix für AR, das beim Erstellen von Namen von Variablen verwendet wird, die benötigt werden, um den AR-Prozess zu definieren. Wenn der Endolist nicht ist Spezifiziert ist die endogene Liste standardmäßig Name, der der Name der Gleichung sein muss, auf die der AR-Fehlerprozess angewendet werden soll. Der Namenswert darf 32 Zeichen nicht überschreiten. Ist die Reihenfolge des AR-Prozesses. Spezifiziert die Liste der Gleichungen, AR-Prozess angewendet werden Wenn mehr als ein Name gegeben wird, wird ein uneingeschränkter Vektorprozess mit den strukturellen Resten aller Gleichungen erstellt, die als Regressoren in jeder der Gleichungen enthalten sind. Wenn nicht angegeben, endet der Endolist auf name. spezifiziert die Liste der Lags An dem die AR-Terme hinzugefügt werden sollen. Die Koeffizienten der Terme, die nicht aufgeführt sind, werden auf 0 gesetzt. Alle aufgeführten Lags müssen kleiner oder gleich nlag sein und es müssen keine Duplikate vorhanden sein. Wenn nicht angegeben, wird die Laglist defaul Ts auf alle Verzögerungen 1 bis nlag. spezifiziert die Schätzmethode zu implementieren Gültige Werte von M sind CLS bedingte kleinste Quadrate Schätzungen, ULS unbedingte kleinste Quadrate Schätzungen und ML maximale Wahrscheinlichkeit Schätzungen M CLS ist die Voreinstellung Nur M CLS ist erlaubt, wenn mehr als eins Gleichung wird spezifiziert Die ULS - und ML-Methoden werden für AR-Modelle von AR nicht unterstützt. Es wird festgelegt, dass der AR-Prozess auf die endogenen Variablen selbst anstatt auf die strukturellen Residuen der Gleichungen angewendet werden soll. Restricted Vector Autoregression. Sie können das kontrollieren Parameter sind in den Prozess eingeschlossen und beschränken auf 0 die Parameter, die Sie nicht enthalten. Zuerst verwenden Sie AR mit der DEFER-Option, um die Variablenliste zu deklarieren und die Dimension des Prozesses zu definieren. Verwenden Sie dann weitere AR-Aufrufe, um Begriffe für ausgewählte Gleichungen mit zu erzeugen Ausgewählte Variablen an ausgewählten Lags Zum Beispiel sind die erzeugten Fehlergleichungen wie folgt: Dieses Modell besagt, dass die Fehler für Y1 von den Fehlern abhängen Von Y1 und Y2, aber nicht Y3 bei beiden Verzögerungen 1 und 2, und dass die Fehler für Y2 und Y3 von den vorherigen Fehlern für alle drei Variablen abhängen, aber nur bei Verzögerung 1. AR-Makro-Syntax für eingeschränkten Vektor AR. Eine alternative Verwendung Von AR erlaubt, Einschränkungen für einen Vektor-AR-Prozess aufzuerlegen, indem er AR mehrmals aufruft, um verschiedene AR-Terme anzugeben und für verschiedene Gleichungen zu verzögern. Der erste Aufruf hat die allgemeine Form. Spezifiziert ein Präfix für AR, das beim Erstellen von Namen von Variablen verwendet wird, Definieren Sie den Vektor AR-Prozess. Spezifiziert die Reihenfolge des AR-Prozesses. Spezifiziert die Liste der Gleichungen, auf die der AR-Prozess angewendet werden soll. Es spezifiziert, dass AR nicht den AR-Prozess erzeugen soll, sondern auf weitere Informationen warten muss, die in späterem AR angegeben sind Fordert denselben Namenwert an. Die nachfolgenden Anrufe haben die allgemeine Form. is die gleiche wie im ersten Aufruf. Spezialisiert die Liste der Gleichungen, auf die die Spezifikationen in diesem AR-Aufruf angewendet werden sollen Nur Namen, die im endolistischen Wert des Erste cal L für den Namen Wert kann in der Liste der Gleichungen in eqlist erscheinen. Spezifiziert die Liste der Gleichungen, deren verzögerte strukturelle Residuen als Regressoren in den Gleichungen in eqlist aufgenommen werden sollen Nur Namen im Endolisten des ersten Aufrufs für den Namen Wert können erscheinen In varlist Wenn nicht angegeben, varlist standardmäßig endolist. spezifiziert die Liste der Verzögerungen, bei denen die AR-Terme hinzugefügt werden sollen. Die Koeffizienten der Begriffe an nicht aufgeführten Verzögerungen werden auf 0 gesetzt. Alle aufgeführten Lags müssen kleiner oder gleich sein Der Wert von nlag und es muss keine Duplikate geben Wenn nicht angegeben, wird die Laglist standardmäßig auf alle Lags 1 bis nlag. Das MA Macro. Das SAS-Makro MA generiert Programmierungsanweisungen für PROC MODEL für Moving-Average-Modelle Das MA-Makro ist Teil von SAS ETS Software und keine speziellen Optionen benötigt werden, um das Makro zu verwenden Der gleitende durchschnittliche Fehlerprozess kann auf die strukturellen Gleichungsfehler angewendet werden Die Syntax des MA-Makros ist die gleiche wie das AR-Makro, außer es gibt kein TYPE-Argument. Wenn Sie uns sind Wenn die MA - und AR-Makros kombiniert werden, muss das MA-Makro dem AR-Makro folgen. Die folgenden SAS-IML-Anweisungen erzeugen einen ARMA 1, 1 3-Fehlerprozess und speichern ihn im Datensatz MADAT2. Die folgenden PROC-MODEL-Anweisungen werden zur Abschätzung der Parameter verwendet Dieses Modells unter Verwendung der maximalen Wahrscheinlichkeitsfehlerstruktur. Die Schätzungen der Parameter, die durch diesen Durchlauf erzeugt werden, sind in Abbildung 18 61 gezeigt. Abbildung 18 61 Schätzungen von einem ARMA 1, 1 3 Prozess. Es gibt zwei Fälle der Syntax für das MA-Makro Wenn Beschränkungen für einen Vektor-MA-Prozess nicht benötigt werden, hat die Syntax des MA-Makros die allgemeine Form. Speichert ein Präfix für MA, das beim Erstellen von Namen von Variablen verwendet wird, die benötigt werden, um den MA-Prozess zu definieren und ist der Standard-Endolist Der MA-Prozess. Spezifiziert die Gleichungen, auf die der MA-Prozess angewendet werden soll Wenn mehr als ein Name gegeben wird, wird die CLS-Schätzung für den Vektorprozess verwendet. Spezifiziert die Verzögerungen, an denen die MA-Terme hinzugefügt werden sollen Alle aufgeführten Lags Muss kleiner oder gleich sein Al to nlag und es muss keine Duplikate Wenn nicht angegeben, die Laglist standardmäßig auf alle Verzögerungen 1 durch nlag. spezifiziert die Schätzmethode zu implementieren Gültige Werte von M sind CLS bedingte kleinste Quadrate Schätzungen, ULS unbedingte kleinste Quadrate Schätzungen und ML maximale Wahrscheinlichkeit Schätzungen M CLS ist die Voreinstellung Nur M CLS ist erlaubt, wenn mehr als eine Gleichung im Endolisten angegeben ist. MA-Makro-Syntax für eingeschränkte Vektorbewegungen. Eine alternative Verwendung von MA erlaubt es, Einschränkungen für einen Vektor-MA-Prozess zu verhängen, indem man MA mehrmals aufruft, um verschiedene MA-Terme anzugeben und für verschiedene Gleichungen zu verzögern. Der erste Aufruf hat die allgemeine Form Ein Präfix für MA, das beim Erstellen von Namen von Variablen verwendet wird, die benötigt werden, um den Vektor-MA-Prozeß zu definieren. Spezifiziert die Reihenfolge des MA-Prozesses. Spezifiziert die Liste der Gleichungen, auf die der MA-Prozeß angewendet werden soll. Es spezifiziert, daß MA nicht zu erzeugen ist MA-Prozess ist aber auf weitere Informationen warten, die in späteren MA-Aufrufen für denselben Namenwert angegeben sind. Die nachfolgenden Anrufe haben die allgemeine Form. is die gleiche wie im ersten Aufruf. Speichert die Liste der Gleichungen, auf die die Spezifikationen in diesem MA-Aufruf Sind anzuwenden. Spezifiziert die Liste der Gleichungen, deren verzögerte strukturelle Residuen als Regressoren in den Gleichungen in eqlist aufgenommen werden sollen. Spezifiziert die Liste der Verzögerungen, an denen die MA-Terme hinzugefügt werden sollen SAS Kapitel 2 Regressionsdiagnose. Kapitel Gliederung 2 0 Regressionsdiagnose 2 1 Ungewöhnliche und einflussreiche Daten 2 2 Tests auf die Normalität der Residuen 2 3 Tests auf nicht konstanter Fehler der Abweichung 2 4 Tests auf Multikollinearität 2 5 Tests auf Nichtlinearität 2 6 Modellspezifikation 2 7 Probleme Der Unabhängigkeit 2 8 Zusammenfassung 2 9 Für weitere Informationen.2 0 Regressionsdiagnostik In unserem letzten Kapitel haben wir gelernt, wie man eine gewöhnliche lineare Regression mit SAS durchführt, mit Methoden zur Untersuchung der Verteilung von Variablen, um auf nicht normal verteilte Variablen zu überprüfen Ein erster Blick auf die Prüfung von Annahmen in der Regression Ohne zu überprüfen, dass Ihre Daten die Regressionsannahmen erfüllt haben, können Ihre Ergebnisse irreführend sein. In diesem Kapitel wird untersucht, wie Sie SAS verwenden können, um zu testen, ob Ihre Daten die Annahmen der linearen Regression erfüllen Die folgenden Annahmen. Linearity die Beziehungen zwischen den Prädiktoren und die Outcome-Variable sollte linear. Normality die Fehler Sollte normal verteilt werden technisch Normalität ist nur notwendig, um die t-Tests gültig zu sein, die Schätzung der Koeffizienten erfordert nur, dass die Fehler identisch und unabhängig verteilt werden. Homogenität der Varianz Homoscedastizität die Fehlerabweichung sollte konstant sein. Independence die Fehler mit einem verbunden Beobachtung ist nicht korreliert mit den Fehlern einer anderen Beobachtung. Errors in Variablen Prädiktor-Variablen werden ohne Fehler gemessen werden wir dies in Kapitel 4.Model Spezifikation das Modell sollte ordnungsgemäß spezifiziert werden, einschließlich aller relevanten Variablen, und ohne irrelevante Variablen. Zusätzlich dort Sind Fragen, die während der Analyse entstehen können, dass, während streng genommen, keine Annahmen der Regression sind, sind dennoch von großer Bedeutung für Regressionsanalytiker. Einfluß von einzelnen Beobachtungen, die einen unangemessenen Einfluss auf die Koeffizienten ausüben. Kollinearitätsprädiktoren, die hochkollinear sind, Dh linear verwandten, können Probleme bei der Schätzung verursachen Mit den Regressionskoeffizienten wurden im Laufe der Jahre grafische Methoden und numerische Tests für die Regressionsdiagnostik entwickelt. In diesem Kapitel werden wir diese Methoden erforschen und zeigen, wie man Regressionsannahmen überprüft und mögliche Probleme mit SAS.2 erkennt. 1 Ungewöhnliche und einflussreiche Daten. Eine einzige Beobachtung, die sich wesentlich von allen anderen Beobachtungen unterscheidet, kann einen großen Unterschied in den Ergebnissen Ihrer Regressionsanalyse machen. Wenn eine einzelne Beobachtung oder kleine Gruppe von Beobachtungen Ihre Ergebnisse wesentlich ändert, möchten Sie dies wissen und weiter untersuchen. Es gibt drei Wege, die eine Beobachtung ungewöhnlich sein kann. Outatoren In der linearen Regression ist ein Ausreißer eine Beobachtung mit großem Rest. Mit anderen Worten, es ist eine Beobachtung, deren abhängiger Variablenwert ungewöhnlich ist, da seine Werte auf den Prädiktorvariablen liegen. Ein Ausreißer kann auf eine Stichprobenmerkmal hindeuten Oder kann einen Dateneingabefehler oder ein anderes Problem anzeigen. Leverage Eine Beobachtung mit einem Extrem E-Wert auf einer Prädiktorvariable heißt ein Punkt mit hohem Leverage Hebel ist ein Maß dafür, wie weit eine Beobachtung von dem Mittelwert dieser Variablen abweicht. Diese Hebelpunkte können sich auf die Schätzung der Regressionskoeffizienten auswirken. Einfluss Eine Beobachtung wird gesagt Einflussreich, wenn die Beseitigung der Beobachtung erheblich verändert die Schätzung der Koeffizienten Einfluss kann als das Produkt der Hebelwirkung und Outlierness gedacht werden. Wie können wir identifizieren diese drei Arten von Beobachtungen Let s Blick auf ein Beispiel Datensatz namens Verbrechen Dieser Datensatz erscheint in statistischen Methoden für soziale Sciences, Third Edition von Alan Agresti und Barbara Finlay Prentice Hall, 1997 Die Variablen sind Staat id sid, Staat Name Staat, Gewaltverbrechen pro 100.000 Menschen Verbrechen, Morde pro 1.000.000 Mord, der Prozentsatz der Bevölkerung leben in Metropolregionen pctmetro, der Prozentsatz Der Bevölkerung, die weiß pctwhite ist, Prozent der Bevölkerung mit einer High-School-Ausbildung oder über pcths, percen T der Bevölkerung, die unter Armutsgrenze Armut lebt, und Prozent der Bevölkerung, die Alleinerziehende einzeln sind Unten verwenden wir proc Inhalt und proc bedeutet, mehr über diese Datendatei zu erfahren. Lasst uns sagen, dass wir das Verbrechen durch pctmetro Armut vorher erklären wollen. Das ist Zu sagen, wir wollen ein lineares Regressionsmodell zwischen der Antwort variablen Kriminalität und den unabhängigen Variablen pctmetro Armut und einzeln aufbauen Wir werden zunächst die Streuung von Verbrechen gegen jede der Prädiktorvariablen vor der Regressionsanalyse betrachten, also werden wir einige Ideen haben Über mögliche Probleme Wir können eine Scatterplot-Matrix dieser Variablen wie unten gezeigt erstellen. Die Graphen des Verbrechens mit anderen Variablen zeigen einige mögliche Probleme In jeder Handlung sehen wir einen Datenpunkt, der weit entfernt von den restlichen Datenpunkten liegt Individuelle Graphen des Verbrechens mit Pktmetro und Armut und Single, so können wir einen besseren Blick auf diese Scatterplots bekommen Wir werden die Pointlabel-Status-Option in der Symbol-Anweisung zu pl hinzufügen Ot der Staat Name anstelle eines Punktes. All die Streuung Plots deuten darauf hin, dass die Beobachtung für Zustand dc ist ein Punkt, der zusätzliche Aufmerksamkeit erfordert, da es sich von allen anderen Punkten herausragt Wir werden es im Auge behalten, wenn wir unsere Regressionsanalyse machen. Wie lassen Sie den Regressionsbefehl, der das Verbrechen vor pctmetro, Armut und Single vorhersagt, versuchen wir Schritt für Schritt, um alle potenziell ungewöhnlichen oder einflussreichen Punkte danach zu identifizieren. Wir werden mehrere Statistiken ausgeben, die wir für die nächsten Analysen benötigen Dataset namens crime1res und wir werden jede statistische wiederum erklären Diese Statistiken beinhalten die studentisierte Residenz namens r, Leverage namens Lev, Cooks D genannt cd und DFFITS genannt dffit Wir fordern alle diese Statistiken jetzt, so dass sie in einem einzigen platziert werden können Dataset, das wir für die nächsten paar Beispiele verwenden werden. Andernfalls könnten wir das Proc Reg jedes Mal, wenn wir eine neue Statistik wünschen, wiederherstellen und diese Statistik auf eine andere Ausgabedatei speichern Amin die studentisierten Residuen als erstes Mittel zur Identifizierung von Ausreißern Wir haben die studentisierten Residuen in der obigen Regression in der Ausgabe-Anweisung angefordert und nannten sie r Wir können einen beliebigen Namen wählen, solange es ein legaler SAS-Variablenname ist. Studentisierte Residuen sind ein Typ Von standardisierten Resten, die verwendet werden können, um Ausreißer zu identifizieren Lassen Sie uns die Residuen mit einem Stamm und Blatt-Plot untersuchen Wir sehen drei Residuen, die herausragen, -3 57, 2 62 und 3 77. Die Stamm - und Blatt-Display hilft uns, einige potenzielle Ausreißer zu sehen , Aber wir können nicht sehen, welchen Zustand welche Beobachtungen potentielle Ausreißer sind. Setzen wir die Daten auf die Residuen und zeigen die 10 größten und 10 kleinsten Residuen zusammen mit der Staats-ID und dem Namen des Staates. Wir sollten die Aufmerksamkeit auf studentische Residuen, die 2 oder - 2, und bekomme noch mehr besorgt über Residuen, die mehr als 2 5 oder -2 5 und noch mehr besorgt über Residuen, die mehr als 3 oder -3 Diese Ergebnisse zeigen, dass DC und MS sind die am meisten beunruhigenden Beobachtungen, Fol Von FL. Let s zeigen alle Variablen in unserer Regression, wo der studierte Restwert 2 oder -2 übersteigt, dh wo der absolute Wert des Restwertes 2 übersteigt. Wir sehen die Daten für die drei potenziellen Ausreißer, die wir identifiziert haben, nämlich Florida, Mississippi Und Washington DC Schauen sorgfältig auf diese drei Beobachtungen, konnten wir keine Dateneingabe Fehler finden, obwohl wir vielleicht eine andere Regressionsanalyse mit dem extremen Punkt wie DC gelöscht werden wollen Wir werden zu diesem Thema später zurückkehren Nutzen Sie s, um Beobachtungen zu identifizieren, die einen großen Einfluss auf die Regressionskoeffizientenschätzungen haben werden. Allgemeinerweise sollte ein Punkt mit einer Hebelwirkung von mehr als 2k 2 n sorgfältig untersucht werden, wobei k die Anzahl der Prädiktoren ist und n die Anzahl der Beobachtungen ist. In unserem Beispiel hierfür Arbeitet auf 2 3 2 51 15686275, so können wir die folgenden machen. Wie wir gesehen haben, ist DC eine Beobachtung, dass beide eine große Rest - und große Hebelwirkung hat. Solche Punkte sind potentiell die einflussreichsten Kann eine Handlung, die die Hebelwirkung durch die verbleibenden quadriert zeigt und suchen nach Beobachtungen, die gemeinsam hoch auf diese beiden Maßnahmen sind Wir können dies mit einem Hebel im Vergleich zu Rest-Quadrat-Handlung Verwenden von Restquadrat statt Rest selbst, ist die Grafik beschränkt auf Der erste Quadrant und die relativen Positionen der Datenpunkte bleiben erhalten Dies ist eine schnelle Möglichkeit, potenzielle einflussreiche Beobachtungen und Ausreißer gleichzeitig zu überprüfen. Beide Arten von Punkten sind für uns sehr besorgniserregend. Der Punkt für DC fällt unsere Aufmerksamkeit auf die höchste Verbleibende quadratische und höchste Hebelwirkung, was darauf hindeutet, dass es sehr einflussreich sein könnte Der Punkt für MS hat fast so große Reste quadriert, aber hat nicht die gleiche Hebelwirkung Wir werden diese Beobachtungen sorgfältiger betrachten, indem wir sie unten auflisten. Jetzt lassen Sie sich auf Gesamtmaßnahme des Einflusses Speziell sehen wir bei Cook s D und DFITS Diese Maßnahmen vereinen sowohl Informationen über die Rest - als auch die Hebelwirkung von Cooks D und DFITS sind sehr s Imilar, außer dass sie anders skalieren, aber sie geben uns ähnliche Antworten. Der niedrigste Wert, den Cook s D annehmen kann, ist null, und je höher der Koch s D ist, desto einflussreicher ist der Punkt Der konventionelle Cut-off-Punkt ist 4 n Wir können alle Beobachtungen über dem Cut-off-Punkt auflisten, indem wir folgendes tun. Wir sehen, dass der Cook s D für DC bei weitem der größte ist. Jetzt lassen Sie sich einen Blick auf DFITS Die konventionelle Cut-off-Punkt für DFITS ist 2 sqrt Kn DFITS kann entweder positiv oder negativ sein, mit Zahlen nahe Null, die den Punkten mit kleinem oder nullem Einfluss entsprechen. Wie wir sehen, zeigt DFITS auch an, dass DC bei weitem die einflussreichste Beobachtung ist. Die obigen Maßnahmen sind allgemeine Einflussfaktoren Sie können auch spezifischere Einflussfaktoren berücksichtigen, die beurteilen, wie jeder Koeffizient durch das Löschen der Beobachtung verändert wird. Diese Maßnahme heißt DFBETA und wird für jeden der Prädiktoren erstellt. Anscheinend ist dies rechnerisch intensiver als Zusammenfassungsstatistiken wie Coo Ks D weil je mehr prädiktoren ein modell hat, desto mehr rechnung kann es beinhalten Wir können unsere Aufmerksamkeit nur auf jene prädiktoren beschränken, mit denen wir uns am meisten beschäftigen und sehen, wie gut sich diese prädiktoren in SAS verhalten haben, wir müssen die ods ausgeben OutStatistics-Anweisung zur Erzeugung der DFBETAs für jeden der Prädiktoren Die Namen für die neu erstellten Variablen werden von SAS automatisch gewählt und beginnen mit DFB. Diese haben drei Variablen, DFBpctmetro DFBpoverty und DFBsingle erstellt. Schau mal die ersten 5 Werte an. Der Wert für DFBsingle Für Alaska ist 0 14, was bedeutet, dass Alaska, indem er in die Analyse einbezogen wird, im Vergleich zu dem Ausschluss, den Koeffizienten für Single durch 0 14 Standardfehler erhöht, dh das 14-fache des Standardfehlers für BSingle oder um 0 14 15 5 Einbeziehung einer Beobachtung könnte entweder zu einer Erhöhung oder Verringerung eines Regressionskoeffizienten beitragen, DFBETAs können entweder positiv oder negativ sein. Ein DFBETA-Wert von mehr als 2 sqrt n merits weiter investiert In diesem Beispiel würden wir uns um absolute Werte von über 2 sqrt 51 oder 0 28 kümmern. Wir können alle drei DFBETA-Werte gegen die Zustands-ID in einem unten dargestellten Diagramm zeichnen. Wir fügen eine Zeile bei 0 28 und -0 28 hinzu help us see potentially troublesome observations We see the largest value is about 3 0 for DFsingle. We can repeat this graph with the pointlabel state option on the symbol1 statement to label the points With the graph above we can identify which DFBeta is a problem, and with the graph below we can associate that observation with the state that it originates from. Now let s list those observations with DFBsingle larger than the cut-off value Again, we see that DC is the most problematic observation. The following table summarizes the general rules of thumb we use for these measures to identify observations worthy of further investigation where k is the number of predictors and n is the number of observations. Washington DC has appeared as an outlier as well as an influential point in every analysis Because Washington D C is really not a state, we can use this to justify omitting it from the analysis, saying that we really wish to just analyze states First, let s repeat our analysis including DC. Now, let s run the analysis omitting DC by including a where statement here ne stands for not equal to but you could also use. to mean the same thing As we expect, deleting DC made a large change in the coefficient for single The coefficient for single dropped from 132 4 to 89 4 After having deleted DC, we would repeat the process we have illustrated in this section to search for any other outlying and influential observations. In this section, we explored a number of methods of identifying outliers and influential points In a typical analysis, you would probably use only some of these methods Generally speaking, there are two types of methods for assessing outliers statistics such as residuals, leverage, Cook s D and DFITS, that assess the overall impact of an observation on the regression results, and statistics such as DFBETA that assess the specific impact of an observation on the regression coefficients. In our example, we found that DC was a point of major concern We performed a regression with it and without it and the regression equations were very different We can justify removing it from our analysis b y reasoning that our model is to predict crime rate for states, not for metropolitan areas.2 2 Tests for Normality of Residuals. One of the assumptions of linear regression analysis is that the residuals are normally distributed This assumption assures that the p-values for the t-tests will be valid As before, we will generate the residuals called r and predicted values called fv and put them in a dataset called elem1res We will also keep the variables api00 meals ell and emer in that dataset. Let s use the elemapi2 data file we saw in Chapter 1 for these analyses Let s predict academic performance api00 from percent receiving free meals meals , percent of English language learners ell , and percent of teachers with emergency credentials emer. Below we use proc kde to produce a kernel density plot kde stands for kernel density estimate It can be thought as a histogram with narrow bins and a moving average. Proc univariate will produce a normal quantile graph qqplot plots the quantiles of a variable against the quantiles of a normal distribution qqplot is most sensitive to non-normality near two tails and probplot As you see below, the qqplot command shows a slight deviation from normal at the upper tail, as can be seen in the kde above We can accept that the residuals are close to a normal distribution. Severe outliers consist of those points that are either 3 inter-quartile-ranges below the first quartile or 3 inter-quartile-ranges above the third quartile The presence of any severe outliers should be sufficient evidence to reject normality at a 5 significance level Mild outliers are common in samples of any size In our case, we don t have any severe outliers and the distribution seems fairly symmetric The residuals have an approximately normal distribution See the output of the proc univariate above. In the Shapiro-Wilk W test for normality, the p-value is based on the assumption that the distribution is normal In our example, the p-value is very large 0 51 , indicating that we cannot reject that r is normally distributed See the output of the proc univariate above.2 3 Tests for Heteroscedasticity. One of the main assumptions for the ordinary least squares regression is the homogeneity of variance of the residuals If the model is well-fitted, there should be no pattern to the residuals plotted against the fitted values If the variance of the residuals is non-constant, then the residual variance is said to be heteroscedastic There are graphical and non-graphical methods for detecting heteroscedasticity A commonly used graphical method is to plot the residuals versus fitted predicted values Below we use a plot statement in the proc reg The r and p tell SAS to calculate the residuals r and predicted values p for use in the plot We see that the pattern of the data points is getting a little narrower towards the right end, which is an indication of mild heteroscedasticity. Now let s look at a test for heteroscedasticity, the White test The White test tests the null hypothesis that the variance of the residuals is homogenous Therefore, if the p-value is very small, we would have to reject the hypothesis and accept the alternative hypothesis that the variance is not homogenous We use the spec option on the model statement to obtain the White test. While the White test is significant, the distribution of the residuals in the residual versus fitted plot did not seem overly heteroscedastic. Consider another example where we use enroll as a predictor Recall that we found enroll to be skewed to the right in Chapter 1 As you can see, this example shows much more serious heteroscedasticity. As we saw in Chapter 1, the variable enroll was skewed considerably to the right, and we found that by taking a log transformation, the transformed variable was more normally distributed Below we transform enroll run the regression and show the residual versus fitted plot The distribution of the residuals is much improved Certainly, this is not a perfect distribu tion of residuals, but it is much better than the distribution with the untransformed variable. Finally, let s revisit the model we used at the start of this section, predicting api00 from meals ell and emer Using this model, the distribution of the residuals looked very nice and even across the fitted values What if we add enroll to this model Will this automatically ruin the distribution of the residuals Let s add it and see. As you can see, the distribution of the residuals looks fine, even after we added the variable enroll When we had just the variable enroll in the model, we did a log transformation to improve the distribution of the residuals, but when enroll was part of a model with other variables, the residuals looked good enough so that no transformation was needed This illustrates how the distribution of the residuals, not the distribution of the predictor, was the guiding factor in determining whether a transformation was needed.2 4 Tests for Collinearity. When there is a per fect linear relationship among the predictors, the estimates for a regression model cannot be uniquely computed The term collinearity describes two variables are near perfect linear combinations of one another When more than two variables are involved, it is often called multicollinearity, although the two terms are often used interchangeably. The primary concern is that as the degree of multicollinearity increases, the regression model estimates of the coefficients become unstable and the standard errors for the coefficients can get wildly inflated In this section, we will explore some SAS options used with the model statement that help to detect multicollinearity. We can use the vif option to check for multicollinearity vif stands for variance inflation factor As a rule of thumb, a variable whose VIF values is greater than 10 may merit further investigation Tolerance, defined as 1 VIF, is used by many researchers to check on the degree of collinearity A tolerance value lower than 0 1 i s comparable to a VIF of 10 It means that the variable could be considered as a linear combination of other independent variables The tol option on the model statement gives us these values Let s first look at the regression we did from the last section, the regression model predicting api00 from meals, ell and emer and use the vif and tol options with the model statement. The VIFs look fine here Here is an example where the VIFs are more worrisome. In this example, the VIF and tolerance 1 VIF values for avged gradsch and colgrad are worrisome All of these variables measure education of the parents and the very high VIF values indicate that these variables are possibly redundant For example, after you know gradsch and colgrad you probably can predict avged very well In this example, multicollinearity arises because we have put in too many variables that measure the same thing parent education. Let s omit one of the parent education variables, avged Note that the VIF values in the analysis below appear much better Also, note how the standard errors are reduced for the parent education variables, gradsch and colgrad This is because the high degree of collinearity caused the standard errors to be inflated With the multicollinearity eliminated, the coefficient for gradsch which had been non-significant, is now significant. Let s introduce another option regarding collinearity The collinoint option displays several different measures of collinearity For example, we can test for collinearity among the variables we used in the two examples above Note that if you use the collin option, the intercept will be included in the calculation of the collinearity statistics, which is not usually what you want The collinoint option excludes the intercept from those calculations, but it is still included in the calculation of the regression. We now remove avged and see the collinearity diagnostics improve considerably. The condition number is a commonly used index of the global instability of the regression coefficients a large condition number, 10 or more, is an indication of instability.2 5 Tests on Nonlinearity. When we do linear regression, we assume that the relationship between the response variable and the predictors is linear This is the assumption of linearity If this assumption is violated, the linear regression will try to fit a straight line to data that does not follow a straight line Checking the linear assumption in the case of simple regression is straightforward, since we only have one predictor All we have to do is a scatter plot between the response variable and the predictor to see if nonlinearity is present, such as a curved band or a big wave-shaped curve For example, let us use a data file called that has data about a number of nations around the world Below we look at the proc contents for this file to see the variables in the file Note that the position option tells SAS to list the variables in the order that they are in the data file. Let s look a t the relationship between GNP per capita gnpcap and births birth Below if we look at the scatterplot between gnpcap and birth we can see that the relationship between these two variables is quite non-linear We added a regression line to the chart, and you can see how poorly the line fits this data Also, if we look at the residuals by predicted plot, we see that the residuals are not nearly homoscedastic, due to the non-linearity in the relationship between gnpcap and birth. Now we are going to modify the above scatterplot by adding a lowess also called loess smoothing line By default, SAS will make four graphs, one for smoothing of 0 1, 0 2, 0 3 and 0 4 We show only the graph with the 0 4 smooth. some output omitted. The lowess line fits much better than the OLS linear regression In trying to see how to remedy these, we notice that the gnpcap scores are quite skewed with most values being near 0, and a handful of values of 10,000 and higher This suggests to us that some transformation of the variable may be useful One of the commonly used transformations is a log transformation Let s try it below As you see, the scatterplot between lgnpcap and birth looks much better with the regression line going through the heart of the data Also, the plot of the residuals by predicted values look much more reasonable. This section has shown how you can use scatterplots to diagnose problems of non-linearity, both by looking at the scatterplots of the predictor and outcome variable, as well as by examining the residuals by predicted values These examples have focused on simple regression however, similar techniques would be useful in multiple regression However, when using multiple regression, it would be more useful to examine partial regression plots instead of the simple scatterplots between the predictor variables and the outcome variable.2 6 Model Specification. A model specification error can occur when one or more relevant variables are omitted from the model or one or more irre levant variables are included in the model If relevant variables are omitted from the model, the common variance they share with included variables may be wrongly attributed to those variables, and the error term is inflated On the other hand, if irrelevant variables are included in the model, the common variance they share with included variables may be wrongly attributed to them Model specification errors can substantially affect the estimate of regression coefficients. Consider the model below This regression suggests that as class size increases the academic performance increases Before we publish results saying that increased class size is associated with higher academic performance, let s check the model specification. There are a couple of methods to detect specification errors A link test performs a model specification test for single-equation models It is based on the idea that if a regression is properly specified, one should not be able to find any additional independent varia bles that are significant except by chance To conduct this test, you need to obtain the fitted values from your regression and the squares of those values The model is then refit using these two variables as predictors The fitted value should be significant because it is the predicted value One the other hand, the fitted values squared shouldn t be significant, because if our model is specified correctly, the squared predictions should not have much of explanatory power That is, we wouldn t expect the fitted value squared to be a significant predictor if our model is specified correctly So we will be looking at the p-value for the fitted value squared. Let s try adding one more variable, meals to the above model and then run the link test again. The link test is once again non-significant Note that after including meals and full the coefficient for class size is no longer significant While acsk3 does have a positive relationship with api00 when no other variables are in the model, when w e include, and hence control for, other important variables, acsk3 is no longer significantly related to api00 and its relationship to api00 is no longer positive.2 7 Issues of Independence. The statement of this assumption is that the errors associated with one observation are not correlated with the errors of any other observation cover several different situations Consider the case of collecting data from students in eight different elementary schools It is likely that the students within each school will tend to be more like one another that students from different schools, that is, their errors are not independent We will deal with this type of situation in Chapter 4.Another way in which the assumption of independence can be broken is when data are collected on the same variables over time Let s say that we collect truancy data every semester for 12 years In this situation it is likely that the errors for observation between adjacent semesters will be more highly correlated than fo r observations more separated in time This is known as autocorrelation When you have data that can be considered to be time-series, you should use the dw option that performs a Durbin-Watson test for correlated residuals. We don t have any time-series data, so we will use the elemapi2 dataset and pretend that snum indicates the time at which the data were collected We will sort the data on snum to order the data according to our fake time variable and then we can run the regression analysis with the dw option to request the Durbin-Watson test. The Durbin-Watson statistic has a range from 0 to 4 with a midpoint of 2 The observed value in our example is less than 2, which is not surprising since our data are not truly time-series. In this chapter, we have used a number of tools in SAS for determining whether our data meets the regression assumptions Below, we list the major commands we demonstrated organized according to the assumption the command was shown to test. Detecting Unusual and Inf luential Data. scatterplots of the dependent variables versus the independent variable. looking at the largest values of the studentized residuals, leverage, Cook s D, DFFITS and DFBETAs. Tests for Normality of Residuals Tests for Heteroscedasity. kernel density plot. quantile-quantile plots. standardized normal probability plots. Shapiro-Wilk W test. scatterplot of residuals versus predicted fitted values. Tests for Multicollinearity. looking at VIF. looking at tolerance. Tests for Non-Linearity. scatterplot of independent variable versus dependent variable. Tests for Model Specification. time series. Durbin-Watson test.2 9 For more information.


No comments:

Post a Comment