Zeitreihenanalyse mit Stata: ARMA-Modellauswahl für US-CPI-Daten

Einführung in die Zeitreihenanalyse mit Stata: Ihr Leitfaden für das Problem Set 6

Willkommen zu Ihrem Tutorial für das Problem Set 6 in AEM 4110/5111 – Introduction to Econometrics. In diesem Problem Set analysieren Sie die monatlichen US-CPI-Wachstumsraten von Januar 1980 bis März 2024. Sie arbeiten mit einem bereinigten (deseasonalisierten) Datensatz, um die zugrunde liegende autoregressive und Moving-Average-Struktur zu identifizieren. Dieser Leitfaden führt Sie durch die Schritte der Modellauswahl – von der Stationaritätsprüfung bis zur Residuenanalyse – und gibt Ihnen praktische Tipps für Ihre Stata-Do-Datei. Die Inhalte sind auf Deutsch und basieren auf dem aktuellen Datum (12. Juni 2026), sodass Sie die Konzepte in einem zeitgemäßen Kontext verstehen können.

1. Datenexploration und Zeitreihenplot

Laden Sie zunächst den Datensatz cpi data.dta in Stata und deklarieren Sie ihn als Zeitreihe mit tsset date. Erstellen Sie dann einen Zeitreihenplot der bereinigten CPI-Wachstumsrate (cpi deseason) mit tsline cpi deseason. Dieser Plot zeigt die Schwankungen der Inflationsrate über mehr als vier Jahrzehnte. Beschreiben Sie in Ihrer Antwort, ob die Serie um einen konstanten Mittelwert schwankt und ob Sie Trends oder Strukturbrüche erkennen. Denken Sie daran, dass die CPI-Inflationsrate ein zentraler Indikator für die Geldpolitik ist – vergleichbar mit der Bedeutung von Kursbewegungen in Kryptowährungen wie Bitcoin für Trader.

2. Stationaritätsprüfung mit dem ADF-Test

Bevor Sie ARMA-Modelle schätzen, müssen Sie sicherstellen, dass die Zeitreihe stationär ist. Führen Sie einen Augmented Dickey-Fuller (ADF) Test mit dfuller cpi deseason durch. Der Test prüft die Nullhypothese, dass die Serie einen Einheitswurzeln (nicht stationär) aufweist. Notieren Sie die Teststatistik und die kritischen Werte für 1 %, 5 % und 10 %. Bei einem Signifikanzniveau von 5 % können Sie die Nullhypothese ablehnen, wenn der absolute Wert der Teststatistik größer ist als der kritische Wert. Eine stationäre Serie ist wichtig, weil sonst die Schätzung von ARMA-Modellen zu verzerrten Ergebnissen führen kann – ähnlich wie bei der Analyse von Aktienrenditen, die oft als stationär angenommen werden.

3. ACF und PACF zur Modellidentifikation

Die Autokorrelationsfunktion (ACF) und die partielle Autokorrelationsfunktion (PACF) helfen Ihnen, die Ordnung der AR- und MA-Terme zu bestimmen. Erstellen Sie die ACF für die ersten 24 Lags mit ac cpi deseason, lags(24) und die PACF mit pac cpi deseason, lags(24). In der ACF zeigt ein allmählicher Abfall der Autokorrelationen auf einen AR-Prozess hin, während ein scharfer Abbruch auf einen MA-Prozess hindeutet. In der PACF hilft die Anzahl der signifikanten Lags bei der Bestimmung der AR-Ordnung. Achten Sie darauf, welche Lags außerhalb der Konfidenzbänder liegen – diese sind statistisch signifikant. Diese Muster sind vergleichbar mit der Analyse von Nutzerinteraktionen in einer viralen App: Die Reaktionen auf einen Beitrag zeigen oft ein autoregressives Muster.

4. Schätzung von ARMA-Modellen und Modellauswahl mit AIC/BIC

Schätzen Sie sechs verschiedene ARMA-Spezifikationen mit dem Befehl arima: AR(1), AR(2), MA(1), MA(2), ARMA(1,1) und ARMA(2,2). Verwenden Sie für jedes Modell estat ic, um AIC und BIC zu erhalten. Erstellen Sie eine Vergleichstabelle mit den geschätzten Koeffizienten, Standardfehlern, p-Werten sowie AIC und BIC für alle sechs Modelle. Das Modell mit dem niedrigsten AIC bzw. BIC wird bevorzugt. In der Praxis stimmen beide Kriterien oft überein, aber falls nicht, folgen Sie dem BIC, da es komplexere Modelle stärker bestraft. Dieser Auswahlprozess erinnert an die Optimierung von Hyperparametern in Machine-Learning-Modellen, bei der Sie das Modell mit der besten Generalisierungsleistung wählen.

5. Residuenanalyse: Weißes Rauschen prüfen

Nach der Auswahl des besten Modells (gemäß BIC) müssen Sie überprüfen, ob die Residuen weißes Rauschen sind – also keine Autokorrelation aufweisen. Verwenden Sie predict resid, residuals und erstellen Sie ein Histogramm mit histogram resid, bins(40). Die Residuen sollten annähernd normalverteilt und um Null zentriert sein. Für AEM 5111-Studierende: Erstellen Sie zusätzlich die ACF und PACF der Residuen für die ersten 20 Lags mit ac resid, lags(20) und pac resid, lags(20). Wenn die Residuen keine signifikanten Autokorrelationen aufweisen, ist das Modell adäquat. Dies ist vergleichbar mit der Überprüfung, ob ein KI-Modell wie ChatGPT nach dem Training keine systematischen Fehler mehr macht – die Residuen sollten zufällig sein.

Optional: Saisonalität in den Rohdaten

Im optionalen Teil II analysieren Sie die rohe CPI-Wachstumsrate (cpi raw), die noch saisonale Muster enthält. Erstellen Sie einen Zeitreihenplot und vergleichen Sie ihn mit dem Plot der bereinigten Serie. Die ACF der rohen Daten zeigt oft signifikante Autokorrelationen bei saisonalen Lags (z. B. Lag 12). Dies verdeutlicht, warum eine Desaisonalisierung notwendig ist – ähnlich wie bei der Analyse von Einzelhandelsumsätzen, die starke Weihnachtseffekte aufweisen. Die Saisonbereinigung ist ein wichtiger Schritt, um die zugrunde liegende Dynamik zu verstehen.

Fazit und nächste Schritte

Mit diesem Leitfaden haben Sie eine strukturierte Anleitung zur Modellauswahl für Zeitreihen in Stata. Denken Sie daran, Ihre Ergebnisse in einer PDF-Datei zu dokumentieren und Ihre Do-Datei mit Kommentaren zu versehen. Die in diesem Tutorial verwendeten Methoden sind nicht nur für Ihre Hausaufgabe relevant, sondern auch für reale Anwendungen in der Finanzanalyse, Konjunkturforschung und sogar in der Analyse von Social-Media-Trends. Viel Erfolg bei Ihrem Problem Set 6!