Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es, Beziehungen (Zusammenhänge) zwischen einer abhängigen und einer oder mehrerer unabhängigen Variablen festzustellen. Es sollen also bezüglich der theoretischen Fundierung
Es geht darum sogenannte einseitige statistische Abhängigkeiten durch so genannte Regressionsfunktionen zu beschreiben.
Dazu verwendet man
Man spricht dann von einfacher Regressionsanalyse und multipler Regressionsanalyse.
Mit Hilfe der Regressionsanalyse wird die Struktur der Abhängigkeit zwischen y und den unabhängigen Variablen x untersucht.
Ein spezieller Fall der Regressionsanalyse ist die lineare Regression, bei der angenommen wird, dass ein interessierendes Merkmal y gut durch eine lineare Kombination anderer Merkmale x erklärt werden kann (y = a+b*x). Die Gewichtung der Einflüsse der erklärenden Merkmale wird dabei aus Daten geschätzt.
Anzahl Variablen:
Ein lineares Regressionsmodell hat den Vorteil, dass es exakt berechnet werden kann, nichtlineare Systeme müssen dagegen meist näherungsweise gelöst werden. Häufig können diese Regressionsmodelle dann nicht mehr wahrscheinlichkeitstheoretisch analysiert werden.
Der wahrscheinlichkeitstheoretisch basierten Regressionsanalyse liegen aber immer die numerischen Verfahren der deskriptiven Regression zu Grunde. Es soll in diesem Artikel vor allem auf die wahrscheinlichkeitstheoretisch basierte lineare Regression, das so genannte Klassische lineare Regressionsmodell, eingegangen werden.
Punkte.png Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wurde in n = 6 Geschäften ein Testverkauf durchgeführt. Man erhielt sechs Wertepaare mit dem Ladenpreis x (in Euro) einer Flasche und die verkaufte Menge y an Flaschen:
| Laden | i | 1 | 2 | 3 | 4 | 5 | 6 | Preis einer Flasche | xi | 20 | 16 | 15 | 16 | 13 | 10 | verkaufte Menge | yi | 0 | 3 | 7 | 4 | 6 | 10 |
Man betrachtet zwei Variablen, die vermutlich ungefähr in einem linearen Zusammenhang
stehen. Dabei sind x als unabhängige und y als abhängige Variable definiert. Es existieren von x und y je n Beobachtungen xi und yi (i = 1, ... , n). Der funktionale Zusammenhang y = f(x) zwischen x und y kann nicht exakt festgestellt werden, da α + βx von einer Störgröße ε überlagert wird. Diese Störgröße ist als Zufallsvariable (der Grundgesamtheit) konzipiert, die nichterfassbare Einflüsse (menschliches Verhalten, Messungenauigkeiten usw.) darstellt. Es ergibt sich also das Modell
LSM-Gerade.png Da α und β nicht bekannt sind, kann auch y nicht in die Komponenten α + βx und ε zerlegt werden.
Es soll eine mathematische Schätzung für die Parameter α und β durch zwei Konstanten a und b gefunden werden, und zwar so, dass sich ergibt
mit dem Residuum der Stichprobe.
Es gibt verschiedene Möglichkeiten, die Gerade zu schätzen. Man könnte eine Gerade so durch den Punkteschwarm legen, dass die Quadratsumme der Residuen, also der senkrechten Abweichungen ei der Punkte von dieser Ausgleichsgeraden minimiert wird.
Diese herkömmliche Methode ist die Minimum-Quadrat-Methode oder Methode der kleinsten Quadrate. Man minimiert die summierten Quadrate der Residuen,
bezüglich a und b. Durch partielles Differenzieren und Nullsetzen der Ableitungen erster Ordnung erhält man ein System von Normalgleichungen.
Die gesuchten Regressionskoeffizienten sind die Lösungen
und
mit als arithmetischem Mittel der x-Werte, entsprechend, und sxy als empirischer Kovarianz zwischen den xi und yi und sx2 als empirischer Varianz der xi. Man nennt diese Schätzungen auch Kleinste-Quadrate-Schätzer (KQ) oder Ordinary Least Squares-Schätzer (OLS).
| Preis einer Flasche | verkaufte Menge | xi- | yi- | xi | yi | x* | y* | x*y* | x*x* | y*y* | 20 | 0 | 5 | -5 | -25 | 25 | 25 | 0,09 | 16 | 3 | 1 | -2 | -2 | 1 | 4 | 4,02 | 15 | 7 | 0 | 2 | 0 | 0 | 4 | 5,00 | 16 | 4 | 1 | -1 | -1 | 1 | 1 | 4,02 | 13 | 6 | -2 | 1 | -2 | 4 | 1 | 6,96 | 10 | 10 | -5 | 5 | -25 | 25 | 25 | 9,91 | 90 | 30 | 0 | 0 | -55 | 56 | 60 | 30,00 |
Die geschätzte Regressionsgerade lautet , so dass man vermuten kann, dass bei jedem Euro mehr der Absatz im Durchschnitt um ca. 1 Flasche sinkt.
Es existiert eine Variable y, die linear von mehreren fest vorgegebenen Variablen x abhängt in der Form
wobei ε wieder die Störgröße repräsentiert. ε ist eine Zufallsvariable und daher ist y als lineare Transformation von ε ebenfalls eine Zufallsvariable. Es liegen für die xj (j = 1, ... ,p) und y je n viele Beobachtungen vor, so dass sich für die Beobachtungen i (i = 1, ..., n) das Gleichungssystem
ergibt. Als stichprobentheoretischer Ansatz wird jedes Stichprobenelement εi als eine eigene Zufallsvariable i interpretiert und ebenso so jedes yi.
Da es sich hier um ein lineares Gleichungssystem handelt, können die Elemente des Systems in Matrix-Schreibweise zusammengefasst werden. Man erhält die (n×1)-Spaltenvektoren der abhängigen Variablen y und der Störgröße ε als Zufallsvektoren und den ((p+1)×1)-Spaltenvektor der Regressionskoeffizienten βj
die (n×(p+1))-Datenmatrix .
Die Einsen in der ersten Spalte dienen als Platzhalter für das Absolutglied β0. Man nennt eine derartige „Variable“ Dummyvariable.
Der Zufallsvektor ε ist verteilt mit dem Erwartungswertvektor Eε und der Kovarianzmatrix Σε. y ist dann verteilt mit dem Erwartungswertvektor α + βx + Eε und der Kovarianzmatrix Σε.
Das Gleichungssystem lässt sich nun erheblich einfacher so darstellen:
Dieser Schätzer ist BLUE (Best Linear Unbiased Estimator), also der beste (erwartungstreu mit kleinster Varianz) lineare unverzerrte Schätzer. Für die Eigenschaften der Schätzfunktion b muss also keine Verteilungsinformation der Störgröße vorliegen.
Man erhält mit Hilfe des Minimum-Quadrat-Schätzers b das geschätzte Gleichungssystem
wobei e der Vektor der Residuen ist.
Das Interesse der Analyse liegt vor allem in der Schätzung oder auch Prognose der abhängigen Variablen y für ein gegebenes Tupel von x0. Die berechnet sich als
wobei man kürzer
setzen kann. Die (n×n)-Matrix M ist übrigens idempotent und maximal vom Rang p+1. Sie wird auch Hat-Matrix genannt, weil sie y den „Hut“ aufsetzt.
Die Residuen werden ermittelt als
wobei I-M mit M vergleichbare Eigenschaften hat.
Die Prognose wird ermittelt als
Da X fest vorgegeben ist, kann man alle diese Variablen als lineare Transformation von y und damit von ε darstellen, und deshalb können auch ihr Erwartungswertvektor und ihre Kovarianzmatrix unproblematisch ermittelt werden.
Die Varianz der Störgröße wird mit Hilfe der Residuen geschätzt, und zwar als mittlere Quadratsumme der Residuen
Die Quadratsumme RSS (von engl. „residual sum of squares“) der Residuen ergibt in Matrix-Notation
.
Zusammen mit Annahme 1 erhält man für die Verteilung des Vektors der Störgröße:
Hier sind unkorrelierte Zufallsvariablen auch stochastisch unabhängig.
Da die interessierenden Schätzer zum größten Teil lineare Transformationen von ε sind, sind sie ebenfalls normalverteilt mit den entsprechenden Parametern.
Die Quadratsumme der Residuen ist als nichtlineare Transformation χ2-verteilt mit n-(p+1) Freiheitsgraden.
Es folgen Verfahren für ausgewählte Schätzer.
testen. f ist F-verteilt mit p+1 und n-(p+1) Freiheitsgraden. Überschreitet die Prüfgröße bei einem Signifikanzniveau α den kritischen Wert F(1-α; p+1; n-(p+1)), das (1-α)-Quantil der F-Verteilung mit p+1 und n-(p+1) Freiheitsgraden, wird H0 abgelehnt. r2 ist dann ausreichend groß, X trägt also vermutlich genügend viel Information zur Erklärung von y bei. Die Residualanalyse (Auftragung der Residuen RSS über den unabhängigen Variablen) gibt Aufschluss über
Wenn man die Varianz der Störgröße schätzt, erhält man für die geschätzte Kovarianzmatrix
Die geschätzte Varianz sj2 eines Regressionskoeffizienten bj steht als j-tes Diagonalelement in der geschätzten Kovarianzmatrix. Es ergibt sich also als Prüfgröße
die t-verteilt ist mit n-(p+1) Freiheitsgraden. Ist |t| größer als der kritische Wert t(1-α/2; n-(p+1)), dem (1-α/2)-Quantil der t-Verteilung mit n-(p+1) Freiheitsgraden, wird die Hypothese abgelehnt, die Steigung bj ist also ausreichend hoch, der Beitrag des Regressors xj zur Erklärung von y ist signifikant groß.
Man erhält dann als (1-α)-Konfidenzintervall für den durchschnittlichen Prognosewert mit geschätzter Varianz
.
Speziell für den Fall der linearen Einfachregression ergibt das
Speziell aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das Konfidenzintervall breiter wird, wenn die exogene Prognosevariable x0 sich vom "Zentrum" der Daten entfernt. Schätzungen der endogenen Variablen sollten also im Beobachtungsraum der Daten liegen, sonst werden sie sehr unzuverlässig. So kann die Schätzung der Arbeitslosenzahl im nächsten Jahr durchaus eingegrenzt werden, aber eine Schätzung in 20 Jahren wäre sinnlos.
| Variable | Beschreibung der Variablen |
|---|---|
| BWSb95 | Bruttowertschöpfung in Preisen von 95 (bereinigt) |
| BBLandFF | Bruttowertschöpfung von Land- und Forstwirtschaft, Fischerei |
| BBProdG | Bruttowertschöpfung des produzierenden Gewerbes ohne Baugewerbe |
| BBBau | Bruttowertschöpfung im Baugewerbe |
| BBHandGV | Bruttowertschöpfung von Handel, Gastgewerbe und Verkehr |
| BBFinVerm | Bruttowertschöpfung durch Finanzierung, Vermietung und Unternehmensdienstleister |
| BBDienstÖP | Bruttowertschöpfung von öffentlichen und privaten Dienstleistern |
Der Test auf Güte des gesamten Regressionsmodells ergibt eine Prüfgröße von f = 162,911. Die Anpassung ist also bei einem Signifikanzniveau von 0,05 signifikant gut.
Die Analyse der einzelnen Beiträge der Variablen (Tabelle Coefficients) des Regressionsmodells ergibt bei einem Signifikanzniveau von 0,05 und einem kritischen Wert der Prüfgröße von 2,2, dass die Variablen BBLandFF und BBFinVerm offensichtlich die Variable BWSB95 nur unzureichend erklären können. Die Variablen BBHandGV und BBDienstÖP sind gerade noch signifikant. Besonders stark korreliert ist y mit den Variablen BBProdG und BBBau. Man könnte also die insignifikanten Variablen aus dem Modell entfernen. Es wäre auch denkbar, die beiden Variablen BBHandGV und BBDienstÖP auf ihren Erklärungswert hin zu überprüfen.
Es wurde beispielsweise für den letzten Datensatz (2. Quartal 2004) eine Prognose gerechnet. Für die x-Werte 5,95, 126,25, 21,2, 92,18, 155,47 und 105,56 ergab sich eine geschätzte Bruttowertschöpfung von y = 461,69 bei einem tatsächlich gemessenen von 461,15. Es ergab sich ein 95%-Konfidenzintervall von 463,80044 mit einer Breite von 4,22.
Für quantitative Wirtschaftsanalysen im Rahmen der Regressionsanalyse, beispielsweise der Ökonometrie, sind besonders geeignet:
Statistik | Multivariates Verfahren | Ökonometrie
Linear regression | Régression linéaire | Regressione lineare | 回帰分析 | Lineaire regressie | Regresja liniowa
This article is licensed under the GNU Free Documentation License.
It uses material from the
"Regressionsanalyse".
Home Page • arts • business • computers • games • health • hospitals • home • kids & teens • news • physicians • recreation• reference • regional • science • shopping • society • sports • world