|
|
© 2000 John Petroff; 2007 Übersetzung Hans H. Knauf; 2007 edited by Tanja Detwiler |
E- Sensitivitäts-, Elastizitäts- und Regressionsanalyse
Die Leistungen eines Unternehmens werden von Wirtschafts- und Marktbedingungen diktiert. Dementsprechend hängen viele Buchführungsdaten mit Ereignissen und Tendenzen der Außenwelt zusammen. Besonders die Umsatzerlöse sind davon betroffen, denn sie sind abhängig von der Anzahl der Kunden und deren Fähigkeit zu kaufen (d. h. Einkaufskraft, in anderen Worten: verfügbares Einkommen). Ausgaben, wie Energiekosten, Rohmaterialpreise, Lohnkosten sind ebenfalls von der wirtschaftlichen Situation abhängig. Bei dieser Analyse wird deshalb die direkte Kontrolle über Ereignisse durch Managemententscheidungen nicht berücksichtigt. Es wird hier untersucht, ob variable Buchhaltungsdaten durch Variablen in der Außenwelt beeinflussbar sind. Die Zusammenhänge zwischen Datenserien aus der Buchführung und einer oder mehreren Variablen der Außenwelt können sehr informativ sein. Der ursprüngliche Zusammenhang (Kausalität) wird nicht geprüft und wäre auch sehr schwierig zu finden. Es ist bereits sehr nützlich zu erfahren, dass sich eine Buchführungszahl gleichzeitig mit einem Wirtschaftstrend verändert. Es ist natürlich möglich, dass solche Zusammenhänge aufgrund von Entscheidungen seitens der Geschäftsleitung und deren Reaktion in Hinblick auf die Ereignisse in der Welt entstanden sind. Das Wissen über Zusammenhänge mit Daten der Außenwelt kann später mit Informationen über die Strategien der Geschäftsleitung oder internen Ereignissen, die durch Ratios entdeckt wurden, verbunden werden. Wie die weiter unten aufgeführten mathematischen Abläufe benutzt werden, wird in Kapitel 9 Abschnitt E-2 und in Kapitel 14 Abschnitt E gezeigt.
Die Feststellung, ob zwei Datenreihen zusammen auf- oder absteigen (oder in entgegengesetzte Richtung verlaufen) kann informell mittels einer Grafik, einem Streubild oder einem Histogramm gemacht werden. Aber das ist nicht sehr genau. Eine Sensitivitätsanalyse wird am besten mit statistischen Methoden durchgeführt, die Teil der Ökonometrie, oder allgemeiner, der statistischen Inferenz sind. Eine Regressionsanalyse ist eine Prozedur, die das Vorhandensein von Zusammenhängen zwischen Variablen prüft. Es ist natürlich wünschenswert, so viele empirische Beobachtungen wie nur möglich durchzuführen: Für eine Gleichung mit einer exogenen (oder unabhängigen) Variablen kann eine Regression mit nur ein paar Beobachtungen, z.B. weniger als sechs, unbefriedigende Ergebnisse ergeben, und mit weniger als vier werden die Ergebnisse bedeutungslos. Die Ergebnisse müssen zeigen, ob die geschätzten Gleichungen in der Lage sind, geschätzte Werte der endogenen Variablen (d. h. der Variablen, die wir erklären wollen) zu erzeugen, die der tatsächlichen Beobachtung sehr nahe kommen. Mit anderen Worden, die Qualität der Korrelation hängt davon ab, ob die Fehler zwischen den geschätzten und den tatsächlichen Werten klein oder groß sind.
Die Anzahl der Variablen in einer Gleichung ist unbegrenzt, jedoch muss die Zahl der Variablen kleiner sein als die Zahl der Beobachtungen (minus eins). Zwei oder mehrere exogene Variablen können zu statistischen Einschätzungsproblemen führen. Autokorrelation ist das Hauptproblem bei diesem Vorgang; weiter unten wird kurz erklärt, wie man dies erkennt und wie man damit umgeht.
Eine vollständige mathematische Ausführung über geschätzte Abweichungen einer Regression gehen über den Zweck dieses Textes hinaus. Eine kurze Zusammenfassung der den Schätzungen unterliegenden Abweichungen findet sich in Anhang 5A und die Hauptformeln werden weiter unten gezeigt. In der Praxis gibt es viele Softwareprogramme, bei denen man nur die Daten eingeben und die Ergebnisse interpretieren muss. Links zu einer großen Auswahl solcher Regressionssoftware und ausgezeichneten ökonometrischen Textbüchern sowie zahlreichen Artikeln kann man bei dem „The Econometrics Journal“ online unter: HREF="http://www.econ.vu.nl/econometriclinks/">http://www.econ.vu.nl/econometric links/ finden.
Die Berechnungen lassen sich auch mit einem Taschenrechner oder einer
Kalkulationstabelle (Spreadsheet) durchführen. Ein Beispiel für eine solche
Spreadsheetregression findet man in Tabelle
T-5.28,
die im Anhang erscheint. Es lässt sich beweisen, dass alle Formeln mathematischen
Gesetzen entsprechen, und man könnte „regs.xls“ durchaus kopieren und in
sein eigenes Spreadsheet einbauen. Die Werte für x, y und n können nach Belieben
eingesetzt werden. Um genaue Ergebnisse zu erhalten, muss man die Formeln für so viele
Spalten wie es Beobachtungen gibt, kopieren und einfügen und den Wert
für n ändern. Jemand mit sehr viel Mut könnte sogar alle Formeln überarbeiten und mehr
als eine exogene Variable einfügen. Im Folgenden beziehen wir uns auf
das im Anhang aufgeführte Beispiel um zu zeigen, wie Regressionsergebnisse zu
interpretieren sind.
Wiederholungsfragen Q-5E bis Q-5E.4.
1)- Methode der kleinsten Quadrate (Ordinary Least Squares, OLS)
Nehmen wir einmal an, wir wollen überprüfen, ob der Umsatz y, die endogene Variable, durch verfügbares Einkommen x, die exogene Variable, erklärt werden kann. Die geprüfte Relation ist:
yt = a + bxt + et
für alle Beobachtungen von y und x von t = 1 bis t = n
Die Regression berechnet die Koeffizienten a und b für die Mindestsumme der geschätzten Störgröße e hoch zwei. In anderen Worten, die Störgrößen (oder Residuen) et sind
et = yt - a* - b*xt
wobei a* und b* die geschätzten Koeffizienten a und b sind, für die die Summe (et2) die Mindestsumme ist. Die Regressionstechnik kann man in der unten stehenden Grafik G-5.1 sehen. Die geschätzte oder angepasste Linie (fitted line) ist derart, dass die vertikale Entfernung (oder Abweichung) der angepassten Linie zu jeder Beobachtung so klein wie möglich ist. Achten Sie auch darauf, dass die Summe der Störgrößen oder Abweichungen gleich Null ist, weil positive Abweichungen die negativen annullieren. Das ist der Grund, warum die Summe der Störgrößen zum Quadrat minimiert werden muss. Eine Nullsumme bei den Abweichungen ist eine der notwendigen Voraussetzungen, um verlässliche Schätzungen von a* und b* zu erhalten.
Die Werte der von b* geschätzten Koeffizienten werden gegeben durch:
b* = Summe(d(yi)d(xi)) / Summe(d(xi)2)
Und der Wert des a* Koeffizienten wird geschätzt durch
a* = E(y) - b*E(x)
Um festzustellen, ob eine nennenswerte Korrelation zwischen y und x besteht, muss man sich die Standardabweichungen der geschätzten Koeffizienten (in Tabelle T-5.28 als „sb“ und „sa“ dargestellt) ansehen und sie mit den geschätzten Werten der Koeffizienten b* und a* vergleichen. Als Faustregel kann man sich merken, dass die Standardabweichung kleiner sein sollte als die Koeffizientenschätzung. Eine rigorosere Beurteilung erhält man mit der t-Statistik, indem man die Koeffizientenschätzungen durch die Standardabweichung teilt.
tb = b* / sb
Tabellen der statistischen Werte von t gibt es in fast allen ökonometrischen Fachbüchern, wo sie nach Bedeutung und Freiheitsgrad unterteilt sind. Freiheitsgrade berechnen sich durch die Beobachtungsanzahl minus der Variablenanzahl. Die Bedeutungsstufe zeigt die Wahrscheinlichkeit an, einen Fehler zu machen, wenn man davon ausgeht, dass der echte Koeffizientenwert nicht gleich Null ist. Je höher die Bedeutungsstufe, desto sicherer können wir sein, eine tatsächliche Korrelation gefunden zu haben, aber desto höher ist dann auch der notwendige Wert der t-Statistik. Außerdem gilt, je geringer der Freiheitsgrad ist, desto höher ist der benötigte Wert der t-Statistik. Damit wird bestätigt, dass für die Überprüfung einer Korrelation eine große Anzahl von Beobachtungen besser ist.
Eine interessante Korrelation wird im Allgemeinen dann angezeigt, wenn ein sinnvoller Korrelationskoeffizient besteht, und das ist der Koeffizient b. Der Koeffizient a, auch als Achsenabschnitt oder konstanter Term bekannt, ist meistens weniger wichtig. Nur in den seltenen Fällen, in denen ein geschätzter Mindestwert von y benötigt wird, wird dieser Koeffizient sorgfältig untersucht. Eine Methode zur gleichzeitigen Beurteilung der Zuverlässigkeit beider Einschätzungen besteht darin, sich die Statistik, bekannt als Bestimmungskoeffizient oder R2, anzusehen, die wie folgt kalkuliert wird:
R2 = 1 - SSR/TD
Der Maximalwert von R2 ist 1 und der Mindestwert ist Null. Allgemein zeigen R2 Werte unter 0,50, dass die Korrelation nicht sehr stark ist. Bei den Sozialwissenschaften wird jedoch ein R2-Wert von bis zu 0.25 akzeptiert als ein Hinweis darauf, dass eine Korrelation tatsächlich besteht.
|
In dem folgenden Beispiel einer Regressionsanalyse werden die Einnahmen von Delta Airlines auf eine Korrelation mit dem US-Bruttosozialprodukt von 1987 bis 1999 geprüft. Die unten stehende Tabelle T-5.1 zeigt die Daten, die darunter befindliche Grafik G-5.1 gibt eine bildhafte Ansicht der Beziehungen, und die Tabelle T-5.2 zeigt die Ergebnisse einer OLS-Regression. Die Ergebnisabweichungen werden außerdem in Anhang 5A Abschnitt 2 weiter beschrieben und erklärt.
![]()
Die Ergebnisse zeigen eine unwiderlegbare Relation zwischen dem Einkommen von Delta Airlines und dem BSP. Das ist auch keine Überraschung, denn die Fluglinien reagieren sehr empfindlich auf das Vertrauen der Verbraucher, welches wiederum sehr eng mit dem wirtschaftlichen Wohlstand verbunden ist. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Die OLS-Regression ergibt bei den meisten Sensitivitätsanalysen mit einer, zwei oder drei exogenen Variablen annehmbare Resultate. Die Berechnung der geschätzten Koeffizienten von mehreren exogenen Variablen wird genauso durchgeführt, wie die für eine einzelne Variable. Aber jedes Mal, wenn eine weitere Variable hinzugefügt wird, können auch mehr Probleme auftreten, die die Ergebnisse verzerren und einem das Gefühl geben, dass eine Korrelation besteht, wo es keine gibt; oder es werden manchmal fehlerhafte, schlechte Ergebnisse geliefert. Die bisher besprochene Regressionsmethode ist als Ordinary-Least-Squares-Methode bekannt, um sie von einigen weiteren, schwierigeren Techniken zu unterscheiden, die notwendig werden, wenn Schätzungsprobleme auftauchen und die als Nächstes kurz vorgestellt werden.
Wiederholungsfragen Q-5E.1 bis Q- 5E1.4.
Forschungsaufgaben R-5.4
2) – Kompliziertere Regressionsmethoden als OLS
Rein technisch bedeutet das Vorhandensein von Schwierigkeiten, dass eine oder mehrere Bedingungen zum Erhalt der besten linearen unverzerrten Schätzer (Best Linear Unbiased Estimators, BLUE) von Koeffizienten verletzt worden ist und die OLS-Methode nicht benutzt werden sollte. Eine der Bedingungen (z. B. dass die Summe der Residuen Null ergibt) wurde bereits genannt, eine andere ist, dass die Residuen voneinander unabhängig sein müssen (d. h. unkorreliert). Eine vollständige Behandlung der Bedingungen zum Erhalt von BLUE-Koeffizientenschätzungen gehen über diese Einführung hier hinaus, kann aber in jedem Fachbuch der Ökonometrie gefunden werden. Ein Analyst muss aber wissen, welche Probleme auftauchen können, um sich nicht auf fehlerhafte Ergebnisse zu verlassen. Weiterhin muss ein Analyst Verbesserungsvorschläge machen, wie solche Probleme, falls vorhanden, verbessert werden können.
Die Probleme bei Regressionen können sein:
- die Größen der Variablen sind nicht
vergleichbar (z. B. Vergleich des Nahrungsverzehrs zum Gewicht von Elefanten und
Ameisen); das wird auch Heteroskedastizität genannt und verlangt separate
Untersuchungen der betroffenen Variablen.
- wenn zwei der Variablen perfekt korreliert sind
(z. B. Verbrauchseffizienz von Autos wird verglichen mit der gefahrenen
Entfernung sowohl in Kilometern als auch in Meilen); es ist offensichtlich, dass eine
der überflüssigen
Variablen eliminiert werden muss. Aber es ist nicht immer so
einfach zu erkennen, dass zwei Variablen so perfekt übereinstimmen; dieses
Problem ist auch als Multikollinearität bekannt.
- wenn eine Variable oder die Störgröße von
ihrem vorherigen Jahreswert abhängig ist; das nennt sich dann Autokorrelation
und ist die schwierigste von allen.
Es gibt auch Probleme bei der Bestimmung der zu schätzenden Gleichung. Wird die Variable, die die endogene Variable am meisten beeinflusst, weggelassen, wird die Funktion schlecht identifizierbare Variablen haben: die Ergebnisse werden unzuverlässig sein. Ein ähnliches Problem ergibt sich aus der Wahl der endogenen Variablen. Nehmen Sie als Beispiel den Fall der Verbrauchernachfrage. Erhöht sich die gekaufte Menge, weil die Verkäufer die Preise senken, oder senken die Verkäufer die Preise, weil die Kunden größere Mengen kaufen? Die meisten werden antworten: wahrscheinlich beides. Wenn nur diese beiden Variablen benutzt werden, so macht das nichts. Schließen wir jetzt aber Kreditbedingungen mit ein, dann ist nur eine der beiden Funktionen geeignet (d. h. die Entscheidung des Kunden über die zu kaufende Menge ist abhängig vom Preis und den Kreditbedingungen), die andere ist falsch (d. h. der Verkaufspreis ist abhängig von der gekauften Menge und in gewisser Hinsicht auch von den Kreditbedingungen, aber diese Zwei zu verbinden ist das Gleiche als würde man Hunde und Katzen mischen).
Weitere Probleme entstehen durch die benutzten empirischen Daten. Ein typisches Datenproblem ist, dass eine Feststellung vollständig ungewöhnlich ist (möglicherweise durch eine Katastrophe verursacht); solche Feststellungen werden als Sonderfall oder Störung betrachtet, die normalerweise entfernt oder ersetzt werden. Es ist ganz normal, dass bei den Datensätzen einige Feststellungen fehlen (was von den Forschern akzeptiert wird, um so viel Freiheit wie möglich zu erhalten, denn, mag man sich erinnern, dies ist notwendig, um zuverlässige Ergebnisse zu erreichen). Können die fehlenden Feststellungen nicht ersetzt werden, mag es notwendig sein, Regressionen für separate Datensätze durchzuführen. Die Daten mögen sogar annehmen lassen, dass es nicht nur eine lineare Tendenzlinie gibt, sondern verschiedene separate oder eine nicht lineare Trendlinie. Regressionen sind auch in diesen Fällen möglich, wie später noch erklärt werden wird.
Autokorrelation ist bei weitem das am meisten vorkommende Problem und
möglicherweise auch das schwierigste, weil die meisten finanziellen und
wirtschaftlichen Variablen darauf basieren, was in der Vergangenheit vorgekommen
ist und deshalb von den vorherigen Jahren abhängig sind. Es ist einfach nicht
möglich, dies zu vermeiden, so wie man andere Probleme vermeiden kann. Das
Ergebnis ist, dass die OLS-Schätzungen verzerrt (d. h. fehlerhaft) sind.
Glücklicherweise gibt es eine Methode zur Entdeckung der Autokorrelation und
verschiedene Techniken, sie zu überwinden.
Autokorrelation kann mit der Durbin-Watson Statistik
entdeckt werden, die im Anhang erklärt wird. Es gibt verschiedene
Regressionstechniken zur Behandlung der Autokorrelation. Dies sind:
- Generalized Least Squares, GLS-Methode, die
verallgemeinerte Regressionsmethode,
bei der die Datenreihen transformiert werden, indem man die Korrelationen 1. Ordnung
zwischen aufeinanderfolgenden Beobachtungen der Variablen
entfernt.
- zweistufige Methode der kleinsten Quadrate, bei
denen die Variable, die die Autokorrelation verursacht, aus der Autokorrelation
entfernt und durch eine Instrumentvariable ersetzt wird.
- dreistufige Methode der kleinsten Quadrate, die die Autokorrelation noch mehr
entfernt
als die zweistufige Methode der kleinsten Quadrate.
- alle Informationen zur maximalen Wahrscheinlichkeitsberechnung (full information
maximum
likelihood estimation)
Die meisten Regressionsprogramme enthalten diese Prozeduren. Ein Analyst sollte wissen,
wann man solche Regressionen benutzen sollte, indem er sich, wie oben erwähnt, die
Durbin-Watson Statistik ansieht.
Wiederholungsfragen Q-5E2.1.
Forschungsaufgaben R-5.5 und R-5.6.
3) – Nicht lineare Modelle
Es gibt viele Fälle, wo eine lineare
Relation rein theoretisch nicht anwesend sein kann, oder, einfacher, sie stellt
das sichtbare Datenmuster in einer Grafik nicht dar. Eine OLS-Regression (oder eine der
oben genannten schwierigeren
Prozeduren, wenn eine Autokorrelation erkannt worden ist) ist auch nach der
Umwandlung der Variablendaten noch möglich. Die untersuchte Relation
kann festgelegt werden, nachdem die exogenen Variablen umgewandelt worden sind, durch
- eine Potentialrechnung,
- eine logarithmische Funktion,
- eine Exponential- oder Bruchrechnung,
- eine Differentialrechnung (z. B. der Wert wird von einem Jahr zum anderen
verändert),
- das Distributed Lag Modell (Modell der verteilten Verzögerung)
- oder durch eine Kombination von den oben genannten Möglichkeiten.
Nachdem man die linearen Schätzungen von den umgewandelten Daten erhalten hat,
werden die Koeffizienten nochmals kalkuliert, damit man die geschätzte Linie auf die
Originaldaten anwenden kann.
Wird erkannt, dass die Koeffizienten nicht linear sind, dann besteht eine der Prozeduren darin, Regressionen von separaten Datenintervallen durchzuführen.
Wiederholungsfragen Q-5E3.1.
Forschungsaufgaben R-5.7.
4)- Gleichungssysteme und andere Erweiterungen
Neben der Sensitivitätsanalyse, welche die Verwandtschaft einer Variablen mit anderen Variablen untersucht, üblicherweise eine Variable auf einmal, gibt es viele Fälle, wo es notwendig ist, ein System von mehreren Gleichungen zu betrachten, weil endogene Variablen als Variablen auf der rechten Seite eingesetzt werden müssen. Oder, anders ausgedrückt, einige der Variablen auf der rechten Seite werden durch das System festgelegt. Vollständige ökonometrische Modelle können entweder mittels der allgemeinen Methode der kleinsten Quadrate, wenn die Autokorrelation nicht zu schwerwiegend ist, oder mittels der zweistufigen und dreistufigen Methode der kleinsten Quadrate geschätzt werden.
Multiple Regressionen werden auch bei einer einzigen Funktion benutzt, indem jedes Mal eine Variable hinzugenommen wird, um herauszufinden, welche der Variablen die beste Erklärungskraft besitzt. Das ist im Fachbereich als stufenweise multiple Regression bekannt.
Manchmal wird eine weniger rigorose statistische Prozedur benutzt, wenn die Daten zu weit verteilt sind, um bedeutungsvolle Ergebnisse zu erbringen, d. h. es gibt einen gewissen Grad von Heteroskedastizität (was bereits oben besprochen wurde). Die Methode besteht darin, die OLS-Regression nicht auf die Originaldatenreihen anzuwenden, sondern auf eine Reihe, bei der jede Feststellung einem Rang zugeteilt wird, sagen wir 1 bis N (für N Feststellungen). Diese Methode nennt sich Rangordnungskorrelation und wird gelegentlich auch bei den Sozialwissenschaften benutzt.
Wiederholungsfragen Q-5E4.1 bis Q- 5E4.3
Forschungsaufgaben R-5.8.
| Vorheriger Abschnitt: Ratio - Erklärung |
|
Nächster Abschnitt: Zeitserien |