Korrelation ist keine Kausalität

– oder wenn Störche die Babys bringen

 

06.05.2022 | Dr. Ottmar Franzen

 

Entscheiderinnen und -entscheider setzen zunehmend auf datengetriebenes Management. Unternehmensführung soll auf der Grundlage von Daten erfolgen und nicht durch Bauchgefühl. Unterstützt wird diese Entwicklung durch eine zunehmende Verfügbarkeit von Daten. Noch nie war es so leicht, sich notwendige Informationen zu beschaffen.
Allzu groß ist dabei die Versuchung, so lange Fakten und Belege zu suchen, bis die vom Management favorisierte Entscheidungsoption vermeintlich wissenschaftlich belegt wird. Gegenbeweise werden gern übersehen und ausgeblendet. Die Statistik verführt darüber hinaus, verschiedene Datenreihen als kausalen Zusammenhang zu interpretieren, insbesondere wenn dieser vermeintlich auf den ersten Blick ersichtlich ist. Gern spricht man davon, dass eine „Korrelation“ besteht oder Dinge miteinander „korrelieren“ und untermauert dies mit der gleichnamigen statistischen Kennzahl.

 

Was ist eigentlich Korrelation?

Den Zusammenhang zwischen zwei Datenreihen kann man nicht nur beobachten, z.B. indem man sieht, dass zwei Kurven parallel laufen, sondern man kann ihn auch statistisch berechnen. Diese Messgröße ist normiert, d.h. sie hat einen genau definierten Wertebereich von -1 bis +1. Ist der Wert genau 0, spricht man davon, dass zwischen den beiden Datenreihen kein Zusammenhang besteht. Liegt er bei +1, spricht man von einem positiven Zusammenhang, also z.B. je höher die Verkaufsmenge ist, desto höher ist der Umsatz, liegt er bei -1, ist der Zusammenhang negativ, z.B. je höher der Preis ist, desto geringer wird die Nachfrage.
Ist der Trend in einer Reihe einmal durchbrochen, z.B. beim Umsatz im zweiten Beispiel (Wert 1.800 für Periode 4), weist die Maßzahl immer noch einen positiven, aber keinen perfekten Korrelationswert mehr aus. Die Berechnung dieser Maßzahl ist fast so einfach wie die eines Mittelwertes, und sie kann ebenso einfach in Excel erfolgen:


Abb.1:Darstellung möglicher Zusammenhänge

 

Diese Maßzahl beantwortet aber nicht die Frage, ob der Zusammenhang inhaltlich sinnvoll ist. Das also z.B. die Höhe des Umsatzes von der Absatzmenge abhängt, setzt implizit voraus, dass die Werte in beiden Datenreihen für das gleiche Produkt gelten. Ist dies nicht der Fall, also gelten z.B. die Absatzmengen für Autos und die Umsätze für verkaufte Bahntickets, zieht man aus der Maßzahl den falschen Schluss, ist man einem sogenannten „Trugschluss“ aufgesessen oder das Opfer einer Scheinkorrelation.

 

Kausalität: Hintergrund-Variablen finden und ein echtes Erklärungsmodell formulieren

Allzu groß ist die Versuchung, Datensätze einfach auf Korrelationen hin zu überprüfen. Weil das Berechnen der Korrelationskoeffizienten mit Hilfe des Computers sehr einfach geht, lässt man einfach mal alle möglichen Variablen miteinander korrelieren: Verkaufszahlen mit Wetterdaten, mit Verbrauchermerkmalen, mit Daten zur gesamtwirtschaftlichen Situation und so weiter.


Die Gefahr bei diesem Vorgehen besteht darin, dass man auf Scheinkorrelationen reinfällt. Man meint, mit einem positiven Korrelationskoeffizienten eine Kausalität belegen zu können, die bei genauerer Betrachtung sachlich-inhaltlich gar nicht besteht. Besonders gefährlich ist in diesem Kontext die Betrachtung von Zeitreihendaten. Hintergrund ist, dass die meisten Entwicklungen im Zeitablauf positiv sind, da sich die wirtschaftliche Entwicklung und die Entwicklung der Bevölkerungszahlen auf einem Wachstumspfad bewegen. Wir könnten also die jährliche Absatzmenge von Gummibärchen mit der Produktion von Stahl korrelieren und sehr wahrscheinlich kommt ein positiver Korrelationswert dabei heraus. Aber heißt dies auch, dass der Absatz von Gummibärchen von der Stahlproduktion abhängt?


Aber nicht nur die Gefahr des Irrtums besteht, sondern auch die des Missbrauchs. Die Versuchung ist groß, eine vermeintlich kausale Behauptung in den Raum zu stellen und diese mit irreführenden Korrelationen zu belegen. Wenn diese Behauptung auch noch auf ein breites Bauchgefühl stößt, also Common Sense ist, werden diese vermeintlich wissenschaftlichen Begründungen allzu gern als legitime Argumentation verwendet.

 

Wie kann man echte Kausalität nachweisen?

Der kritische Beobachter ist einer verschwurbelten zahlengestützten Argumentation keineswegs hilflos ausgeliefert. Das wichtigste Indiz ist zunächst einmal der gesunde Menschenverstand. Schon Schopenhauer sagte „Während einer nur Zahlen und Zeichen im Kopf hat, kann er nicht dem Kausalzusammenhang auf die Spur kommen.“ Ist also der postulierte Zusammenhang wirklich inhaltlich plausibel? Kann die Geburtenzahl der Kinder tatsächlich von der Population der Störche abhängen? Man sollte nicht nur Zahlenargumenten Glauben schenken, sondern auch eine inhaltliche Begründung des Zusammenhangs einfordern.

Darüber hinaus gibt es auch einfache statistische Prüfungen, die man heranziehen sollte:

  • Aus welcher Quelle stammen die Daten? Werden einfach Äpfel mit Birnen verglichen?
  • Stellen die Daten eine Zeitreihe dar? Dann ist besondere Vorsicht geboten
  • Sind die Datenreihen modifiziert, also miteinander „passend“ gemacht worden? Hier gibt es viele spannende Möglichkeiten in der Statistik, z.B. indem man die Achsenbreite anpasst, Daten transformiert, oder die Bezugsbasen bei Prozentwerten austauscht

Last but not least bieten auch Statistische Verfahren die Möglichkeit, echte Kausalitäten zu prüfen.

Hier gibt es zum einen die Möglichkeit des Experiments. Wenn ich postuliere, dass der Absatzerfolg eines Produkts vom Wetter abhängt, kann ich dies unter kontrollierten Bedingungen genau nachweisen. Alle Parameter, z.B. Anordnung des Produktes am POS, Preis und Art der Verkaufsunterstützung bleiben gleich. Es gibt allerdings zwei Messpunkte bei konstantem Wochentag (z.B. ein Samstag): Der erste an einem Regentag und der zweite an einem Sonnentag. Ergeben sich unterschiedliche Absatzmengen, ist von einer echten Kausalität auszugehen.


Ferner gibt es statistische Kennzahlen. Dazu wird statt der einfachen Korrelationsrechnung ein multivariates Modell gerechnet. Fast alle dieser Verfahren basieren auf Korrelationen, erweitern jedoch den statistischen Horizont:

  • Sie erfordern, dass man ein theoriegeleitetes Modell formuliert, also z.B. „hängt die Absatzmenge von der Außentemperatur ab oder hängt die Außentemperatur von der Absatzmenge ab?“
  • Sie können über statistische Kennwerte berechnen, wie viel Prozent des gesamten Einflusses von der betrachteten Variablen erklärt wird. Ein solcher Kennwert ist das sogenannte „Bestimmheitsmaß“. Dieses zeigt, wieviel Prozent der gesamten Streuung in den Daten von der betrachteten Variablen erklärt werden
     

Statt der reinen Korrelationsrechnung zur Überprüfung von zwei Datenreihen kann man z.B. eine Regressionsanalyse durchführen. Sie erweitert die Gütekriterien um das sogenannte R2, also das Bestimmtheitsmaß als Nachweis, inwieweit das beobachtete Phänomen von der Variablen erklärt wird. Werte unter 0,5 sollten zur Vorsicht mahnen.


Hierzu noch einmal das folgende fiktive Beispiel, das den Einfluss der Außentemperatur auf den Absatz von Eiscreme nachweisen soll: An fünf Samstagen wurde die Absatzmenge von Kleineispackungen gemessen. Die Hypothese ist, dass diese von der Außentemperatur um 15 Uhr abhängig ist:


Abb.2: Beispiel – Einfluss der Außentemperatur auf den Absatz von Eiscreme

 

Der Wert für die Korrelation beträgt hier wieder 0,9, man könnte also sagen, dass damit der Nachweis erbracht ist. Bei der Anwendung einer Regressionsanalyse wird jedoch ein Bestimmtheitsmaß R2 von 0,8 ausgewiesen. 20% des Absatzes werden also nicht von der Temperatur erklärt, sondern von anderen Parametern. Dies könnten z.B. externe Faktoren am Tag 5 sein, an dem die Absatzmenge bei einer höheren Außentemperatur von 25 Grad geringer war, als am Tag 2 mit nur 21 Grad Außentemperatur. Denkbar ist etwa, dass es aufgrund einer Baustelle auf einer Zufahrtsstraße zum Geschäft generell weniger Passanten als sonst gab.

 

Zusammenfassung

Datengestützte Argumentationen sollten bei vordergründig hoher empirischer Genauigkeit kritisch hinterfragt werden. Allzu groß ist die Versuchung, das Wunschergebnis mit den Zahlen zu begründen, die gerade passen, und andere Parameter auszublenden. Die aktuell gestiegene Verfügbarkeit von Zahlen und Fakten sowie ihre leichte Beschaffbarkeit verführen dazu.
Daher sollte man datengestützte Behauptungen und Empfehlungen immer mit gesundem Menschenverstand hinterfragen und bei Zweifeln weitere Informationen zur Begründung einfordern, insbesondere zur Herkunft der Daten, ihrer Verrechnung und den Nachweis der statistischen Modellgüte.

 

 

Ihr Ansprechpartner Dr. Ottmar Franzen

Tel.: +49 (0) 6192 40 269 0
Email: ottmar.franzen@anxo-consulting.com

Erfahren Sie mehr über Ottmar Franzen