Eingeweidelesen auf hohem Niveau

Im Zeitalter von Big Data ist es leicht, statistisch signifikante Korrelationen zwischen Daten zu finden. Das Data-Mining birgt aber die Gefahr, die Kernaufgabe der Wissenschaft aus den Augen zu verlieren.

Eduard Kaeser
Drucken
Das im Louvre hängende Relief zeigt einen Eingeweideleser bei der Arbeit. (Bild: Eon Images)

Das im Louvre hängende Relief zeigt einen Eingeweideleser bei der Arbeit. (Bild: Eon Images)

Im alten Rom gab es den Haruspex, den Eingeweideleser. Er weissagte aus den Innereien von Opfertieren künftiges Geschehen. Vor allem in der Leber sah er die Welt im Kleinen, den Mikrokosmos als Spiegel des Makrokosmos. Man könnte, in einer etwas gewagten Analogie, den Haruspex als antiken Datenanalysten sehen, der aus der «evidence» von Form, Farbe, Konsistenz, Anomalie, Textur der Leber zum Beispiel auf schlechtes Wetter schliesst; modern ausgedrückt: eine Korrelation zwischen Leberdaten und meteorologischem Ereignis herstellt.

Unsinnige Forschungsresultate

Das ähnelt, so meldet sich der Zyniker, doch erstaunlich dem, was Forscher im Zeitalter von Big Data tun, in Medizin, Psychologie, Soziologie, Ökonomie. Der Epidemiologe John Ioannidis ist kein Zyniker, hat aber 2005 eine Arbeit veröffentlicht mit dem Titel «Warum die meisten Forschungsresultate falsch sind». Er bezog sich auf das biomedizinische Feld, das Problem, das er anspricht, ist allerdings von allgemeiner Bedeutung. Im «Economist» wurde im Januar dieses Jahres eine Metastudie über ökonomische Artikel in drei Top-Journalen vorgestellt, die zum Resultat kam, dass bei 20 bis 30 Prozent der Artikel mit signifikanten Resultaten geschummelt worden sei. Und im Online-Forum «Edge» ärgerte sich etwa zur selben Zeit der Kognitionspsychologe Richard Nisbett über die sogenannte multiple Regression in der Statistik, eine Methode, die oft Resultate zwischen Unsinn und Schaden liefere. Also eigentlich wissenschaftliches Eingeweidelesen sei.

In der Mathematik gibt es die Beweismethode der Reductio ad absurdum: Um eine Aussage zu beweisen, geht man von ihrer Negation aus und zeigt, dass diese Gegenbehauptung falsch ist. Die Null-Hypothese in der Statistik hat eine analoge Funktion, man könnte sie die Reductio ad improbabile nennen. Um bei unserem Beispiel zu bleiben: Wenn wir beweisen wollen, dass ein signifikanter Zusammenhang zwischen Eingeweidelesen und Wetterprognose besteht, falsifizieren wir die Gegenbehauptung des zufälligen Zusammentreffens; wir zeigen, dass sie sehr unwahrscheinlich ist.

Evidenzbasierte Forschung

In der Mathematik ist das eine hieb- und stichfeste Methode, nicht aber in den statistisch verfahrenden Wissenschaften. Tatsächlich kann uns auch ein signifikantes Resultat in die Irre führen. In der Pharmaforschung, wo man Erfahrung mit falsch positiven Resultaten hat, kursiert der inoffizielle «Erste Hauptsatz der Pharmakologie»: Jedes Arzneimittel hat zwei Wirkungen – jene, die man kennt, und die andere. Die Verlockung erscheint heute gross, mit statistischen Erntemaschinen über die immensen Datenfelder zu rasen, in der Erwartung eines signifikanten Befundes. Das Forschungsklima begünstigt einen Forschungsstil, der sich mit dem Etikett «evidenzbasiert» schmückt. Dabei lautet offenbar die Leitfrage für die wissenschaftlichen Eingeweideleser nicht mehr: Ist das, was ich herausgefunden habe, wahr, sondern: Kann ich meine Resultate durch den Signifikanztest bugsieren?

Es gibt eine regelrechte Korrelationsindustrie. Man erinnert sich in diesem Kontext an die grossen Töne von Chris Anderson, dem ehemaligen Chefredaktor des Techno-Magazins «Wired», der 2008 in einem Essay das Ende der Theorie verkündete: «Dies ist eine Welt, in der gewaltige Mengen von Daten und angewandte Mathematik jedes andere Werkzeug ersetzen, das man zum Einsatz bringen könnte. (. . .) Bei hinreichend genügend Daten sprechen die Zahlen für sich selbst (. . .) Korrelation tritt an die Stelle von Kausalität. (. . .) Wir können aufhören, nach Modellen zu suchen (. . .).»

Für wie kurzschlüssig oder albern man solche Worte auch halten mag, sie haben primär Fanalcharakter. Sie drücken einen neuartigen Positivismus aus, der nicht nur die Forschungslogik, sondern auch die Forschungspolitik imprägniert, um nicht zu sagen: einseift. Gewaltige Beträge werden in Grossprojekte gesteckt, die vor allem mit einer Vision locken: mehr Daten und noch mehr Daten. Die Schlagkraft dieses Positivismus stützt sich auf ein robustes altes Argument, das vom Philosophen David Hume stammt: Korrelationen lassen sich beobachten, Kausalitäten nicht. Diese Feststellung ist wahr und solange harmlos, als man sie nicht mit einem zweiten Postulat aufrüstet: Wenn man nur das Beobachtbare (hinreichend genügend Daten) zulässt, kann man auf Kausalitäten verzichten (jedes andere Werkzeug ersetzen).

Korrelation contra Kausalität

Spätestens hier muss man sich wieder einmal auf die Kernaufgabe der Wissenschaft besinnen: die Welt erklären. Und dazu braucht es vor allem eines: Imagination. Imagination ist die Mutter aller Theorie. Eine Analyse astronomischer Daten kann uns durchaus zum Ergebnis führen, dass Planeten sich auf Ellipsenbahnen bewegen. Das ist für sich genommen schon eine beachtliche Leistung. Aber sie wird übertrumpft von einer theoretischen Einsicht: Nimmt man an, dass zwischen Planeten und Sonne eine anziehende Kraft wirkt, die mit dem Quadrat des Abstands abnimmt, dann folgt zwingend, dass Planeten sich auf Ellipsenbahnen bewegen. Dieser «Zwang» der Annahme bringt zusätzlich zur Beobachtung eine neue Dimension in die Analyse der Phänomene.

Letztlich stehen wir also vor der Entscheidung: Welche Art von Wissenschaft wollen wir? Eine, die mit Algorithmen in Datenminen schürft, oder eine, die unsere Imagination in ihren Dienst nimmt, unser Vermögen, die Welt neu und anders zu denken? Wollen wir Ereignisse voraussagen, oder wollen wir sie verstehen? Die Antwort kann nicht auf ein Entweder-oder verkürzt werden. Wir wollen idealerweise beides. Aber das Problem ist, dass bei komplexen Phänomenen, wie sie heute der Normalfall sind, diese beiden epistemischen Ziele immer mehr auseinandertreten. Nur eines der Ziele zu privilegieren, ist aber forschungspolitisch einäugig.

Jedes Zeitalter nährt seine Mythen. Zum Mythos von Big Data gehört die Vorstellung einer Massenproduktion von Zusammenhängen. Malen wir kein Menetekel an die Wand. Aber im Zeitalter von Big Data scheint die Statistik übertriebene Erklärungsansprüche zu entwickeln. Gewiss, sie ist ein unentbehrliches Werkzeug der Forschung. Will sie sich aber zum dominanten Forschungsstil aufschwingen, droht sie zum hochentwickelten Eingeweidelesen zu mutieren.