Grundlagen des rationalen Denkens/ Epistemologische Rationalität

Epistemologische Rationalität

Bayesisches Schließen

Etwas zu wissen bedeutet, eine durch Beobachtungen fundierte Vorstellung davon zu haben. Da die Beobachtung eine Folge der Tatsache ist und nicht deren Ursache, muss man um etwas wissen zu können eine Implikation umgekehrt verfolgen. Aus einer bestimmten Tatsache (genauer gesagt, aus der Summe der Tatsachen) folgt eine bestimmte Beobachtung, die gleiche Beobachtung kann aber aus unterschiedlichen Tatsachen folgen, daher können wir nicht ohne weiteres aus der Beobachtung auf die Tatsachen schließen. Statt dessen bedienen wir uns der Wahrscheinlichkeitsrechnung, genauer gesagt der Regel von Bayes, um von den beobachteten Belegen auf die Wahrscheinlichkeit eines bestimmten Sachverhalts zu schließen.

Die Regel von Bayes besagt, dass die Wahrscheinlichkeit einer Erklärung gegeben bestimmter Beobachtungen gleich ist der Wahrscheinlichkeit der Beobachtung gegeben der Erklärung, mal der Wahrscheinlichkeit der Erklärung unabhängig von den Beobachtungen und dividiert durch die Wahrscheinlichkeit der Beobachtungen unabhängig von der Erklärung. Zieht man die Wahrscheinlichkeit der Erklärung aus dem Bruch heraus, kann man die Gleichung auch in einer anderen Lesart verstehen. Der Quotient aus der Wahrscheinlichkeit der Beobachtung gegeben der Erklärung und der Wahrscheinlichkeit der Beobachtung unabhängig von der Erklärung ist der Faktor um den die Wahrscheinlichkeit der Erklärung durch die Beobachtung verändert wird. Man spricht von der Wahrscheinlichkeit der Erklärung vor der Beobachtung als der vorausgehenden Wahrscheinlichkeit und von der Wahrscheinlichkeit gegeben der Beobachtung von der nachfolgenden oder angepassten Wahrscheinlichkeit. Der Quotient ist die Aussagekraft der Beobachtung oder deren Bedeutung im Bezug auf die Erklärung. Bayesisches Schließen bedeutet also, die Wahrscheinlichkeit, die man einer Vorstellung beimisst, anhand aller relevanter Beobachtungen anzupassen.

To-Do:

Einfaches Beispiel zur Regel von Bayes

Bei dieser Methode ist es weniger wichtig, möglichst korrekte vorausgehende Wahrscheinlichkeiten zu bekommen, als viel mehr, die Anpassung auf eine möglichst breite Basis von Beobachtungen zu stellen. Das kommt daher, dass eine große Erwartungshaltung bedeutet, dass die Aussagekraft gering ist, falls sie eintrifft. Es ist bekannt, dass Menschen dazu neigen eher Beobachtungen zu machen, von denen sie ausgehen, dass sie ihre Erwartungshaltung bestätigen. Das ist als Bestätigungsvoreingenommenheit bekannt (confirmation bias). Zum Beispiel, wenn jemand annimmt, dass sein Ehepartner untreu wäre, würde er Versuchen möglichst viele Indizien zu sammeln, die diesen Verdacht bestätigen, ohne darauf zu achten, ebensoviel Aufwand zu betreiben um gegenteilige Indizien zu sammeln. Warum das zu einem falschen Bild führt ist einleuchtend, wenn wir uns die Regel von Bayes dazu anschauen.

Die Wahrscheinlichkeit des Betrügens (H) gegeben einer Beobachtung (B) (z.B. regelmäßiger Überstunden) P(H|B) = P(B|H) * P(H) / P(B). Nehmen wir an, die vorausgehende Wahrscheinlichkeit des Betrügens wären 50%, die Wahrscheinlichkeit von Überstunden 40% und die Wahrscheinlichkeit regelmäßiger "Überstunden" im Betrugsfall 70%, dann ist die angepasste Wahrscheinlichkeit P(H|B) = 0,7 * 0,5 / 0,4 = 0,87. Die Aussagekraft der Beobachtung regelmäßiger Überstunden ist mit 1,75 sehr hoch, was den Anstieg der Wahrscheinlichkeit des Betrügens auf 87% begründet. Wenn der betrogene Partner jetzt einen weiteren Hinweis erhält, wie z.B. häufige Telefonanrufe mit falscher Nummer, könnte sich die Gleichung so darstellen: P(H|C) = 0,7 * 0,87 / 0,65 = 0,94. Die unbedingte Wahrscheinlichkeit der Beobachtung muss mindestens so groß sein, wie die Wahrscheinlichkeit der Beobachtung gegeben der Hypothese mal der Wahrscheinlichkeit der Hypothese, darum steigt die Wahrscheinlichkeit der Beobachtung sobald andere Faktoren bekannt werden, die die Beobachtung wahrscheinlicher machen, wie im Beispiel die vorhergehende Beobachtung der Überstunden. Sobald aber die unbedingte Wahrscheinlichkeit der Beobachtung steigt, sinkt automatisch die Aussagekraft. Im Beispiel beträgt sie nur noch 1,08. Die Wahrscheinlichkeit eines Betruges steigt nur noch marginal von 87% auf 94%, kein Vergleich zur vorherigen Steigerung von 50% auf 87%. Kurz gesagt: Je wahrscheinlicher eine Beobachtung ist, um so geringer ist deren Aussagekraft. Unser Gehirn ist aber nicht darauf ausgelegt, diese Unterscheidung zu treffen. Wir neigen dazu weitere Beobachtungen, die unsere bestehende Meinung bestätigen überzubewerten.

Für eine Beobachtung, die die Hypothese wiederlegt, auf der anderen Seite, würde sich die Gleichung so darstellen: P(H|D) = 0,3 * 0,94 / 0,5 = 0,56. Die Wahrscheinlichkeit sinkt auf 56% und ist damit nur wenig höher als die ursprüngliche Wahrscheinlichkeit von 50%. Trotzdem stellt sich für uns die Situation so dar, dass wir zwei bestätigende und nur eine wiederlegende Beobachtung gemacht haben.

Referenzklassen

Es bleibt noch die Frage offen, woher die vorausgehenden Wahrscheinlichkeiten kommen. Die Antwort darauf sind Referenzklassen. Wenn man einem Problem das erste Mal begegnet muss man es in eine Klasse als gleichartig angenommener Probleme einteilen. Dann kann man die vorausgehende Wahrscheinlichkeit anhand der Häufigkeitsverteilung in dieser Referenzklasse bestimmen. Zum Beispiel, wenn man aus der Schule kommt und sich fragt, welchen Berufsweg man einschlagen möchte. Die Problemstellung lautet: Was ist die Wahrscheinlichkeit, dass ich in einem bestimmten Berufszweig glücklich werde (meine Ziele erreiche), gegeben was ich über diesen Berufszweig weiß. Als vorausgehende Wahrscheinlichkeit muss man sich überlegen, was die Wahrscheinlichkeit ist, in einem nicht näher eingeschränkten Berufszweig glücklich zu werden. Es gibt zwei offensichtliche Möglichkeiten, dieses Problem in eine Referenzklasse zu überführen. Entweder fragt man sich, wieviele Menschen allgemein in ihren Berufen glücklich werden, d.h. man entfernt die Beschränkung auf sich selbst, oder man fragt sich wieviele längerfristige Aktivitäten, wie z.B. ein Instrument oder eine Sprache erlernen oder die Mitgliedschaft in einem Verein, etc., einen selbst glücklich gemacht haben, d.h. entfernt die Beschränkung auf einen Beruf. Man kommt also zu einer Klasse ähnlicher Probleme in dem man bestimmte Spezifika des Problems entfernt.

Bei der Auswahl der Referenzklasse hat man verschiedene Möglichkeiten. Wichtig für eine gute Auswahl ist, dass die Referenzklasse weder zu groß noch zu klein ist. Wenn die Auswahl zu groß ist, dann ist die Varianz innerhalb dieser Klasse zu groß als daß die daraus abgeleitete vorausgehende Wahrscheinlichkeit auch nur ungefähr in der richtigen Größenordnung liegt. In diesem Fall benötigt man zu viele weitergehenden Informationen um die Wahrscheinlichkeit zu fundieren. Z.B. wenn ich zum ersten Mal bei einer bestimmten Frau ins Auto steig und mich interessiert wie hoch die Wahrscheinlichkeit ist, dass diese Frau gut Autofahren kann, wäre es unsinnig alle Frauen als Referenzklasse zu nehmen. Selbst wenn das angebliche schlechte Fahrkönnen von Frauen nicht nur ein Vorurteil wäre, wäre die Varianz zwischen allen Frauen so groß, dass ein Mittel über alle Frauen keine nennenswerte Aussagekraft mehr hat. Ein Vor-Urteil lässt sich darum als ein Urteil anhand einer vorausgehenden Wahrscheinlichkeit aus einer zu allgemein gefassten Referenzklasse interpretieren. Dabei ist ein Urteil nur anhand einer Referenzklasse nicht unbedingt schlecht oder irrational. Wer in einer Großstadt nachts einer Gruppe ausländischer männlicher Jugendlicher begegnet könnte einen guten Grund haben zunächst von deren Gewaltbereitschaft auszugehen, falls die entsprechende Referenzklasse die Wahrscheinlichkeit tatsächlich nahelegt. Ausländerfeindlichkeit würde dann erst dort beginnen, wo man nicht bereit ist, die vorausgehende Wahrscheinlichkeit entsprechend der Referenzklasse anhand seiner Beobachtungen zu revidieren.

Auf der anderen Seite kann die Referenzklasse auch zu klein gewählt werden. Insbesondere in der Politik wird das gerne gemacht. Anhänger eines bestimmten Politikers könnten die gesamte Lebensgeschichte dieses Politikers als Beleg dafür heranziehen, warum dieser Politiker als einzige Ausnahme ehrlich und kompetent ist. Was die Anhänger hier tun ist, für diesen Politiker eine eigene Referenzklasse zu schaffen, die nur ihn beinhaltet. Aus einer zu kleinen Referenzklasse lassen sich aber ebenso wenig vorausgehende Wahrscheinlichkeiten ableiten wie aus einer zu großen, da kleine Referenzklassen anfälliger für zufällige Varianzen sind. Es ist ein weiterer menschlicher Denkfehler aus einer einzigen Beobachtung zu generalisieren. Das passiert beim berühmten Ersten Eindruck. Man nimmt einen einzigen Eindruck als Referenzklasse für die weitere Bewertung einer Person und versäumt damit möglicherweise einen interessanten Menschen näher kennen zu lernen. Der Denkfehler führt auch hier zum Verlust, in diesem Fall zum Verlust von Freundschaften.

Unterschiedliche Referenzklassen können zu unterschiedlichen Wahrscheinlichkeiten führen. Was ist z.B. die Wahrscheinlichkeit, dass die etablierte Meinung zur globalen Erwärmung korrekt ist? Wenn man als Referenzklasse entsprechende wissenschaftlich gut erforschte Themen wählt, sehr hoch, wählt man aber statt dessen als Referenzklasse Themen mit entsprechend hoher politischer Bedeutung, deutlich geringer. In diesen Fällen darf man nicht vergessen, dass die vorausgehende Wahrscheinlichkeit unbedingt anhand aller verfügbarer Informationen zu korrigieren ist. Wählt man also die breite wissenschaftliche Forschung als Referenzklasse, muss die Wahrscheinlichkeit unbedingt entsprechend der politischen Bedeutung nach unten korrigiert werden, und wenn man das politische Thema als Referenzklasse wählt, muss man entsprechend der wissenschaftlichen Untersuchungen nach oben korrigieren. Wenn man auf diese Weise alle verfügbaren Informationen integriert sollte man am Ende bei der selben Wahrscheinlichkeit ankommen, und diese Wahrscheinlichkeit ist die rationale Wahrscheinlichkeit, die man der Hypothese bei seinem aktuellen Kenntnisstand beimessen sollte.

Die Hypothese finden

Bevor man eine Hypothese aber in eine Referenzklasse einteilen kann, muss man zunächst die Hypothese formulieren. Da, wie Eingangs erwähnt, rationales Denken immer an Beobachtungen orientiert sein muss, muss auch die ursprüngliche Hypothese auf Beobachtungen basieren. Das steht in einem starken Kontrast zur menschlichen Tendenz, einer Erzählung mehr Glaubhaftigkeit beizumessen, je detailierter sie ist, einfach deswegen, weil wir sie uns mit mehr Einzelheiten vorstellen und darum mehr Teile unseres Gehirns bei deren Verarbeitung betroffen sind.

Verstöße gegen diesen Grundsatz liegen im Kern vieler Verschwörungstheorien. Z.B. das Kennedy-Attentat. Die offizielle Erzählung zum Tathergang ist nicht sehr detailreich und erweckt daher den Eindruck der unvollständigkeit. Verschwörungstheorien nehmen diese Lücken auf und füllen sie mit Erfindungen, die nicht an Beobachtungen fest gemacht sind. Der Fehler liegt darin, dass man die vorausgehende Wahrscheinlichkeit einer Hypothese nicht nur an der Referenzklasse orientieren kann, sondern ebenso im Vergleich zu anderen möglichen Hypothesen sehen muss. In der Regel von Bayes ist das im Divisor ausgedrückt, der die Wahrscheinlichkeit einer Beobachtung unabhängig von der Gültigkeit der Hypothese ausdrückt, d.h. im Bezug auf alle anderen möglichen Hypothesen. Man spricht von einem Hypothesenraum als der Gesamtheit aller möglicher Hypothesenausprägungen im Bezug auf ein Problemfeld. Für das Attentat bedeutet das, wenn wir nicht den Beweisen folgen, von der Kugel, die Kennedy getötet hat ausgehend, müssten wir alle anderen anwesenden Personen als gleich wahrscheinliche Attentäter betrachten und daher dem einzelnen Attentäter eine nur sehr geringe Wahrscheinlichkeit zuordnen. Wenn wir uns nach einem möglichen Motiv fragen, dürfen wir nicht nur die letzte Amtshandlung Kennedys als Basis verwenden, sondern wir müssten die Gesamtheit aller möglichen Motive betrachten. Eine Menge, die zu groß ist, als dass wir dem einzelnen Motiv noch eine bedeutende Wahrscheinlichkeit beimessen könnten.

Das finden der Hypothese, die wir weiter betrachten, im gesamten Hypothesenraum ist der erste, der schwierigste, aber auch der bedeutendste Schritt im rationalen Denken. Denkfehler in diesem Schritt führen zu einem falschen Ergebnis, obwohl der gesamte restliche Prozess korrekt abgearbeitet worden sein könnte. Das ist der Grund, warum auch viele sehr intelligente Menschen trotzdem falsche Überzeugungen pflegen. Weil uns der anschließende Prozess der Beobachtung und Anpassung der Wahrscheinlichkeit als aufwändiger und darum als wichtiger erscheint, suchen wir Fehler an der falschen Stelle und fühlen uns fälschlicher Weise sicher, wenn wir dort keine finden. Wenn z.B. die Polizei eine tote Frau findet und zunächst den Ehemann verdächtigt begehen sie diesen Fehler. Auch wenn die nachfolgende Polizeiarbeit vollständig korrekt abläuft, ist die Wahrscheinlichkeit hoch, dass ein Unschuldiger im Gefängnis landet, weil im ersten Schritt, dem finden der Hypothese, nicht an mögliche Alternativen gedacht wurde.

Dieser Denkfehler kann uns im alltäglichen Leben begegnen, z.B. wenn ein Kratzer im Auto ist, und der Besitzer sofort den "bösen" Nachbarn verdächtigt, oder wenn eine Personengruppe lacht und jemand annimmt, sie hätten über ihn gesprochen. Diese Fehler beruhen darauf, dass wir eine Lücke in unserer Beweiskette haben und nach dieser Lücke nicht genügend Sorgfalt walten lassen, dass wir auch den vollständigen Hypothesenraum betrachten.

Gruppenzugehörigkeit

Der letzte Denkfehler, den ich im Bezug auf die epistemologische Rationalität betrachten möchte, aber gleichzeitig auch der schwerwiegendste ist die Tendenz des Menschen zur Konformität innerhalb seines sozialen Umfeldes.

To-Do:

Auslagern in eugene Seite "Diskursrationalität" mit Inhalt status, science as attire, applaus lights, belief in belief, agreement theorem

Der rationale Denkprozess

To-Do:

Eigene Seite "Gesamter rationaler Denkprozess" mit motivated cognition / stopping