Elementarwissen medizinische Psychologie und medizinische Soziologie: Methodische Grundlagen

Vorbemerkung: Dieses Kapitel behandelt zum Teil recht spezielle Themen, die erst im klinischen Abschnitt relevant werden – diese Themen sind an der verkleinerten Schriftart zu erkennen. Den Studierenden im vorklinischen Studienabschnitt sei daher geraten, sich in erster Linie mit den groß gedruckten Textteilen zu beschäftigen, um ein elementares Verständnis von statistischen und epidemiologischen Zusammenhängen und Denkweisen zu bekommen, und sich dabei nicht von den recht detaillierten Ausführungen zur Statistik behelligen zu lassen. Die kleingedruckten Abschnitte sind hingegen vor allem für Studierende im klinischen Studienabschnitt interessant – als Einführung oder als Ergänzung zu Vorlesungen und Praktika des Fachs Biometrie und Epidemiologie (Q1).

Aus einer Theorie gewinnt man Forschungshypothesen und überprüft sie, wobei das Falsifikationsprinzip gilt

In der Psychologie geht es wie in jeder anderen echten Wissenschaft darum, Beobachtungen in den Gesamtzusammenhang einer Theorie zu bringen, aus dieser Theorie Hypothesen, d. h. überprüfbare Aussagen abzuleiten, die Hypothesen zu überprüfen und somit festzustellen, ob die Theorie noch Gültigkeit besitzt. Einige Grundbegriffe sollte man hierbei kennen:

Eine Theorie ist eine Menge von Sätzen zur zusammenfassenden erklärenden und vorhersagenden Beschreibung von Sachverhalten.
Überprüft wird aber nicht direkt die Theorie, sondern aus ihr abgeleitete Hypothesen:
- Definition: Hypothesen sind aus Theorie abgeleitete falsifizierbare Sätze, die in Studien geprüft werden.
- Hypothesen unterscheiden sich in ihrem Geltungsbereich:
  - Deterministische Hypothese (= nomologische Hypothese): ein Zusammenhang zwischen zwei Merkmalen gilt in allen Fällen, also zeitlich und räumlich unbegrenzt.
  - Probabilistische Hypothese: ein Zusammenhang zwischen zwei Merkmalen gilt nur mit einer gewissen Wahrscheinlichkeit (unperfekte Korrelation) und ist nur für eine Gesamtheit feststellbar, für das einzelne Individuum ist dagegen keine sichere Aussage möglich, allenfalls eine Wahrscheinlichkeitsaussage.
- Hypothesen können auf verschiedene Weisen gewonnen werden:
  - Deduktives Verfahren: aus der Theorie werden Hypothesen abgeleitet.
  - Induktives Verfahren: man geht von Beobachtungen über Hypothesen zur Theorie; POPPER versteht unter "induktivem Vorgehen" lediglich eine Methode der Theoriefindung (Heuristik).
In der Psychologie hat man es meist mit Konstrukten zu tun. Ein Konstrukt ist ein theoretisches Konzept für etwas, das nicht direkt beobachtet werden kann, sondern aus (beobachtbaren, messbaren) Indikatoren erschlossen werden muss. Beispielsweise wird das Konstrukt "Intelligenz" aus Leistungen im Intelligenztest (Indikatoren) erschlossen. Die Intension des Konstrukts, d. h. sein für uns fassbarer Inhalt, hängt daher von der Art der Indikatoren ab. Konstrukte können durch Operationalisierung erfassbar gemacht werden.

Merke: Bei vielen Gegenständen der Psychologie handelt es sich um Konstrukte, d. h. um nicht direkt beobachtbare, sondern nur aus Beobachtungen erschließbare Konzepte (z. B. Intelligenz, Motivation, Emotion etc.).

Man unterscheidet grundsätzlich zwei Arten von Fehlern:
- Zufällige Fehler (zufällige Streuungen um den wahren Wert) vermindern lediglich die Präzision (verminderte Reliabilität) und mitteln sich bei vielen Einzelmessungen heraus.
- Systematische Fehler verfälschen das Ergebnis dagegen in eine bestimmte Richtung (verminderte Validität); sie kommen zustande durch Erfassungsfehler (z. B. fehlerhafte Messinstrumente), Confounder oder Selektions- und Informationsbias.
Seit POPPER gilt in der Wissenschaft nicht mehr das Verifikationsprinzip, sondern das Falsifikationsprinzip. Grob formuliert besagt es, dass eine Theorie niemals bestätigt, sondern nur vorläufig gültig ist, weil in der Zukunft Fälle gefunden werden können, welche die Theorie widerlegen. Eine Theorie lässt sich jedoch mittels Exhaustion "retten", d. h. man modifiziert den Geltungsbereichs der Theorie, indem man mit der Theorie unvereinbare Fälle ausgrenzt.

Merke: Aus Theorien abgeleitete Hypothesen sind nur so lange gültig, wie keine Fälle gefunden werden, die sie und mithin die zugrundeliegende Theorie widerlegen, d. h. falsifizieren. Forschung führt daher immer nur zu vorläufigen Ergebnissen.

Die standardisierte Datenerhebung besteht aus drei Phasen: Durchführung, Auswertung, Interpretation.
Daten werden erhoben, indem die Ausprägungen von Merkmalen (Variablen) erfasst werden, welche den Beobachtungseinheiten (kleinste Einheiten, an denen Veränderungen feststellbar sind) und somit den Untersuchungseinheiten (Merkmalsträger, z. B. Probanden) zueigen sind. Merkmale lassen sich dabei einteilen nach ihrer Funktion bei der statistischen Analyse (Zielgrößen, Einflussgrößen), nach ihrem Skalenniveau (nominal-, ordinal-, intervall- oder ratioskaliert) und nach der Struktur ihrer Merkmalsausprägungen (diskret oder stetig). Am Ende der Datenerhebung besitzt man eine vollständige, disjunkte (d. h. keine Überlappungen enthaltende) Auflistung der Merkmalsausprägungen, die als Liste oder Tabelle (Spalten: Merkmale, Zeilen: Beobachtungseinheiten; Legende, Kennzeichnung fehlender Daten etc.) darstellbar ist.

Hypothesen werden mittels eines statistischen Messverfahrens überprüft.

Hypothesen:
- Methodisch
  - Die Nullhypothese (= H₀) behauptet einen als bestehend angenommenen Sachverhalt (z. B. "Das Gehirn von Skilangläufern wiegt durchschnittlich 1500 g"). Ihr gegenüber steht die zu ihr komplementäre Forschungshypothese (= Alternativhypothese, H₁), die einen neuen Sachverhalt behauptet und den in der Nullhypothese artikulierten Sachverhalt negiert (z. B. "Das Gehirn von Skilangläufern wiegt nicht durchschnittlich 1500 g, sondern mehr oder weniger als 1500 g").
  - Damit Hypothesen statistisch geprüft werden können, müssen inhaltliche Hypothesen in statistische Hypothesen umgewandelt werden. Hierzu gibt man Kriterien an, bei deren Erfülltsein man H₁ als zutreffend anerkennt.
- Inhaltlich
  - Unterschiedshypothese: wird durch Häufigkeits- und Mittelwertvergleich erfasst
  - Zusammenhangshypothese: wird durch eine Korrelationsrechnung erfasst

Merke: Die Nullhypothese (H₀) behauptet einen konkreten, als bestehend angenommenen Sachverhalt, die Forschungshypothese (H₁) einen zu ihr komplementären Sachverhalt, der mittels Forschung erst noch herausgefunden und bestätigt werden muss.

Fehler 1. und 2. Art. Der Fehler 1. Art (α; grün) ist festgesetzt, der Fehler 2. Art (β; rot) hängt vom Fehler 1. Art und der Stichprobengröße ab. Der Fehler 2. Art wird umso kleiner (und die Power [1 - β] umso größer), je weiter H₀ und H₁ auseinanderliegen.

Statistischer Test. Liegt die durch den statistischen Test ermittelte Prüfgröße jenseits (rechter oranger Pfeil) des zuvor festgesetzten kritischen Werts, d. h. im Annahmebereich (grün), so wird H₁ angenommen; liegt sie hingegen diesseits des kritischen Werts (linker oranger Pfeil), so behält man H₀ bei.

Der statistische Test erlaubt festzustellen, ob Unterschiede zwischen Kennwerten einer Stichprobe einerseits und bestimmten Vergleichswerten (Kennwerte anderer Stichproben oder definierte Sollwerte) andererseits rein zufällig zustande gekommen sind (etwa weil die Stichprobe schlecht ausgewählt worden ist) oder aber überzufällig, d. h. signifikant sind. (Beispiel: durchschnittliches Gehirngewicht von Skilangläufern: empirischer, anhand einer Stichprobe ermittelter Mittelwert 1400 g vs. Sollwert laut H₀ 1500 g → ist der Unterschied zwischen Mittelwert und Sollwert signifikant, besteht also wirklich ein Unterschied, so dass H₁ berechtigterweise angenommen und H₀ berechtigterweise verworfen wird?). Er gibt also an, mit welcher Wahrscheinlichkeit aufgrund der durch die Stichprobe erlangten Erkenntnisse H₁ angenommen wird, obwohl in der Gesamtpopulation in Wirklichkeit H₀ gilt, d. h. mit welcher Wahrscheinlichkeit anhand der Stichprobe ein Unterschied zwischen Kennwert und Vergleichswert festgestellt wird, obwohl in der Gesamtpopulation ein solcher Unterschied überhaupt nicht existiert.
- Zwei Arten von Fehlern sind dabei möglich:
  - Fehler 1. Art (α-Fehler): falsch-positives Ergebnis, d. h. H₁ wird angenommen, obwohl H₀ gilt. Dieser Fehler ist schwerwiegender als der Fehler 2. Art und wird daher durch Festsetzung eines niedrigen Maximalwertes (meist 5 %) kontrolliert (d. h. auf eine Falschannahme in 20 Hypothesenprüfungen beschränkt); H₁ wird also nur dann akzeptiert, wenn H₀ sehr unwahrscheinlich ist. Da H₀ eindeutig formuliert ist, ist dieser Fehler kontrollierbar.
  - Fehler 2. Art (β-Fehler): falsch-negatives Ergebnis, d. h. H₁ wird verworfen, obwohl es in der Population gilt. Da H₁ als Negation von H₀ nicht eindeutig formuliert ist, lässt sich dieser Fehler nur ungenau abschätzen. Der β-Fehler ist umso größer, je kleiner der α-Fehler und je kleiner der Stichprobenumfang n.
- Der statistische Test ermöglicht die algorithmische Berechnung einer Prüfgröße, die mit der festgesetzten Irrtumswahrscheinlichkeit α (in Kauf genommene Wahrscheinlichkeit für den α-Fehler; meist 5 %, manchmal auch 1 % oder 0,1 %) verglichen wird. Die Irrtumswahrscheinlichkeit entspricht dem Signifikanzniveau. Ist die Prüfgröße kleiner als das Signifikanzniveau (kritischer Wert), liegt sie also im überzufälligen Annahmebereich, so wird H₁ akzeptiert, man sagt: "Die Alternativhypothese wird auf dem Signifikanzniveau α angenommen"; im anderen Fall wird H₁ abgelehnt, man sagt: "Die Nullhypothese kann auf dem Signifikanzniveau α nicht verworfen werden". Da durch Festlegen des Signifikanzniveaus eine maximale Wahrscheinlichkeit eingeräumt wird, mit der in einer bestimmten Studie fälschlicherweise H₁ behauptet wird, sind Studien potentiell fehlerhaft. Diese potentielle Fehlerhaftigkeit ist jedoch erforderlich, um überhaupt einen Zusammenhang postulieren zu können. Denn würde man die Irrtumswahrscheinlichkeit und somit das Signifikanzniveau auf 0 festsetzen, so wäre der Annahmebereich für die Prüfgröße ebenfalls gleich 0 – man könnte mithin keine überzufälligen Ergebnisse feststellen und H₁ somit gar nicht behaupten. Dabei hat die Stichprobengröße n einen Effekt auf die Entscheidung für oder gegen H₁: bei kleinem n wird H₁ eher verworfen, bei großem n eher angenommen – durch eine ausreichend große Stichprobe lassen sich auch sehr kleine Unterschiede als statistisch signifikant einstufen, wenn diese Unterschiede mitunter auch praktisch wenig relevant sind.
- Power (= Güte, Teststärke, Trennschärfe eines Tests): Vermögen eines Tests zu richtig-positiven Entscheidungen, d. h. ein in der Population gültiges H₁ als solches zu erkennen; Power = 1 – β
- p-Wert: Eine rationalere Methode der Signifikanz-Beurteilung stellt die Berechnung des p-Werts dar (mittels des exakten Tests nach Fisher). Hierbei wird anhand der Daten ein p-Wert ermittelt, der gewissermaßen die durch die Daten bestimmbare kleinstmögliche Irrtumswahrscheinlichkeit angibt. Ist der p-Wert kleiner als das Signifikanzniveau α, so ist der Unterschied zwischen Kennwert und Sollwert bzw. zwischen verschiedenen Kennwerten signifikant.

Merke: Der statistische Test ist ein spezifischer Test, mit dessen Hilfe sich Aussagen über die Signifikanz, d. h. Überzufälligkeit eines mit Hilfe der Stichprobe festgestellten Unterschieds machen lassen. Ein Unterschied ist im statistischen Sinne signifikant, wenn die Wahrscheinlichkeit, einen Fehler 1. Art zu begehen (Annahme von H₁, obwohl in der Grundgesamtheit H₀ gilt), sehr gering ist (meist kleiner als 5 %).

Weblinks: Theorie, Hypothese, Konstrukt, Falsifikation, Karl Raimund Popper, Zufälliger Fehler, Systematischer Fehler, Datenerhebung, Forschungshypothese, Nullhypothese, Statistischer Test, Irrtumswahrscheinlichkeit, p-Wert

Selbsttest:

Welche der folgenden Hypothesen probabilistisch, welche deterministisch? Hypothese A: "Alle Schwäne sind weiß.", Hypothese B: "Die meisten Elefanten sind grau."
Was ist ein Konstrukt? Nennen Sie einige Beispiele für Konstrukte!
Jens hat sein Regal mit einem falsch geeichten Metermaß gemessen, nun passt es nicht in die neue Wohnung. Welche Art von Messfehler wurde begangen?
Welche Phasen umfasst die standardisierte Datenerhebung?
Was sagt H₀ aus, was H₁?
Was ist der Fehler 1. Art?
Wozu dient ein statistischer Test?

Antwortvorschläge

A: deterministisch, B: probabilistisch.
Nicht direkt beobachtbares theoretisches Konzept (z. B. Intelligenz, Persönlichkeit etc.).
Systematischer Fehler.
Durchführung, Auswertung, Interpretation.
H₀ behauptet einen als bestehend angenommenen Sachverhalt, H₁ einen hierzu kontradiktorischen, neuen Sachverhalt.
H₁ wird angenommen, obwohl in der Grundgesamtheit H₀ gilt.
Zur Signifikanzprüfung.

Die abhängige Variable ist eine Funktion der unabhängigen Variable und möglicherweise anderer Variablen

Um ein Konstrukt (z. B. Intelligenz) zu erfassen, benötigt man ein bestimmtes Messverfahren, mit dem man bestimmten Variablen bestimmte Werte zuordnen kann.

Operationalisierung ist die Angabe eines Messverfahrens, mit dem man ein Konstrukt erfassen kann.
Messung
- Definition: eine Messung ist eine Zuordnung von Zahlenwerten zu einzelnen Merkmalsausprägungen (z. B. Sprachverständnis → 80)
- Die Messung im Laborexperiment hat im Vergleich zur Feldbeobachtungen drei entscheidende Eigenschaften: Willkürlichkeit, Variierbarkeit, Wiederholbarkeit.
Variablen sind Entitäten mit unterschiedlicher Ausprägung (vgl. Konstante), wobei die Ausprägung diskret oder stetig sein kann. Den Forscher interessieren dabei folgende Variablen: Ursache, Wirkung und dazwischenliegende Variablen.
- Ursache und Wirkung bilden die "Endpunkt-Variablen" und tragen spezielle Bezeichnungen.
  - Die unabhängige Variable ist die Ursache und besteht aus den vom Forscher variierten Einflussfaktoren; sie sollte konstant gehalten werden.
  - Die abhängige Variable ist die Wirkung.
- "Zwischenvariablen" liegen zwischen unabhängiger und abhängiger Variable und sollten eliminiert oder kontrolliert werden.
  - Mediator-Variable: Glied in der Ursachenkette, die auf die abhängige Variable einwirkt, d. h. sie "vermittelt" die Wirkung und fungiert gewissermaßen als Zwischenstation der Ursachen-Wirkungs-Kette.
  - Störvariable (Confounder): nicht berücksichtigte intervenierende Variable, die zufällig mit der unabhängigen Variable auftritt und kausal auf die abhängige Variable einwirkt, während die unabhängige Variable nur als Indikator fungiert.

Merke: Die abhängige (y-)Variable ist abhängig von der unabhängige (x-)Variable, d. h. die unabhängige Variable verursacht die abhängige Variable.

Die Zuordnung der Werte zu den Variablen hängt von der Art und Weise der Skalierung ab. Die Variablen haben ihrerseits eine Struktur, die mittels einer Skala abgebildet wird.

Skalierung ist die Anwendung eines Regelkalküls, um der Ausprägung eines Merkmals einen bestimmten Wert oder ein bestimmtes Symbol zuzuordnen.
Absolute und relative Skalierung:
- Bei der absoluten Skalierung wird ein Gegenstand ohne Bezug auf einen anderen Gegenstand beurteilt. Der Cut-off-Wert ist dabei derjenige Wert, ab dem ein Testergebnis als außergewöhnlich gilt.
  - Bei einer einstufigen Skala können die Items nur einen von zwei Werten ("wahr" oder "falsch") annehmen. Die Summenskala ist dabei eine Skala bei der die Items zu einem Gesamtwert aufsummiert werden. Die Indexbildung ist hier ein Spezialfall: hierbei vergibt man bei Vorliegen eines bestimmten Sachverhalts einen Punkt, die Punkte werden dann zusammengezählt.
  - Bei einer mehrstufigen Skala können die Items einen von mehr als zwei Werten (meist fünf) annehmen. Die Likert-Skala ist ein mehrstufiges verbal verankertes Antwortmodell (z. B. "nicht, wenig, mittel, ziemlich, stark")
- Bei der relativen Beurteilungsskala erfolgt die Bewertung eines Gegenstandes durch den Vergleich mit einem anderen Gegenstand (z. B. "x ist beliebter als y").
Skalen sind Bezugssysteme zur Messung von Merkmalsausprägungen; sie können qualitativ oder quantitativ sein. Beispiele für Skalen sind folgende:
- Paarvergleich: jedes Item wird jeweils mit jedem anderen Item verglichen (A vs. B, A vs. C, A vs. D, B vs. C etc.)
- Guttman-Skala: Items und Personen werden gleichzeitig skaliert (z. B. 1,76 m großer Proband soll auf folgende Fragen antworten: "Sind Sie größer als 1,60 m?", "Sind Sie größer als 1,70 m?", "Sind Sie größer als 1,80 m?" etc.); plötzlicher "Bewertungssprung" (Beispiel: Proband antwortet bis Item X mit "Nein", ab Item X mit "Ja"); Ordinalskalenniveau.

Merke: Der Begriff "Skala" hat je nach Kontext andere Bedeutung: Fragebogen, Messniveau oder Messinstrument.

Index ist eine Skala, die aus mehreren Indikatoren zusammengesetzt ist (z. B. Körpermasse-Index [BMI]).
Man unterscheidet verschiedene Skalenniveaus, die mit entsprechenden Maßen der mittleren Tendenz assoziiert sind.
- Skalen haben unterschiedliches Niveau. Je höher dabei das Niveau ist, mit desto aufwendigeren mathematischen Methoden lässt sich die Skala bearbeiten. Höhere Niveaus implizieren zudem niedrigere Niveaus und lassen sich in niedrigere Niveaus transformieren, was aber mit einem Informationsverlust einhergeht. Man unterscheidet nonmetrische und metrische Skalen.
  - Nonmetrische Skalen für qualitative (kategoriale) Merkmale
    - Nominalskala: bloße Zuordnung zu Kategorien, keine Beziehung zwischen den Werten (z. B. "Fisch – Fleisch – Gemüse – andere Nahrungsmittel"); zugehöriges Maß der mittleren Tendenz: Modalwert (= Modus, d. h. höchstbesetzte Kategorie)
    - Ordinalskala (Rangskala): Rangordnung (z. B. "klein – mittelgroß – groß"); die in der Ordinalskala gleichen Stufenabstände können vom Befragten als ungleich wahrgenommen werden; zugehörige Maße der mittleren Tendenz: Median (= derjenige Wert, der die Stichprobe genau halbiert), außerdem Quartile, Prozentrangwert, Spannweite
  - Metrische Skalen für quantitative Merkmale
    - Intervallskala (Abstandsskala): gleiche Abstände zwischen den Stufen, so dass man Differenzen bilden darf; der Nullpunkt ist aber variabel, weshalb keine Quotienten gebildet werden dürfen; zugehörige Maße der mittleren Tendenz: arithmetischer Mittelwert, außerdem Standardabweichung, Schiefe
    - Ratioskala (Verhältnisskala): gleiche Verhältnisse, d. h. gleiche Abstände und derselbe Nullpunkt, weshalb man Quotienten und Vielfache der Merkmalsausprägung bilden darf; zugehöriges Maß der mittleren Tendenz: geometrisches Mittel

Merke: Nach aufsteigendem Niveau unterscheidet man folgende Skalen: Nominalskala (besteht aus voneinander unabhängigen Kategorien), Ordinalskala (Rangordnung mit ungleichen Abständen), Intervallskala (Rangordnung mit gleichen Abständen), Ratioskala (Rangordnung mit gleichen Abständen und definiertem [absolutem] Nullpunkt). Mit zunehmendem Niveau sind mehr Rechenoperationen erlaubt.

Weblinks: Operationalisierung, Messung, Unabhängige Variable, Abhängige Variable, Confounder, Skalierung, Skala, Index, Skalenniveau, Nominalskala, Ordinalskala, Intervallskala, Ratioskala

Selbsttest:

Was bedeutet "Operationalisierung"?
Ein Forscher möchte mittels verschiedener Antibiotika herausfinden, welches Antibiotikum eine gegebene Bakterienpopulation am besten abtötet. Was ist die abhängige Variable, was die unabhängige Variable?
Ordnen sie folgende Skalenniveaus nach absteigendem (!) Niveau: Intervallskala, Ratioskala, Nominalskala.
Bestimmen Sie die Niveaus der folgenden Skalen: 1. Celsius-Temperaturskala, 2. Schulzensuren, 3. Kelvin-Temperaturskala, 4. Statistik über die Besetzungszahlen von Praktikumsgruppen.

Antwortvorschläge

Festlegung eines Messverfahrens für die Erfassung eines Konstrukts.
Unabhängige Variable (da variierbar): Antibiotika; abhängige Variable (da von anderer Variable [unabhängige Variable] abhängig): Veränderung der Bakterienzahl.
Ratioskala, Intervallskala, Nominalskala.
1. intervallskaliert (da kein absoluter Nullpunkt definiert), 2. ordinalskaliert (ungleiche Abstände [z. B. ist der Abstand zwischen "sehr gut" und "gut" ein anderer als zwischen "ausreichend" und "mangelhaft"]), 3. ratioskaliert (da absoluter Nullpunkt vorhanden), 4. nominalskaliert (bloße Zuordnung der Teilnehmer zu Gruppen).

Ein guter Test besteht aus hochwertigen Items, genügt den Gütekriterien der Objektivität, Reliabilität und Validität und beugt erwartbaren Messfehlern vor

Eine qualitativ hochwertiger Test erfüllt verschiedene Kriterien:

Die Items sind angemessen.
Der Test ist geeicht.
Der Test genügt den Kriterien Objektivität, Reliabilität und Validität.
Messfehler werden so gut wie möglich kontrolliert.
Der Test ist ökonomisch.

Einen Test konstruiert man, indem man geeignete Items auswählt und zu Skalen zusammenfasst. Die Items sollten dabei bestimmten Qualitätsstandards genügen, was man mittels der Itemanalyse ermittelt.

Die Schwierigkeit sollte angemessen sein (mittlerer Schwierigkeitsgrad).
Die Trennschärfe sollte ausreichend sein, d. h. die Items sollten die Individuen mit starker Merkmalsausprägung von den Individuen mit schwacher Merkmalsausprägung gut trennen können; das Gesamtergebnis sollte positiv mit den Ergebnissen der Einzelitems korrelieren. Beispielsweise weisen manche Items (Einzelfragen) im Physikum eine schlechte Trennschärfe auf, d. h. sie werden von denjenigen, die eine gute Gesamtleistung erbringen genauso gut oder schlecht beantwortet wie von denjenigen, die ein schlechte Gesamtleistung erbringen. Solche Items sind somit nicht geeignet, zwischen "Guten" und "Schlechten" zu differenzieren und sind testtheoretisch daher nahezu wertlos.

Merke: Gute Testitems sind trennscharf (d. h. sie ermöglichen eine zuverlässige Trennung zwischen Individuen mit starker Merkmalsausprägung und Individuen mit schwacher Merkmalsausprägung) und besitzen einen angemessenen Schwierigkeitsgrad.

Unter "Testnormierung" versteht man den Vergleich der Untersuchungsgruppe mit einer Eichstichprobe (= Normstichprobe; Mittelwert und Standardabweichung müssen bekannt sein). Man berechnet also Kennwerte, die aussagen, wie sehr das Ergebnis der Untersuchungsgruppe von der statistischen Norm abweicht.

Bei Normalverteilung der Eichstichprobe: Normierung anhand von Mittelwert und Standardabweichung
- T-Wert (40-60)
- Stanine (4-6)

Bei nicht normalverteilten Eichstichproben: Normierung anhand von Prozenträngen (wieviel Prozent der Eichstichprobe liegen höher oder niedriger).

Ein guter Test erfüllt drei Gütekriterien, wobei das jeweils zuerst genannte Gütekriterium notwendige Voraussetzung für das nächstgenannte ist.

Objektivität: Unabhängigkeit des Testergebnisses von Situation und Testleiter
- Objektivität ist erreichbar durch Standardisierung, d. h. durch standardisierte Instruktionen und streng formalisierte Auswertungsprozeduren.
- Sie lässt sich prüfen, indem man Testergebnisse unterschiedlicher Prüfungsleiter vergleicht, d. h. indem man das Ausmaß der Interrater-Reliabilität bestimmt.
- Entsprechend der drei Phasen eines Tests unterscheidet man drei Arten von Objektivität:
  - Durchführungsobjektivität
  - Auswertungsobjektivität; beispielsweise besitzt das schriftliche Physikum eine fast perfekte Auswertungsobjektivität (Multiple-Choice-Fragen, Auswertung mittels Automaten etc.)
  - Interpretationsobjektivität
Reliabilität: Genauigkeit, formale Zuverlässigkeit einer Messung; bei einem sehr reliablen Test ist also der Standardmessfehler (= zufälliger Fehler) sehr klein.
- Die Reliabilität lässt sich prüfen, indem man die Reproduzierbarkeit erfasst, d. h. die Genauigkeit, mit der Testergebnisse bei verschiedenen Messungen übereinstimmen. Man erhält dadurch einen Korrelationskoeffizienten, und zwar den Reliabilitätskoeffizienten.
- Es gibt dabei verschiedene Methoden zur Reliabilitätsabschätzung:
  - Test-Retest-Reliabilität (Testwiederholungsreliabilität): ein gleichbleibendes Merkmal wird 2x hintereinander gemessen (aber: es können Übungs- und Lerneffekte auftreten; es liegt zudem die Annahme zugrunde, dass das Merkmal über die Zeit konstant bleibt).
- Als Maß für die Reliabilität dient Cohens κ, das sich aus dem Quotienten der Differenz zwischen beobachteter und erwarteter Übereinstimmungswahrscheinlichkeit (p_b – p_e) einerseits und der zur erwarteten Übereinstimmungswahrscheinlichkeit komplementären Wahrscheinlichkeit (1 – p_e) andererseits errechnet; es kann Werte zwischen 1 (perfekte Übereinstimmung) und 0 (rein zufällige Übereinstimmung) annehmen.
Validität: Ausmaß, mit dem der Test das misst, was er messen soll (beispielsweise misst ein hochvalider Intelligenztest die Intelligenz sehr gut); die Validität kann nicht quantifiziert werden, sondern wird mittels verschiedener Strategien ungefähr ermittelt.
- Validität von Messinstrumenten
  - Bei der internen Validierung geht man nach eigenem Ermessen vor.
    - Augenscheinvalidität (als Kriterium dient die Evidenz)
    - Expertenrating (Experten beurteilen die Validität des Tests)
  - Bei der externen Validierung bezieht man sich auf ein Außenkriterium.
    - Kriteriumsbezogene Validität: der Test wird mit einem Referenzstandard in Beziehung gesetzt, d. h. mit einem Merkmal, von dem man glaubt, dass es mit dem zu messenden Merkmal stark zusammenhängt ("Goldstandard").
      Konkurrente Validität (das zu messende Kriterium liegt in der Gegenwart)
      
      Prädikative/prognostische Validität (das zu messende Kriterium liegt in der Zukunft, s. u.)
    - Konstruktvalidität: der fragliche Test wird auf einen anderen Test bezogen.
      - Divergente/diskriminante Validität: Vergleich mit Indikatoren eines anderen Konstrukts, um die Unabhängigkeit eines Tests zu prüfen (z. B. wie unabhängig ein Intelligenztest von einem Prüfungsangst-Test ist).
  - Unter "Änderungssensitivität" versteht man die Fähigkeit des Tests, Veränderungen (z. B. im Krankheitsverlauf) zu erfassen.
- Validität von Aussagen über Kausalzusammenhänge:
  - Interne Validität: die Änderung der abhängigen Variable ist eindeutig auf die Änderung der unabhängigen Variable zurückzuführen; Ergebnisse und ihre Konsequenzen sind für die Stichprobe korrekt.
  - Externe Validität: die Ergebnisse, die in der untersuchten Population gefunden worden sind, lassen sich auf größere (Teil-)Populationen übertragen.

Merke: Gute Tests erfüllen die Kriterien der Objektivität (Kontextunabhängigkeit), Reliabilität (Genauigkeit, Zuverlässigkeit) und Validität (Gültigkeit).

Testergebnisse weisen Streuungen auf und können durch bestimmte psychische Dispositionen der Versuchspersonen verfälscht werden. Derartige Messfehler muss man einkalkulieren:

Der Standardmessfehler ergibt sich aus der Streuung des zufälligen Fehlers, der auf inter- und intraindividueller Variabilität beruht (vgl. systematischer Messfehler).
- Es lässt sich ein Vertrauensbereich (Konfidenzintervall) berechnen, in dem der wahre Wert sehr wahrscheinlich liegt; Unterschiede bei Testergebnissen sind erst dann "richtige" Unterschiede, wenn sie das Konfidenzintervall übersteigen. Je kleiner das Konfidenzintervall, desto geringer ist der Standardmessfehler.
- Der Standardmessfehler wird reduziert, indem man entweder mehr Items hinzunimmt (→ Vergrößerung von n; Gesetz der großen Zahlen) oder Stichprobenteilnehmer selektiert oder die Stichprobe stratifiziert (→ Verkleinerung der Standardabweichung).
Antworttendenzen können dazu führen, dass der Proband etwas anderes sagt als er eigentlich meint:
- Soziale Erwünschtheit: der Proband sagt das, was erwartet wird (Abhilfe: Abschätzung mittels einer in den Test integrierten Lügenskala).
- Ja-sage-Tendenz (Abhilfe: 50 % der Fragen negativ [d. h. als "Nicht"-Aussagen] formulieren)
- Tendenz zur Mitte (Abhilfe: gerade Anzahl von Auswahlmöglichkeiten)

Tests sollten auch ökonomisch gestaltet sein. Sie sollten zum einen eine möglichst große Reliabilität und Validität bei möglichst wenigen Items gewährleisten; jedoch erhöht sich die Reliabilität, je mehr Items man verwendet. Zum anderen sollten Tests auch leicht auszuwerten sein.

Weblinks: Itemanalyse, Trennschärfe, Normierung, Objektivität, Reliabilität, Validität, Standardmessfehler, Operationalisierung, Soziale Erwünschtheit

Selbsttest:

Definieren Sie kurz die Begriffe "Objektivität", "Reliabilität" und "Validität" im Hinblick auf Messinstrumente/Tests.
Ist ein Schulaufsatz im Fach Deutsch objektiv, reliabel und valide? Und wie sieht es mit dem schriftlichen Physikum hinsichtlich dieser Kriterien aus?
Was bedeutet "externe Validität", was "interne Validität"?
Was ist ein Konfidenzintervall?
Welche psychischen Dispositionen des Probanden können eine Messung verfälschen?

Antwortvorschläge

Objektivität: Unabhängigkeit vom Kontext (Situation, Testleiter); Reliabilität: Zuverlässigkeit, Genauigkeit, Reproduzierbarkeit des Testergebnisses; Validität: Gültigkeit, enger Bezug des Tests zum zu messenden Kriterium.
Schulaufsatz: wenig objektiv (da stark von subjektiven Variablen des korrigierenden Lehrers abhängig), eher wenig reliabel (da das Ergebnis oft von Thema und Tagesform abhängt), nicht beurteilbar valide (es kommt darauf an, was ein Schulaufsatz messen soll: Fähigkeit zur richtigen Sprachverwendung und akkuraten Darstellung, kognitive Fähigkeiten, rhetorische Fähigkeiten?); Physikum: hinreichend objektiv (standardisierte Durchführung, maschinelle Auswertung), hinreichend reliabel (ähnliche Ergebnisse bei mehrfacher Durchführung verschiedener Testbatterien), nicht beurteilbar valide (was soll gemessen werden: elementares Verständnis der Grundlagenfächer, Detailwissen oder die Fähigkeit, Fragen aus alten Physika auswendig zu lernen?)
Externe Validität: Verallgemeinerbarkeit der Studienergebnisse; interne Validität: Korrektheit der Ergebnisse innerhalb der Studienstichprobe.
Bereich einer Grundgesamtheit, in dem ein bestimmter Parameter mit hoher Wahrscheinlichkeit (1 – α; z. B. 95 %) liegt.
Soziale Erwünschtheit, Ja-sage-Tendenz, Tendenz zur Mitte.

Die Messung von Merkmalen hat einen standardisierten Ablauf: Planung der Studie, Stichprobenbildung, Datengewinnung, Auswertung

Planung

Am Anfang einer Messung steht die Planung, d. h. die Entscheidung, welches Studiendesign man verwendet. Diese Designs sind dabei nicht gleichwertig, sondern lassen sich hinsichtlich ihrer internen Validität in eine Hierarchie bringen, wobei die randomisierte kontrollierte Studie (RCT) an der Spitze dieser Hierarchie steht.

Arten von Studiendesigns

Experimentelle Studiendesigns:

Experiment
- Definition: ein Experiment ist gekennzeichnet durch planmäßige Beeinflussung einer Situation und Überprüfung der Wirkungen.
- Voraussetzungen für ein Experiment:
  - Wiederholbarkeit
  - Kausalanalyse
  - Kontrolle der Bedingungen
Die Randomisierte kontrollierte Studie (RCT [randomized controlled trial], Interventionsstudie, klinisch kontrollierte Studie mit experimentellem Design) gilt als "Prototyp" einer experimentellen Studie und ist am besten geeignet, um die Wirksamkeit einer Maßnahme zu prüfen. Sie wird im Folgenden daher näher erläutert.
- Die Studie nennt sich "kontrolliert", weil der Experimentalgruppe (EG; Intervention) eine strukturgleiche Kontrollgruppe (KG; ohne Intervention) gegenübersteht und somit ungeplante Einflussfaktoren kontrolliert werden (z. B. Spontanremission im natürlichen Krankheitsverlauf, Plazebo-Effekt, Effekte von anderen Behandlungen, statistische Regression zur Mitte).
- Die Studie nennt sich "randomisiert", weil die Verteilung der Probanden auf EG und KG zufällig erfolgt; ein Sonderfall ist die Blockrandomisierung (Zufallsverteilung innerhalb eines definierten Blocks).
- Für die RCT gelten diverse Postulate:
  - Jede RCT muss von einer Ethikkommission genehmigt werden.
  - EG und KG müssen äquivalent sein: die Gruppen müssen strukturell gleich zusammengesetzt sein, um personenbezogene Einflussfaktoren (Alter, Geschlecht, Schicht, Motivation, unbekannte Faktoren) auf das Ergebnis gleichmäßig zu verteilen. Dies lässt sich erreichen mittels Randomisierung (muss unvorhersehbar sein; externe/zentrale Randomisierung, um Fälschungsversuche des Forschers zu vermeiden) und Parallelisierung (je einem Mitglied der KG steht ein Mitglied der EG mit gleichen Merkmalen gegenüber).
  - Bei mehrmaliger Messung gleicher Versuchspersonen sollte man Verzerrungen aufgrund der Testreihenfolge vermeiden, und zwar mittels Ausbalancieren (Variieren der Reihenfolge).

Nichtexperimentelle Designs: naturalistische Studien, Beobachtungs-Studien

Quasiexperimentelle Designs: Rückgriff auf eine vorhandene Vergleichsgruppe (d. h. es findet keine Randomisierung statt)

Merke: Kausale Zusammenhänge (z. B. Wirkungsnachweise) lassen sich am besten mit Hilfe der randomisierten kontrollierten Studie prüfen. Sie ist die "Königin" unter den Studien.

Hierarchie der Studiendesigns

Die Studiendesigns lassen sich hinsichtlich ihrer internen Validität in aufsteigender Folge anordnen:

Ex-post-facto-Studie: nachträgliche Erklärung vorliegender Daten
Querschnittsstudie: Zu einem Zeitpunkt T werden alle interessierenden Daten erhoben; dadurch lassen sich die Häufigkeit eines Merkmals und Korrelationen zwischen Merkmalen ermitteln.
Einzelfallstudie: qualitative/quantitative Analyse von Einzelfällen
Evaluationsstudie
Ein-Gruppen-Prä-Post-Design: zur Beschreibung von Veränderungen, die im Verlauf einer Intervention auftreten (keine Kausalität!)
Fall-Kontroll-Studie (deskriptiv, analytisch): Vergleich jedes "Falls" aus der Experimentalgruppe mit einem passenden (gematchten) "Nichtfall" aus der zur Experimentalgruppe möglichst strukturgleichen Kontrollgruppe.
- Prinzip: "Fälle" (haben Merkmal) und "Nichtfälle" (haben Merkmal nicht) werden retrospektiv nach Risikofaktoren befragt – man geht also vom Diagnosestatus zum Expositionsstatus; als Kennziffer dient die Odds Ratio: $Odds\ Ratio={\frac {\frac {Exponierte_{F}}{Nichtexponierte_{F}}}{\frac {Exponierte_{N}}{Nichtexponierte_{N}}}}$ Die Odds Ratio ist ein Chancenverhältnis, d. h. das Verhältnis der "Chance", bei Exposition (z. B. Rauchen) zum Fall zu werden (z. B. Lungenkrebs zu bekommen), zur "Chance" bei fehlender Exposition zum Fall zu werden. Ist die Odds ratio größer oder kleiner als 1, so besteht ein Chancen-Ungleichgewicht, beträgt sie hingegen 1 (oder beinhaltet das Konfidenzintervall die 1), so besteht kein Zusammenhang zwischen dem Fall-Merkmal und dem Expositionsstatus.
- Fehlerquellen: Wahl der Kontrollgruppe, selektive Erinnerung (recall bias, d. h. künstliche Assoziation zwischen Risikofaktor und Erkrankung)


	Exponierte	Nichtexponierte
Fälle (F)	Exponierte_F	Nichtexponierte_F
Nichtfälle (N)	Exponierte_N	Nichtexponierte_N

Kohortenstudie (prospektiv, longitudinal): Eine Untersuchungsgruppe (Kohorte, d. h. Gruppe von Personen mit gemeinsamem Merkmal) mit Mitgliedern, deren Expositionsstatus bekannt ist, wird prospektiv (daher kein recall bias!) über einen längeren Zeitraum beobachtet, um den Zeitpunkt herauszufinden, an dem ein bestimmtes Ereignis (Krankheit, Tod) eintritt. Es wird also die Inzidenz eines Ereignisses ermittelt, durch Bezug auf den Expositionsstatus lassen sich dann verschiedene Risikokennziffern berechnen.
- Methode:
  1. Erfassen von Risikofaktoren der Kohorten-Mitglieder,
  2. Abwarten, bis Erkrankung eintritt.
  3. Auswertung:
    - Kennziffern: Relatives Risiko (Risiko, z. B. an einer Krankheit zu erkranken, wenn man den Risikofaktor trägt: $Relatives\ Risiko={\frac {Risiko\ der\ exponierten\ Gruppe}{Risiko\ der\ nicht\ exponierten\ Gruppe}}$ ), Absolute Risikoreduktion (ARR; durch Ausschaltung des Risikofaktors mögliche Reduktion der Erkrankungswahrscheinlichkeit; entspricht dem attributablen Risiko), Number Needed to Treat (NNT: = 1/ARR)
    - Überlebenszeitanalyse: man erstellt eine treppenartig verlaufende Überlebenskurve, aus der sich verschiedene Überlebensraten (z. B. 5-Jahres-Überlebensrate, mediane Überlebensrate) bei gegebener Krankheit ermitteln lassen; mit Hilfe der Kaplan-Meier-Methode gelingt es dabei, zensierte Daten (Studienabbrecher, Drop-Outs) zu berücksichtigen.
- Mittels Kohortenstudien werden allerdings nur Korrelationen gemessen (Kriterien der biologischen Plausibilität [biologische Plausibilität, Chronologie, Dosis-Wirkung-Beziehung etc.] können nur auf kausale Zusammenhänge hinweisen; Confounder!); Risikofaktoren wirken als "Marker" (= prognostischer Indikator), d. h. sie lassen eine Vorhersage über das Krankheitsrisiko zu, wenn sie auch nicht unbedingt kausal wirken. Die Kohortenstudie bildet die wichtigste Alternative zur randomisierten kontrollierten Studie, deren Durchführung bei Menschen ethisch meist sehr problematisch ist.
Randomisierte kontrollierte Studie.

Merke: Bei der Fall-Kontroll-Studie geht man retrospektiv vor (Diagnosestatus → Expositionsstatus), bei der Kohortenstudie prospektiv (Expositionsstatus → Diagnosestatus).

Besondere Studienarten

Einzelfallstudie: Baseline-Erhebung → Intervention mit Messwert-Registrierung → Absetzen der Intervention und prüfen, ob Messwerte auf Niveau der Baseline zurückfallen → nochmalige Intervention mit Messwert-Registrierung; der Patient dient somit gewissermaßen als sein eigener Kontroll-Patient.

Multizentrische Studie (= gemeinsames Forschungsprojekt mehrerer Standorte).

Stichprobenauswahl

Um Merkmale einer Population zu untersuchen, wäre es sehr unökonomisch, sämtliche Mitglieder der Population zu befragen. Vielmehr bildet man eine Stichprobe, die gewissermaßen eine Miniaturausgabe der Gesamtpopulation darstellt.

Zunächst gilt es, die Grundgesamtheit festzulegen ("wen will ich überhaupt untersuchen?"), und zwar mittels Ein- und Ausschlusskriterien.
Anschließend ist eine Stichprobe zu bilden, die die Grundgesamtheit/Population möglichst gut repräsentiert.
- Je größer die Stichprobe, desto mehr ähnelt sie der Population; das Konfidenzintervall wird kleiner, Stichprobenfehler (etwa aufgrund schlechter Stichprobenauswahl) minimieren sich.
- Die Auswahl der Stichproben-Mitglieder kann mittels verschiedener Verfahren geschehen, und zwar per...
  - ...Zufall, d. h. jedes Populationsmitglied hat die gleiche Chance, in die Stichprobe zu kommen, was die Repräsentativität (= Ähnlichkeit mit der Grundgesamtheit) der Studie gewährleistet; eine Sonderform ist die geschichtete (stratifizierte) Zufallsauswahl: dabei wird die Grundgesamtheit in Untergruppen aufgeteilt, innerhalb dieser Untergruppen erfolgt dann eine Zufallsauswahl.
  - ...Konsekution, d. h. eintreffende Patienten werden nacheinander in die Stichprobe aufgenommen.
  - ...Quote, d. h. der Interviewer wählt anhand von Ein- und Ausschlusskriterien die Probanden selbst aus; hier können jedoch leicht Verzerrungseffekte auftreten.
Weitere Begriffe und Aspekte
- Quotastichprobe: die Eigenschaften der Grundgesamtheit sind bekannt, durch gezielte Auswahl von Personen anhand von zu erfüllenden Quoten (keine Randomisierung/Parallelisierung) bildet man eine Miniaturausgabe dieser Grundgesamtheit.
- Klumpenauswahl: Zusammenfassung von Gruppen zu Klumpen (z. B. Stadtteile).
- Extremgruppe: Gruppe aus Probanden mit extremer Merkmalsausprägung (± 2 Standardabweichungen).

Merke: Die Stichprobe ist eine Miniaturausgabe der zu untersuchenden Grundgesamtheit. Sie kann gewonnen werden per Zufall (ermöglicht die beste Repräsentativität der Stichprobe), Konsekution oder Quote. Bei der Quotastichprobe hingegen wird die Stichprobe durch gezielte Probandenauswahl gebildet.

Datengewinnung

Aus der Stichprobe gewinnt man nun Daten, und zwar mittels Befragung oder mittels Beobachtung.

Befragung (= Durchführen von Interviews):
- Man unterscheidet Fremdbeurteilung (externe Beobachter beschreiben Merkmale des Individuums X) und Selbstbeurteilung (Individuum X beschreibt eigene Merkmale):
  - Fremd- und Selbstbeurteilung weichen oft stark voneinander ab, wobei die Selbstbeurteilung meist günstiger ausfällt; eine Ausnahme bilden hier Beurteilungen stark subjektiv zugänglicher Merkmale wie Schmerzintensitäten.
  - Die Übereinstimmung hinsichtlich eines Merkmals ist umso größer, je besser das Merkmal von außen wahrnehmbar ist.
- Das Interview kann verschiedene Fragetypen enthalten:
  - Offene Frage (Sonderfall: Sondierungsfrage)
  - Geschlossene Frage
    - Katalogfrage (z. B. Multiple-Choice-Frage); Sonderfall: Alternativfrage ("ja oder nein")
    - Skalierungsfrage (der Proband soll eine Merkmalsausprägung auf einer Skala auswählen)
  - Suggestivfrage (legt eine bestimmte Antwort nahe und beeinflusst dadurch den Probanden)
- Oftmals sind bei den Antworten des Interviewten psychische Antworttendenzen im Spiel, die man beachten sollte, und zwar unter anderem:
  - Tendenz zur Mitte.
  - Soziale Erwünschtheit.
  - Ja-sage-Tendenz.
- Es gibt verschiedene Arten von Interviews:
  - Quantitative Verfahren (unterschiedlich stark standardisiert)
    - Unstandardisiert (nur das Thema ist vorgegeben): offenes Interview (offene Frage, die Antwort ist allein vom Antwortenden abhängig)
    - Standardisiert:
      - Strukturiertes Interview: die Fragen und oft auch die Antwortmöglichkeiten sind vorgegeben; dies garantiert eine leichte Auswertung, ist jedoch mit einer starken Einengung auf spezifische Themen verbunden.
  - Qualitative (= hermeneutische) Verfahren:
    - Biografisches Interview (→ individuelle Lebensgeschichte)
    - Tiefeninterview (→ Psychoanalyse)
- Der Interviewer bestimmt den Interviewstil dadurch, dass er dem Interviewten wenig (direktiv) oder viel (nondirektiv) Gestaltungsspielraum lässt:
  - Direktiv: der Interviewer, der klar strukturierte Konzepte und Ziele verfolgt, bestimmt Interviewablauf; auf klare Fragen (v. a. geschlossene Fragen) folgen klare Antworten.
  - Nondirektiv: der Interviewte erhält stärkeren Einfluss; dieser Stil ist gekennzeichnet durch offene Fragen (als Anregung zum Nachdenken), Empathie und Rückmeldung des Interviewers.
- Die erhobenen Daten lassen sich nach unterschiedlichen Kriterien klassifizieren:
  - Primärdaten (nur für Studie X erhoben), Sekundärdaten (bei einer anderen Studie Y erhoben, aber für Studie Z verwendet; haben eine geringe Aussagekraft, weil evtl. Confounder in der früheren Studie nicht erfasst worden sind).
  - Individualdaten (Daten über ein einzelnes Individuum), Aggregatdaten (Zusammenfassung von Daten mehrerer Individuen; ökologische Studien: aggregierte Daten aus großen Gebieten); ein Aggregat ist eine Gruppe von Individuen, die ein gemeinsames Merkmal besitzen, aber nicht miteinander in Kontakt treten können.
  - Selbstbeurteilung, Fremdbeurteilung
Beobachtung:
- Systematische Beobachtungen haben festgelegte Rahmenbedingungen, ein festgelegtes Beobachtungssystem (Zeichensystem oder Kategoriensystem) und festgelegte Beobachtungskriterien (d. h. es ist festgelegt, was beobachtet wird und wie es eingeordnet wird); eine hohe Interrater-Übereinstimmung lässt sich durch Training der Beobachter erreichen.
- Teilnehmende Beobachtung: der Beobachter begibt sich in die zu beobachtende Situation hinein; diese Art der Beobachtung ist weniger standardisiert
Feldstudie: Studie, bei der der Proband in seinem Umfeld beobachtet wird ohne es zu wissen

Merke: Sekundärdaten sind Daten, die ursprünglich zu einem anderen Zweck als der Studie erhoben worden sind.

Auswertung

Um aus den gewonnenen Daten Erkenntnisse zu gewinnen, müssen sie ausgewertet werden. Quantitative Daten kann man direkt auswerten, qualitative Daten müssen erst in quantitative Daten transformiert werden.

Quantitative Auswertung

Im Rahmen der deskriptiven Statistik werden die individuellen Daten zusammengefasst und in charakteristischen Kennwerten repräsentiert; man stellt also dar, wie die Verhältnisse innerhalb der Stichprobe beschaffen sind.

Balkendiagramm und Boxplot zu einer schiefen Verteilung. Gerade Boxplots werden in wissenschaftlichen Artikeln gerne verwendet, weil man aus ihnen viele Informationen herauslesen kann - wenn man weiß, wie sie zu lesen sind. Folgende Informationen sind mit Hilfe des Boxplots sofort erfassbar: Maximum und Minimum sowie Spannweite, die drei Quartile mit dem Interquartilsbereich (Kasten), Median und arithmetischer Mittelwert, Ausreißer. Bei symmetrischen Verteilungen stimmen zudem Median und arithmetischer Mittelwert überein, bei schiefen Verteilungen tun sie dies nicht.


Mittelwerte der Standardnormen
Skala	Mittelwert
z	0
Z	100
C (Stanine)	5
Prozentrang	0,5

Verteilungsformen von Dichtefunktionen. Oben ist eine symmetrische Verteilung (Gauß-Verteilung) dargestellt, unten eine (links-)schiefe Verteilung.

Univariate Analyse: jede einzelne Variable wird für sich analysiert.
- Formen der Verteilung von Merkmalsausprägungen:
  - Schief
  - Symmetrisch (= normalverteilt): glockenförmige Dichtekurve mit asymptotischer Annäherung der Randwerte an die x-Achse, zwischen den beiden Wendepunkten liegen 2/3 der Gesamtfläche; jede normalverteilte Zufallsvariable ist mittels der z-Transformation in eine Standardnormalverteilung (Mittelwert = 0, Varianz = 1) umwandelbar – unterschiedliche Stichproben lassen sich somit vergleichen. Normalverteilt sind Mittelwerte (auch bei schief verteilter Grundgesamtheit), Zufallsvariablen (bei vielen unabhängigen Einflüssen) und Summen von vielen Zufallsvariablen (zentraler Grenzwertsatz).
- Aussagen über Abweichungen von der Vergleichspopulation sind möglich mittels z-Transformation, T-Werten, Staninen, Prozenträngen (Rangperzentile; auch bei schiefer Verteilung möglich!).
Bivariate Analyse: man analysiert, wie stark zwei Variablen miteinander zusammenhängen, man ermittelt also das Ausmaß der Korrelation zweier Variablen; man beachte, dass sich dabei nur Korrelationen und nicht Kausalzusammenhänge ermitteln lassen, denn Kausalzusammenhänge kann man nur mittels einer Kausalanalyse anhand des Untersuchungsdesigns feststellen.
- Ein erster Eindruck hinsichtlich der Korrelation lässt sich anhand der Punktewolke gewinnen.
- Durch die Regressionsanalyse lässt sich das Bestimmtheitsmaß (Determinationskoeffizient) berechnen. Es sagt aus, wie viel Prozent der Varianz einer Variable durch die andere Variable determiniert wird, und beträgt das Quadrat des Korrelationskoeffizienten, d. h. Bestimmtheitsmaß = r². Das Bestimmtheitsmaß ergibt sich aus dem Quotienten der durch die Regressionsanalyse ermittelten erklärten Varianz und der Gesamtvarianz (= erklärte Varianz + Varianz der Residuen [Residuen = Abweichungen der tatsächlichen Werte der Punktewolke von den durch die Regressionsgerade vorhergesagten Werten]), d. h. $r^{2}={\frac {\text{erklaerte Varianz}}{{\text{erklaerte Varianz}}+{\text{Varianz der Residuen}}}}$
Multivariate Analyse: man analysiert, wie mehr als zwei Variablen zusammenhängen (multivariat: mehrere abhängige Variablen; multivariabel: mehrere unabhängige Variablen).
- Multiple Regressionsanalyse
- Clusteranalyse

Merke: Die deskriptive Statistik macht lediglich Stichproben-interne Aussagen. Dabei kann jede Variable für sich analysiert werden (univariate Analyse: Eigenschaften der Verteilung von Merkmalsausprägungen) oder der Zusammenhang zweier (bivariate Analyse: Korrelationskoeffizienten, Regressionsanalyse) oder mehrerer Variablen (multivariate Analyse).

Bei der induktiven Statistik (schließende, analytische, beurteilende Statistik) setzt man die Stichprobe mit der Grundgesamtheit in Beziehung, d. h. man extrapoliert die Erkenntnisse aus der Stichprobe auf die ihr zugrundeliegende Population.

Schätzverfahren: anhand der Stichprobe lassen sich Werte der Grundgesamtheit schätzen.
- Punktschätzung: ein Parameter der Grundgesamtheit (z. B. Erwartungswert) wird durch einen Stichprobenwert (z. B. arithmetischer Mittelwert) geschätzt.
  - Hierbei gelten folgende Postulate:
    - Erwartungstreue: der Durchschnitt aller möglichen Schätzwerte stimmt mit dem gesuchten Parameter der Grundgesamtheit überein.
    - Konsistenz: die Varianz der Schätzfunktion (Schätzer; Funktion zur Berechnung des unbekannten Parameters) geht bei großen Stichproben gegen 0.
    - Effizienz: auch bei kleinen Stichproben ist die Varianz des Schätzers klein.
    - Exhaustivität: zur Schätzung werden alle Informationen der Stichprobe berücksichtigt.
  - Mittels bestimmter Schätzfunktionen lassen sich aus der Stichprobe gewisse Parameter der Grundgesamtheit näherungsweise errechnen: Erwartungswert (entspricht dem arithmetischen Mittelwert der Stichprobe), Median, Varianz, Kovarianz, relative Häufigkeit etc.
    - Auch die erwähnten statistischen Kenngrößen sind zufällig verteilt, und zwar in Form von Prüfverteilungen mit charakteristischen Dichtefunktionen (z. B. t-Verteilung, χ²-Verteilung, F-Verteilung).
- Intervallschätzung: Mit Hilfe der Stichprobenkenngrößen (und der Kenntnis ihrer Verteilung) lässt sich ein Konfidenzintervall (Vertrauensbereich) für die Grundgesamtheit errechnen, in welchem ein bestimmter Parameter mit einer hohen Wahrscheinlichkeit enthalten ist, und zwar mit der Wahrscheinlichkeit 1 – α (d. h. mit der Irrtumswahrscheinlichkeit α liegt der gesuchte Parameter nicht in dem Konfidenzintervall); je schmaler dieses Intervall ist, desto genauer ist die Schätzung. Die Breite des Konfidenzintervalls hängt dabei ab von der Irrtumswahrscheinlichkeit α, der Standardabweichung SD sowie dem Stichprobenumfang n.
  - Konfidenzintervalle für einen Erwartungswert: mittels aufwändiger Formeln lassen sich die Grenzen dieses Konfidenzintervalls angeben, wobei endliche Grundgesamtheiten eine Endlichkeitskorrektur erforderlich machen.
  - Konfidenzintervalle für Korrelationsmaße: für die Korrelationskoeffizienten nach PEARSON und SPEARMAN sowie für die Steigung der Regressionsgeraden.
Hypothesenprüfung:
- Signifikanzprüfung mittels statistischer Tests: "Sind die ermittelten Unterschiede überhaupt signifikant?"
  - Tests für Zusammenhangshypothesen: Prüfung, ob Korrelationskoeffizienten ungleich 0 sind.
  - Tests für Unterschiedshypothesen: Vergleich zweier (oder von mehr als zwei) Gruppen (z. B. Experimental- und Kontrollgruppe) hinsichtlich einer (stetigen) Variable, ob sich ihre Mittelwerte signifikant voneinander unterscheiden, oder Vergleich des Mittelwerts einer Gruppe mit einem vorgegebenen Sollwert. Je nach Stichprobenzahl und -art sowie abhängig von der Art des Merkmals und Verteilung seiner Ausprägungen verwendet man unterschiedliche Tests, welche die algorithmische Berechnung einer Prüfgröße erlauben, die dann mit einem bestimmten kritischen Wert verglichen wird, so dass sich die Signifikanz des Unterschieds feststellen lässt.
- Effektstärke-Prüfung: "Wie groß sind die Unterschiede?"
  - Maß der Effektstärke: Cohens d (d = 0,2 → kleiner Effekt, d = 0,5 → mittlerer Effekt, d = 0,8 → starker Effekt)
  - Beurteilung von Signifikanz und Effektgröße eines Mittelwertsunterschieds durch Angabe eines 95-%-Konfidenzintervalls


Stichprobenzahl und -art		Merkmalseigenschaften
		Quantitativ (intervallskaliert)		Qualitativ oder dichotom
		Normalverteilung	Unbekannte Verteilung	Qualitativ oder dichotom
1		t-Test für 1 Stichprobe		Binomialtest
2	verbunden (Wertepaare)	t-Test für 2 verbundene Stichproben	Wilcoxon-Test	McNemar-Test
2	unverbunden	t-Test für 2 unverbundene Stichproben	U-Test (Mann, Whitney, Wilcoxon)	χ²-Test, Exakter Test nach Fisher
> 2	verbunden	Varianzanalyse mit Messwiederholungen	Friedman-Rangvarianzanalyse
> 2	unverbunden	1-faktorielle Varianzanalyse	Kruskal-Wallis-Test

Erläuterung der Tests:

t-Test: Vergleich von Mittelwert mit Sollwert bzw. von zwei Erwartungswerten

Wilcoxon-Test: Vergleich von Median der Grundgesamtheit mit Sollwert bzw. Vergleich von zwei Medianen

U-Test: Alternative zum t-Test für zwei unverbundene Stichproben

Binomialtest: Vergleich der relativen Häufigkeit einer Merkmalsausprägung mit einer vorgegebenen Wahrscheinlichkeit

McNemar-Test: Vergleich zweier verbundener Stichproben hinsichtlich eines Alternativmerkmals

χ²: Vergleich von beobachteten Häufigkeiten mit erwarteten Häufigkeiten

Exakter Test nach Fisher: direkte Berechnung des p-Werts, für Kontingenztafeln beliebiger Größe anwendbar

Logrank-Test: Vergleich der Überlebensfunktionen zweier unverbundener Stichproben; hierbei wird die Differenzfläche zwischen den beiden Überlebensfunktionen gemessen

1-faktorielle Varianzanalyse: Erweiterung des t-Tests

Varianzanalyse mit Messwiederholungen: wie t-Test, allerdings können mehr als zwei Zeitpunkte verglichen werden

Friedman-Rangvarianzanalyse: Verallgemeinerung des Wilcoxon-Tests

Kruskal-Wallis-Test: Erweiterung des U-Tests

Merke: Bei der induktiven Statistik bezieht man die Ergebnisse aus der Stichprobe auf die Grundgesamtheit. Dabei werden Verfahren zur Schätzung (Punktschätzung, Intervallschätzung) sowie Methoden zur Signifikanzprüfung von Unterschieden (statistische Tests) relevant.

Auswertung von nicht quantitativen Daten

Qualitative Daten können in quantitative Daten transformiert werden, d. h. man ordnet bestimmte Merkmalsausprägungen einer bestimmten Kategorie zu und bestimmt ihr Ausmaß.

Inhaltsanalyse: z. B. Dokumentenanalyse
- Kategorien finden und prüfen: induktives Auffinden von Kategorien (Einteilungsschemata), dann deduktives Überprüfen des Kategorien-Katalogs an anderen Interviewtexten
- Kategorien ausarbeiten: Definition der Kategorie, Musterbeispiel, Kodierregeln (zur Anwendbarkeit bei Zweifelsfällen)
- Analyse-Methoden:
  - Frequenzanalyse ("wie häufig kommen bestimmte formale/inhaltliche Elemente vor?")
  - Valenzanalyse ("wie bewertet der Interviewte die Inhalte?")

Tiefeninterviews (offenes qualitatives Interview, das auch Unbewusstes zutage fördern soll):
- Soziometrie (dient dazu, die informelle Struktur einer Gruppe herausfinden): jedes Gruppenmitglied bewertet alle anderen hinsichtlich einer bestimmten Fragestellung, wodurch sich ein Soziogramm bilden lässt.

Weblinks: Randomisierte kontrollierte Studie, Fall-Kontroll-Studie, Odds ratio, Kohortenstudie, Stichprobe, Quotastichprobe, Fragetypen, Primärdaten, Sekundärdaten, Aggregatdaten, Deskriptive Statistik, Korrelationskoeffizient, Arithmetischer Mittelwert, Median, Modus, Standardabweichung, Varianz, Regressionsanalyse, Bestimmtheitsmaß, Induktive Statistik, Punktschätzung, Intervallschätzung, Konfidenzintervall, Statistischer Test, Effektstärke

Selbsttest:

Was bedeuten die Worte "randomisiert" und "kontrolliert" bei der randomisierten kontrollierten Studie? Erläutern Sie das Grundprinzip dieses Studientyps!
Erklären Sie die Methodik der Kohortenstudie am Beispiel Raucher – Nichtraucher – Diagnose Lungenkrebs!
Was sind die Vorteile und was die Nachteile einer großen Stichprobe (großes n)?
Was sind Sekundärdaten, was Aggregatdaten?
Im Rahmen einer (fiktiven) bivariaten Analyse wurde der Zusammenhang zwischen dem Merkmal "Körpergröße" und dem Merkmal "Schuhgröße" analysiert. Man fand einen PEARSONschen Korrelationskoeffizienten von r = +0,7. Was bedeutet dies?
Eine andere (fiktive) Analyse ergab r = –0,5 für die Merkmale "Intelligenz" und "Lesen von Comics". Was sagt dies aus?

Antwortvorschläge

Randomisiert: zufällige Zuordnung zur Experimental- (EG) oder Kontrollgruppe (KG); kontrolliert: Kontrolle von Einflussfaktoren durch Hinzunahme einer KG (weil sich die EG mit der KG vergleichen lässt, kann man bestimmte Einflussfaktoren, die auf beide Gruppen wirken, und die ohne KG als tatsächlicher Effekt missgedeutet würden [z. B. Placeboeffekt, statistische Regression zur Mitte], richtig einschätzen). Die Probanden werden also zufällig auf EG und KG verteilt (wobei weder Probanden noch Versuchsleiter über die Verteilung bescheid wissen [doppelte Verblindung]) und erfahren eine Behandlung mit einem zu testenden Medikament (EG) oder einem Placebo (KG). Möglicherweise stellen sich dann Unterschiede zwischen beiden Gruppen hinsichtlich eines Merkmals ein, die dann ausgewertet und interpretiert werden müssen.
In der Kohorte befinden sich sowohl Raucher (Exponierte, tragen den Risikofaktor) als auch Nichtraucher (Nichtexponierte). Nun beobachtet man die Kohorte und prüft, wann im Beobachtungszeitraum die Diagnose Lungenkrebs (Ereignis) gestellt wird; man erhält dadurch je nach Expositionsstatus andere Häufigkeiten, aus denen sich zunächst Erkrankungswahrscheinlichkeiten und anschließend verschiedene Risikokennziffern berechnen lasen.
Vorteile: kleineres Konfidenzintervall, größere Genauigkeit der Schätzung. Nachteil: bei zu großem n werden auch kleine Unterschiede signifikant, die praktisch mitunter gar nicht relevant sind.
Sekundärdaten: Daten, die ursprünglich zu einem anderen Zweck erhoben worden sind und nun für die Studie verwendet werden. Aggregatdaten: Daten, die aus der Zusammenfassung von Daten mehrerer Individuen hervorgehen.
Je größer ein Mensch, desto größere Schuhe trägt er; je größere Schuhe ein Mensch trägt, desto größer ist er (sehr starker Zusammenhang).
Intelligente Leute lesen weniger Comics; wer viele Comics liest, ist weniger intelligent (starker Zusammenhang).

Ein guter Test erfüllt bestimmte Qualitätsstandards und berücksichtigt ökonomische und ethische Aspekte

Die Güte eines Tests lässt sich anhand bestimmter Kriterien feststellen. So genügt ein guter Test bestimmten Qualitätsstandards:

Replizierbarkeit, d. h. Ergebnisse sollen durch Wiederholbarkeit überprüft werden können.

Übertragbarkeit (Generalisierbarkeit) auf andere Situationen, Populationen, Interventionen; dies ist abhängig von Datenmenge, Datenqualität und Fragestellung; in der Praxis geht man pragmatisch vor: zunächst erfolgt der Nachweis der Efficacy (= Wirksamkeit unter Idealbedingungen, Treatment-Integrität), dann der Nachweis der Effectiveness (= Wirksamkeit unter Praxisbedingungen); je höher Effectiveness, desto höher ist die externe Validität.

Immanuel Kant. * 1724, † 1804, "Kritik der reinen Vernunft" (1781), "Kritik der praktischen Vernunft" (1788), "Zum ewigen Frieden" (1795).

Gute Tests berücksichtigen auch ökonomische und ethische Implikationen:

Gesundheitsökonomie: Mittels Kosten-Wirksamkeits-Analysen wird die Effizienz bestimmt; im Gegensatz zur Effektivität, die nur die Wirksamkeit betrachtet, setzt die Effizienz Wirksamkeit ins Verhältnis zu den Kosten (direkte, indirekte [z. B. Produktionsausfall wegen Krankheit], intangible Kosten ["psychologische Kosten"]); man unterscheidet dabei technische Effizienz (maximale Wirksamkeit bei gegebenen Kosten) und Kosteneffizienz (minimale Kosten bei gegebener Wirksamkeit).
- Kosten-Nutzen-Analyse: Kosten und Nutzen werden monetär bewertet und dann miteinander verglichen.
- Kosten-Effektivitäts-Analyse: die Kosten werden monetär, der Nutzen nicht monetär bewertet (Werturteilsfrage: wofür soll man das Geld ausgeben?).
- Kosten-Nutzwert-Analyse: wie Kosten-Effektivitäts-Analyse, aber der Nutzen einer Maßnahmen wird durch Rekurs auf einen gemeinsamen Maßstab (z. B. QUALY) mit dem Nutzen einer anderen Maßnahme vergleichbar gemacht.

Ethische Aspekte:
- Zukunftsethik: auf die Zukunft ausgerichtet (vgl. "nach mir die Sintflut")

Weblinks: Effektivität, Effizienz, Evectiveness, Utilitarismus, Deontologische Ethik, Immanuel Kant, Verantwortungsethik

Zusammenfassung

Die Psychologie möchte das Wissen über (hauptsächlich) menschliches Erleben und Verhalten mehren. Dabei geht sie wie jede andere echte Wissenschaft vor: aus Theorien werden prinzipiell falsifizierbare Hypothesen abgeleitet und an der Realität getestet. Da es sich bei den Untersuchungsgegenständen der Psychologie um Konstrukte handelt, also um nicht direkt messbare Entitäten, sind besondere Verfahrensweisen nötig (Operationalisierung). Zudem macht die Psychologie meist probabilistische Aussagen, die nur auf Gesamtheiten von Individuen anwendbar sind. Die Hypothesen müssen daher einem statistischen Test unterzogen werden und sollten eine bestimmte Irrtumswahrscheinlichkeit nicht überschreiten.

Den zu messenden Variablen muss gemäß eines Kalküls je ein Wert zugeordnet werden (Skalierung). Die Variablen ihrerseits besitzen gewisse Eigenschaften, die durch Skalen darstellbar sind. Diese Skalen unterscheiden sich hinsichtlich ihres Niveaus, wobei umso komplexere Rechenoperationen erlaubt sind, je höher das Skalenniveau ist.

Gute Tests zeichnen sich durch verschiedene Faktoren aus: mittelschwere Items mit ausreichender Trennschärfe, Eichung anhand einer Normstichprobe, ein hohes Maß an Objektivität (Unabhängigkeit von den Testbedingungen), Reliabilität (Zuverlässigkeit, Wiederholbarkeit), Validität (Beziehung zum zu messenden Merkmal), Kontrolle von vorhersehbaren Messfehlern wie etwa Antworttendenzen des Probanden sowie leichte Durchführbarkeit.

In der Praxis steht am Beginn einer Studie die Auswahl des Studiendesigns. Dabei unterscheiden sich die Studiendesigns hinsichtlich ihrer internen Validität – die randomisierte kontrollierte Studie gilt als das beste aller Studiendesigns, wenngleich ihre Durchführung recht aufwändig ist (Kontrollgruppe, Randomisierung etc.). Mittels Befragung oder Beobachtung gewinnt man Daten über die Probanden. Diese Daten werden anschließend ausgewertet, wobei man jede einzelne Variable für sich (univariate Analyse) oder den Zusammenhang zwischen mehreren Variablen untersuchen kann (bivariate oder multivariate Analyse). Eine Studie kann dann als nützlich gelten, wenn sie von anderen Forschergruppen repliziert werden kann und in der Praxis anwendbar ist. Eine gute Studienplanung berücksichtigt zudem ökonomische und ethische Aspekte.

Wichtige Prüfungsthemen (alphabetisch geordnet, näher erläutert im Glossar): Fall-Kontroll-Studie, Fehler 1. und 2. Art, Fragetypen, Hypothese, Individual- und Aggregatdaten, Kohortenstudie, Konstrukt, Korrelationskoeffizient, Messfehler, Operationalisierung, Primär- und Sekundärdaten, Randomisierte kontrollierte Studie, Skalenniveaus, Skalierung, Standardabweichung, Statistischer Test, Stichprobenbildung, Testgütekriterien (Objektivität, Reliabilität, Validität)

Zurück zu Gesundheits- und Krankheitsmodelle

Hoch zum Inhaltsverzeichnis

Vor zu Theoretisch-psychologische Grundlagen