Die Verwechslung von Null- und Alternativhypothese
Die Hypothese, dass Unterschiede bestehen, formuliert er aufgrund des Designs fälschlicherweise als Alternativhypothese. Die, dass keine Unterschiede bestehen, als Nullhypothese. Die Nullhypothese kann hier also als Wunschhypothese des Forschers angesehen werden. Die statistische Prüfung auf signifikante Unterschiede soll nun möglichst ein nicht signifikantes Ergebnis zeigen, um die Gleichwertigkeit der beiden Behandlungen zu belegen.
Die Signifikanzprüfung in unserem Beispiel
In unserem kleinen Beispiel handelt es sich bei der Zielgröße um eine metrische Variable, die in der Population normalverteilt ist. Somit wäre in diesem Fall der T-Test für unabhängige Stichproben das Verfahren der Wahl (so denn alle Voraussetzungen erfüllt sind). Es sei angemerkt, dass eine einfaktorielle ANOVA hier zum gleichen Ergebnis kommen würde und in der Praxis die Auswertung sicher auch komplexer wäre.
Die konkrete Auswertung ergäbe nun bei einem α-Niveau von .05 (entspricht 5 % Irrtumswahrscheinlichkeit) einen empirischen p-Wert von .06. Der Forscher kann nun – der methodischen Konvention folgend – die Alternativhypothese nicht annehmen und muss die Nullhypothese beibehalten, da die empirische Signifikanz über dem Wert von .05 liegt. Somit kann unser Forscher sich nun entspannt zurücklehnen und freut sich über die vermeintliche Bestätigung seiner Hypothese. Leider ist seine Schlussfolgerung methodisch falsch und mit diesem Fehler steht er nicht allein da, denn er wird in der empirischen Arbeit immer wieder gemacht.
Die Erklärung
Warum falsch? Nun, die Nichtbestätigung der Alternativhypothese, die ja Unterschiede postuliert, zieht nach sich, dass die Nullhypothese beibehalten werden muss. Hier greift nun der klassische Fehlschluss, dass die Nullhypothese richtig sein muss, wenn die Alternativhypothese nicht angenommen werden kann. Die Äquivalenz beider Gruppen – in unserem Beispiel die Gleichwertigkeit der Wirkung beider Behandlungen – ist damit aber noch nicht nachgewiesen. Unser p-Wert von .06 sagt uns lediglich, dass unser (oder ein extremeres) Ergebnis mit einer Wahrscheinlichkeit von 6 % unter Annahme der Gültigkeit der Nullhypothese auftreten würde – nicht gerade viel.
Auf der anderen Seite sagen wir, dass wir die Alternativhypothese mit einer Irrtumswahrscheinlichkeit von maximal 5 % akzeptieren, demnach wären die empirisch ermittelten 6 % noch zu viel. Wir haben ein Ergebnis, das auf Unterschiede hindeutet, aber statistisch nicht signifikant ist. In der Praxis trifft man dieses Problem recht häufig an. Gruppen werden auf Unterschiede hin untersucht, die Ergebnisse zeigen sich als statistisch nicht signifikant und man schlussfolgert, es gäbe keine Unterschiede.
Wie kann man diese Problematik nun methodisch korrekt angehen? Wichtig ist, die Wunschhypothese als Alternativhypothese zu formulieren. In unserem Beispiel würde dies heißen, dass zwischen den Behandlungen nur kleine oder unbedeutende Unterschiede bestehen, aber das weder das konventionelle noch das neue Medikament besser oder schlechter ist. Die Nullhypothese würde demnach lauten, dass Unterschiede bestehen.
Für den Bereich der Akzeptanz der Äquivalenz beider Behandlungen wird dann ein Konfidenzintervall konstruiert, das auf sachlogischen klinischen Überlegungen beruht. Wir sehen also, dass die Nullhypothese keinesfalls für Gleichheit oder Unabhängigkeit stehen muss, sondern auch dann gelten kann, wenn Unterschiede bestehen. Analog dazu kann die Alternativhypothese durchaus auch die Äquivalenz oder Gleichheit von Gruppen oder Merkmalen behaupten – so dies denn unsere Forschungshypothese ist.
Welche Interpretation ist richtig?
Wie lautet nun die Interpretation in unserem Beispiel? Korrekterweise müssten wir sagen, dass auf Grundlage unserer Untersuchung keine Unterschiede statistisch nachzuweisen sind. Zur möglichen Äquivalenz der Gruppen bezüglich der untersuchten Zielgröße ist jedoch Schweigen Gold wert, denn eines ist sicher: Die Nullhypothese ist nicht beweisbar.