FAQ: Antworten zu häufig gestellten Fragen rund um die Statistik
Im Folgenden finden Sie Fragen, die immer wieder im Laufe einer statistischen Beratung oder Analyse auftauchen. Wir hoffen, Ihnen für Ihre statistische Auswertung einige nützliche Tipps zu geben und offene Fragen zu beantworten.
Was sind die Voraussetzungen der linearen Regression?
- Additivität und Linearität: Das Modell ist linear in den Parametern und setzt sich additiv aus den Effekten zusammen. Die Prädiktoren (=unabhängige Variablen) bilden eine Linearkombination, um das Kriterium (=abhängige Variable) vorherzusagen.
- Unabhängige Residuen: Die Fälle dürfen nicht voneinander abhängig sein, wie dies oft bei Längsschnittdaten oder Cluster-Daten der Fall ist. Jeder Fall trägt im gleichen Maße zum Modell bei. Verletzungen der Annahme führen zu verzerrten Standardfehlern und somit zu falschen Inferenzstatistiken.
- Varianzhomogene Residuen: Diese Prämisse wird auch als Homoskedastizität bezeichnet und meint, dass die Varianzen der Residuen über alle Ausprägungen der geschätzten Werte (y) gleich sein sollten. Zur Überprüfung kann ein Streudiagramm eingesetzt werden, das die geschätzten Werte gegen die Residuen abträgt.
- Normalverteilte Residuen: Diese Voraussetzung kann umso mehr vernachlässigt werden, desto größer die Fallzahlen sind. Die Verteilung der Residuen sollte symmetrisch und nicht zu schief sein. In der Empirie wird man immer Abweichungen von der Normalverteilung finden, diese sollten jedoch nicht zu gravierend sein. Die Modellprämisse kann mittels eines Histogramms überprüft werden. Tests auf Normalverteilung, wie zum Beispiel der Kolmogorov-Smirnov oder Shapiro-Wilk-Test sind nicht zu empfehlen, da sie auf Verletzungen bei großen Fallzahlen zu sensitiv reagieren und bei kleinen Fallzahlen keine ausreichende Teststärke aufweisen.
- Keine zu starke Multikollinearität der unabhängigen Variablen: Wenn die Prädiktoren zu stark untereinander korrelieren, können die Regressionsgewichte (=feste Effekte) nicht mehr stabil geschätzt werden, da der Anteil an uniquer Varianz, die der Prädiktor aufklärt, nur minimal ist. Zur Prüfung der Prämisse sollte eine Korrelationsmatrix der UVs erstellt werden, als weitere Kollinearitätsstatistik kann man den Variance Inflation Factor (VIF) heranziehen. Dieser wird bei den meisten Analysepaketen (z. B. SPSS) auf Wunsch mit ausgegeben, unkritisch sind Werte < 5. Je geringer der VIF, desto besser. Alle Voraussetzungen werden auch ausführlich in diesem Video-Tutorial zur Linearen Regression besprochen.
Müssen meine Daten wirklich normalverteilt sein, um eine Varianzanalyse durchzuführen?
Nein, die Residuen müssen annähernd normalverteilt sein, nicht aber die abhängige Variable. Wenn ich davon ausgehe, dass Unterschiede zwischen Gruppen bestehen, die ich mit der Varianzanalyse nachweisen möchte, so kann ich keine Normalverteilung der abhängigen Variablen erwarten. Vergleicht man beispielsweise 3 Gruppen, die sich hinsichtlich eines Merkmals stark unterscheiden, so ist eher eine trimodale Verteilung zu erwarten, also eine Häufigkeitsverteilung, die 3 Gipfel aufweist – im Gegensatz zur Normalverteilung, die unimodal und symmetrisch ist. Entscheidend ist hingegen, dass die Residuen annähernd normalverteilt sind. Je größer allerdings die Stichprobe ist, desto mehr verliert diese Modellprämisse ihre Bedeutung durch die Wirkung des zentralen Grenzwerttheorems.
Weitere Voraussetzungen der Varianzanalyse sind die Unabhängigkeit der Messungen sowie die Homogenität der Fehlervarianzen. Letztere Prämisse wird häufig mit dem Levene-Test überprüft. Insgesamt gilt: Je höher die Fallzahlen und je balancierter das Design, desto robuster sind die Ergebnisse der Varianzanalyse. Eine zweifaktorielle Varianzanalyse wird in dem Video Tutorial zur zweifaktoriellen Varianzanalyse ausführlich besprochen.
Was bedeutet Homoskedastizität bzw. Heteroskedastizität?
Homoskedastizität steht für die Gleichheit von Varianzen der Residuen, die bei den Anwendungen des Allgemeinen Linearen Modells (ANOVA, ANCOVA, lineare Regression) besondere Bedeutung erlangt. Varianzen sind homoskedastisch, wenn die Streuung der Residuen über die Werte der unabhängigen Variablen nahezu gleichbleibt. Streuen die Werte sehr unterschiedlich und sind eventuell abhängig von der Ausprägung der UV, so spricht man von Heteroskedastizität.
Möchte man beispielsweise die monatlichen Ausgaben eines Haushaltes anhand des Nettoeinkommens vorhersagen, so kann man davon ausgehen, dass die Ausgaben bei geringen Einkommen nur wenig streuen, da wenig finanzieller Spielraum zur Verfügung steht. Liegt hingegen ein hohes Einkommen vor, so kann derjenige wenig ausgeben (er ist sehr sparsam) oder sehr viel (lebt in Saus und Braus). Die Varianz der AV – und somit auch der Residuen – ist deswegen unterschiedlich und abhängig vom Einkommen. Diagnostiziert wird Heteroskedastizität häufig mit dem Levene-Test, wobei die Alternativhypothese für Heteroskedastizität steht, die normalerweise nicht erwünscht ist. Daher sollte der Test ein möglichst nicht signifikantes Ergebnis zeigen, damit man von ausreichender (nicht vollständiger!) Varianzhomogenität ausgehen kann. Liegt Heteroskedastizität vor, so kann im Rahmen varianzanalytischer Verfahren häufig die WLS-Methode eingesetzt werden (Weighted Least Squares).
Was versteht man unter der BLUE Eigenschaft?
BLUE steht für Best Linear Unbiased Estimator und bedeutet, dass wenn alle Voraussetzungen der linearen Regression erfüllt sind, die Kleinst-Quadrate-Methode (engl. OLS) den besten linearen unverzerrten Schätzer liefert. Die Schätzungen für die wahren Parameter einer linearen Regression – meist als b bzw. standardisiert β bezeichnet – haben dann minimale Varianz. Den Beweis für BLUE liefert der Satz von Gauss und Markov. Zu unterscheiden ist BLUE von BLUP, die sich der Vorhersage von Modellen mit zufälligen Effekten widmet. Der Buchstabe P steht dann für Prediction.
Ich habe eine ANOVA mit SPSS durchgeführt. Im Output der Zwischensubjekteffekte finde ich als Quelle die Zeile „Korrigiertes Modell“, was ist damit gemeint?
Als Zahnarzt vergleiche ich mehrere Messmethoden im Rahmen einer kieferorthopädischen Studie und stoße dabei immer wieder auf die Begriffe Richtigkeit, Genauigkeit und Präzision. Was hat es damit auf sich?
Diese Begriffe werden hin und wieder synonym verwendet, obwohl sie in Wahrheit eindeutig zugeordnet werden können. Die Genauigkeit einer Messmethode oder mehrerer Messungen hängt von der Richtigkeit als auch der Präzision ab. Fangen wir mit der Präzision an: Hier geht es darum, dass wiederholte Messungen – zum Beispiel eines Raters oder die Einzelmessungen verschiedener Rater – nur sehr wenig streuen. Würden mehrere Untersucher in kurzer Abfolge einen klinischen Parameter erheben, so sollten die Messungen alle auf einem ähnlichen Niveau liegen und die Abweichungen sollten zudem klinisch irrelevant sein.
Die Präzision ist mit dem zufälligen Fehler assoziiert: Ist die Präzision hoch, so ist der zufällige Fehler gering und ebenso die Streuung der Messungen. Die Richtigkeit hingegen besagt, dass der Mittelwert mehrerer Einzelmessungen den wahren Wert möglichst gut widerspiegeln sollte. Tatsächlich ist es in der Praxis häufig der Fall, dass der wahre Wert unbekannt ist, da kein valides Kriterium zur Verfügung steht. Ist beispielsweise eine Waage nur ungenügend geeicht und zeigt – unabhängig von der Messung – immer 2 kg Körpergewicht zu viel an, so ist die Richtigkeit ungenügend ausgeprägt. Dieser Bias wird daher auch mit einem systematischen Fehler in Verbindung gebracht.
Meine Messungen können also noch so präzise sein, was in diesem Beispiel bedeuten würde, dass mehrere Messungen auf der Waage nur um einige Gramm streuen, so wird dennoch das wahre Körpergewicht nicht von der Waage angezeigt. Erst wenn Präzision und Richtigkeit hoch ausgeprägt sind, kann von einer ausreichenden Genauigkeit ausgegangen werden, sie sind daher notwendige Bedingungen. In der Statistik trennt man daher bei Reliabilitätsstudien den Fehlerterm auch in einen zufälligen und einen systematischen Anteil auf. Mehr zum Thema finden Sie auch in dem Fachbeitrag 'Reliabilität und Übereinstimmungsmaße in der Zahnheilkunde und Kieferorthopädie'.
Was heißt einseitiger und zweiseitiger Signifikanztest?
Ich studiere Soziologie und muss für meine Master-Thesis einen Fragebogen zur Familientherapie validieren. Dabei verwende ich die Faktorenanalyse, die mir eine Hauptachsenanalyse und eine Hauptkomponentenanalyse anbietet, worin besteht der Unterschied?
Streng genommen gehört nur die die Hauptachsenanalyse (engl. Principal Axis Factoring, PAF) zu den Faktorenanalysen. Bei dieser Methode werden nur die Kovarianzen aller Variablen – meist sind es die Items eines Fragebogens – analysiert, es ist also nicht unbedingt das Ziel, die vollständige Varianz der Variablen aufzuklären, sondern nur ihre gemeinsame Varianz. Das Verfahren wird in erster Linie dann eingesetzt, wenn es darum geht, latente Konstrukte oder Strukturen hinter den Variablen zu entdecken und diese „sichtbar“ zu machen. Der Anteil an Varianz einer Variablen, der nicht mit anderen Variablen kovariiert, wird also nicht berücksichtigt. Bei der Hauptkomponentenanalyse (engl. Principal Component Analysis, PCA) wird hingegen versucht, die vollständige Varianz aller Variablen mit wenigen Komponenten zu erklären. Sie wird dann eingesetzt, wenn das Ziel darin besteht, die Datenstruktur zu reduzieren.
Kurz zusammengefasst kann man formulieren, dass die Hauptachsenanalyse kovarianz- und die Hauptkomponentenanalyse varianzorientiert ist. Oft kommen jedoch beide Verfahren zu ähnlichen Ergebnissen. Die Hauptkomponentenanalyse wird häufiger eingesetzt, was vor allem daran liegt, dass sie in den gängigen statistischen Softwarepaketen die Standardeinstellung belegt, obwohl eher eine Hauptachsenanalyse angezeigt wäre. Hinzu kommt, dass oftmals eine orthogonale Rotationsmethode gewählt wird, ohne die Ergebnisse einer obliquen Rotation zu betrachten. Letztere bietet meist eine deutlich bessere Lösung und ist mit den theoretischen Überlegungen vereinbar, in diesem Fall, dass die Faktoren untereinander korrelieren dürfen. Sind Sie unsicher, welches Verfahren Sie genau einsetzen sollten und sind mit der Materie nur wenig vertraut, empfiehlt es sich, einen Experten zu Rate zu ziehen.
Was sind geschätzte Randmittel?
Geschätzte Randmittel werden oft als zusätzliche Mittelwerte neben den deskriptiven Werten bei linearen Modellen mit ausgegeben. Auf Grundlage der geschätzten Randmittel werden beispielsweise auch bei der Varianzanalyse die Effekte auf Signifikanz geprüft. Die Randmittel können teilweise erheblich von den beobachteten Mittelwerten der Stichprobe abweichen, wenn mehrfaktorielle unbalancierte Designs eingesetzt werden, sie sind aber dann die besseren Schätzer für die Mittelwerte in der Population. Auch im einfaktoriellen Fall kann es zu Abweichungen des Gesamtmittelwertes kommen.
Hierzu ein kleines Beispiel: Nehmen wir an, wir wollen überprüfen, ob zwischen Frauen und Männern Unterschiede bezüglich eines fiktiven Scores bestehen. Wir haben für unser sehr kleines und ausschließlich für didaktische Zwecke gedachtes Sample 3 Männer aber nur eine Frau rekrutiert. Die Männer mögen die Werte 95, 100 und 105 aufweisen, damit liegt der Mittelwert der Männer bei 100. Die einzelne Frau weist einen Wert von 60 auf. Lassen wir uns nun die deskriptiven Statistiken ausgeben, inklusive des Gesamtmittelwertes, so erhalten wir (95+100+105+60)/4 = 90. Dieser Wert würde den wahren Wert in der Population nur sehr ungenau wiedergeben, da das tatsächliche Verhältnis zwischen Männern und Frauen in der Population bei 50:50 liegt und nicht bei 3:1 wie in unserem Sample.
Lassen wir uns hingegen die geschätzten Randmittel ausgeben, so wird erst der Mittelwert der Männer und dann der der Frauen berechnet (100 bzw. 60) und dann aus diesen beiden Mittelwerten der Gesamtmittelwert berechnet. Dieser liegt dann bei (100+60)/2 = 80 und ist der deutlich bessere Schätzer, da er die unterschiedlichen Fallzahlen in den Gruppen berücksichtigt. Gleiches gilt für den mehrfaktoriellen Fall, auch hier werden die Mittelwerte angepasst. Arbeiten Sie mit SPSS ist darauf zu achten, dass die konventionellen Post-Hoc Tests, welche auf den beobachteten Werten basieren, von den Tests der Haupteffekte der geschätzten Randmittel abweichen können.
Als Mediziner und Nicht-Statistiker bin ich mir nicht sicher, ob ich Mittelwert oder Median angeben soll. Gibt es eine statistische Regel dafür?
Als angehender Arzt möchte ich gern meine Dissertation schreiben, weiß aber wenig über die Statistik? Welche Bücher sind zu empfehlen?
Es gibt inzwischen eine gute Auswahl an deutschsprachiger Fachliteratur, die sich explizit der medizinischen Statistik widmen. Sehr zu empfehlen ist das 2014 in der ersten Auflage bei Schattauer erschienene Buch von Gaus und Muche, das alle Themen der medizinischen Statistik ausführlich behandelt und darüber hinaus ansprechend geschrieben ist. Seine Vorteile liegen im Aufbau des Buches, das sich zunächst mit der Planung und Durchführung von Studien beschäftigt und erst anschließend einzelne statistische Verfahren beleuchtet. Übungsaufgaben am Ende eines Kapitels helfen bei der Überprüfung des gelernten Wissens.
Nicht ganz so umfangreich, aber dennoch gründlich ist auch das 2013 bei Pearson unter dem gleichen Titel „Medizinische Statistik“ veröffentlichte Werk von Rufibach et al. Wenn Ihr Untersuchungsdesign steht und die Datenerhebung bereits abgeschlossen ist, so finden Sie hier schnell Einblick in die wichtigsten Konzepte und Analysemethoden. Ohne zu sehr in die Tiefe zu gehen, sondern nur einen kurzen Überblick über den Bereich zu geben und dabei dennoch anspruchsvoll zu sein, ist das Buch von Weiß „Basiswissen Medizinische Statistik“, welches inzwischen mehrfach aufgelegt wurde und nach wie vor zu Recht sehr populär ist.
Möchten Sie Ihre Analysen mit SPSS durchführen und haben keine Probleme mit englischen Texten, so ist als Einsteiger das Buch von Field (2013) nunmehr in der vierten Auflage „Discovering Statistics Using SPSS“ wärmstens zu empfehlen, da es einerseits didaktisch und durch die Präsentation der Inhalte überzeugen kann und damit so manches staubtrockene Lehrbuch in den Schatten stellt. Darüber hinaus werden die Anwendungen Schritt für Schritt erklärt, der Stil des Autors ist sehr leger und gespickt mit interessanten Fallbeispielen und kleinen nützlichen Anekdoten.
Worin besteht der Unterschied zwischen der Pearson-Korrelation und Spearman’s Rho?
Ich habe gelesen, dass für die Korrelation nach Pearson die Variablen bivariat normalverteilt sein müssen, stimmt das?
Für meine Bachelorarbeit im Fach BWL führe ich eine lineare Regression durch und habe mit der Multikollinearität zu kämpfen. Welche Folgen hat Multikollinearität und warum muss sie vermieden werden?
In letzter Zeit lese ich immer wieder von Mehrebenenmodellen, Multilevel, Mixed und Random Effects Models. Was hat es damit auf sich?
Mehrebenenmodelle, oft auch als Multilevel Models, Hierarchical Models oder Mixed Models bezeichnet, werden für geclusterte und longitudinale Daten verwendet und stellen eine recht moderne Form der Modellierung dar. Es wird explizit eine mehrere Ebenen umfassende Form des Samplings berücksichtigt, zum Beispiel die Untersuchung von Patienten, die im Rahmen einer multizentrischen Studie aus verschiedenen Kliniken und Stationen rekrutiert wurden. Es ist dann davon auszugehen, dass sich die Patienten einer Station ähnlicher sind als zwischen verschiedenen Stationen. Gleiches gilt für die Kliniken: Messe ich die Compliance der Patienten, so ist es nicht verwunderlich, wenn die Patienten aus ein und derselben Klinik sich ähnlicher sind. Die Patienten sind in den Stationen geclustert, während die Stationen unter den Kliniken geclustert sind. Die Messungen (und infolgedessen auch die Residuen) sind korreliert und voneinander abhängig, was bei diesen Modellen explizit berücksichtigt werden kann.
Analog trifft dies auch für longitudinale Daten zu: Messungen eines Subjektes über die Zeit sind nicht unabhängig voneinander. Würde man diese Abhängigkeiten ignorieren und die Anwendungen des ALM einsetzen, so sind die Ergebnisse nicht valide, da die Voraussetzung unabhängiger Residuen verletzt wurde. Die Umsetzung als auch die theoretischen Grundlagen von Mehrebenenmodellen sind allerdings deutlich komplexer und anspruchsvoller als die klassischen Verfahren des ALM, wie beispielsweise ANOVA oder lineare Regression. Dieser Artikel beschäftigt sich mit der Anwendung von Mehrebenenmodellen bei longitudinalen Daten.
Was ist eine Scheinkorrelation?
Streng genommen gibt es keine „Scheinkorrelation“, gemeint ist dann meist eine „Scheinkausalität“. Eine Korrelation ist vorhanden und nachweisbar oder eben nicht, deswegen macht der Begriff Scheinkorrelation keinen Sinn. Viel mehr verbirgt sich dahinter die Schlussfolgerung, dass die Korrelation auch ein Nachweis für Kausalität, also den ursächlichen Wirkungszusammenhang zwischen Variablen, darstellt. Dem ist aber nicht so. Korrelation ist nur eine notwendige, aber eben keine hinreichende Voraussetzung für Kausalität. Diese nachzuweisen ist methodisch deutlich anspruchsvoller.
Ein Beispiel: Man kann eine positive Korrelation zwischen der Population von Störchen und der Geburtenrate nachweisen. Bringt der Klapperstorch also doch die Kinder? Nein, es ist nur so, dass die Geburtenraten in ländlichen Gebieten höher sind als in der Stadt. Genauso verhält es sich mit den Störchen, sie kommen auf dem Land viel häufiger vor. Und so kommt die Korrelation zustande, obwohl sie nicht kausal ist. Man sollte dann von Korrelation und Scheinkausalität sprechen, aber nicht von Scheinkorrelation.
Ihre Frage war nicht dabei? Dann kontaktieren Sie uns.