FAQ 1: Posttests in SPSS bei einem oder mehreren Within-Subjects (Meßwiederholungs-) Faktoren:
Wenn Varianzanalysen mit Within-Subjects Faktoren durchgeführt werden, lassen sich a posteriori Vergleiche in SPSS nur für die Haupteffekte anfordern (Prozedur GLM, Optionen), und da auch nur bestimmte Tests, die nicht unbedingt zu den gängigsten zählen. Wenn Sie daher Posttests für Wechselwirkungen benötigen oder einen Standard-Posttest verwenden wollen, den SPSS nicht anbietet, müssen Sie die Posttests nach wie vor mit der Hand rechnen. Wir empfehlen für alle gewöhnlichen Anlässe Roast Turkey HSD (1) oder Newman-Keule (2); nur für besondere Anlässe Scheffé au lait (3).
Die Durchführung dieser Tests ist z.B. beschrieben in: Papousek (2003). Psychologische Statistik - Handbuch. Skriptum, Servicebetrieb ÖH-Uni Graz (1,2,3). Pagano (1995). Understanding Statistics in the Behavioral Sciences. Institutsbibliothek, Handapparat Statistik (1,2). Bortz (1993, 1999). Statistik für Sozialwissenschaftler. Institutsbibiliothek, Handapparat Statistik (3). Kirk (1982). Experimental Design. Institutsbibliothek, Handapparat Statistik für Fortgeschrittene (1,2,3).
FAQ 2: Posttests bei Meßwiederholungsanalysen, wenn wegen verletzter Sphärizitäts-Voraussetzung der multivariate Ansatz verwendet wird.
Wenn Epsilon größer ist als .70 (Epsilon wird von SPSS automatisch mit ausgegeben), Tukey's HSD verwenden. MS error und df error aus der univariaten Analyse verwenden.
Wenn Epsilon kleiner ist als .70, wird der Bonferroni-Ansatz empfohlen. Dazu werden paarweise t-Tests für abhängige Messungen durchgeführt, mit korrigiertem Alpha-Level: Wenn der signifikante Effekt z.B. 5 Stufen hat, sind 10 paarweise Vergleiche möglich. In diesem Fall testet man dann statt am .05-Level am .005-Level (.05/10, d.h. neues Alpha = Alpha dividiert durch die Anzahl der möglichen Paarvergleiche). Die Bonferroni-Methode nur verwenden, wenn die Sphärizitäts-Voraussetzung verletzt ist und wenn Epsilon < .70. In allen anderen Fällen hat sie zuwenig Power.
Stevens, J. (1999). Intermediate Statistics. A Modern Approach. London: Erlbaum. 215-216.
Anwendungsregeln für gerichtete Alternativhypothesen:
Die Entscheidung für eine ungerichtete (zweiseitige) oder gerichtete (einseitige) Alternativhypothese hängt alleine von der Fragestellung ab: Eine gerichtete Hypothese darf nur dann formuliert werden, wenn nur ein Unterschied in eine bestimmte Richtung von (theoretischer oder praktischer) Bedeutung ist: z.B., wenn es nur interessant ist, ob die neue Therapie X zu einer Verbesserung der Symptomatik führt - und es nicht interessiert (bzw. von der praktischen Seite her keinen Unterschied macht), ob sie gar keine Wirkung hat oder die Symptomatik sogar verschlechtert.
In der Regel ist es jedoch auch von Interesse / von Bedeutung, ob eine bestimmte Bedingung (Therapie etc.) das Gegenteil dessen bewirkt, was man erwartet (z.B. eine Verschlechterung der Symptomatik). In diesen Fällen muss zweiseitig getestet werden!
Die Erwartung eines bestimmten Ergebnisses (bzw. glauben, daß ein bestimmtes Ergebnis herauskommen wird) rechtfertigt noch nicht eine gerichtete Alternativhypothese. Es muß wirklich gut begründet werden können, dass nur ein Unterschied in eine bestimmte Richtung von (theoretischem oder praktischem) Interesse ist.
Die Entscheidung für eine gerichtete Alternativhypothese muß bereits vor der Datenerhebung fallen.
Nichtbeachten dieser Regeln = Missbrauch (zweiseitiges Testen mit verdoppeltem Alphafehler-Risiko).
Dass nur ein Unterschied in eine bestimmte Richtung von Interesse ist, kommt hin und wieder in einem angewandten Kontext vor (Beispiel: In einer psychologischen Gruppenpraxis soll die Entscheidung getroffen werden, ob die neue Therapieform X angeboten werden soll. Sie soll nur dann angeboten werden, wenn positive Effekte nachgewiesen werden; wenn die Therapie nicht wirkt oder sogar negative Effekte hat, soll sie nicht angeboten werden. In diesem Fall ist nur eine bestimmte Richtung von Interesse bzw. (praktischer) Bedeutung, nämlich ob die Therapie X positive Effekte hat. Ob die Therapie gar nicht wirkt oder die Symptomatik sogar verschlechtert, macht in diesem Fall von der praktischen Seite keinen Unterschied und interessiert daher nicht). Im Bereich der Forschung ist ein einseitiger Test dagegen nur äußerst selten gerechtfertigt. "... a one-tailed test (a) ... can never lead us to conclude that we are wrong about the direction of the population effect and (b) is therefore never appropriate in a research setting." (Harris, R.J., 1997. Significance tests have their place. Psychological Science, 8, 8-11).
FAQ 4: Normalverteilungs-Prüfung bei Varianzanalysen:
In Lehrbüchern heißt es, daß bei Varianzanalysen die Rohwerte in jeder Zelle normalverteilt sein müssen (in der Population). Im wirklichen Leben wird die Normalverteilungs-Voraussetzung bei Varianzanalysen jedoch sehr selten überprüft. In Wahrheit geht es bei der Normalitäts-Voraussetzung nämlich nicht um die Rohwerte-Verteilungen, sondern um Random Sampling Verteilungen.
Bei größeren Stichproben ist eine Normalverteilung durch die Wirkung des Zentralen Grenzwerttheorems auf alle Fälle gewährleistet (völlig egal wie die Verteilung der Rohwerte ist !). Bei geringeren Abweichungen der Rohwerteverteilung von der Normalität reichen bereits 10 bis 20 Meßwerte pro Zelle für eine ausreichende Wirkung des Zentralen Grenzwerttheorems; bei sehr starken Abweichungen gilt das ab etwa 50 Meßwerten pro Zelle (Stevens, Seite 75).
Das heißt, dass also nur bei sehr kleinen Stichproben tatsächlich die Verteilung der Rohwerte eine Rolle spielt. Bei kleinen Stichproben sind Tests auf Normalverteilung allerdings kaum sinnvoll anwendbar. Daher wird auch bei kleinen Stichproben in der Regel auf eine Überprüfung verzichtet. Es gibt allerdings Fälle, in denen eine Abweichung von der Normalität offensichtlich oder bekannt ist (z.B. Einkommensverteilung); dann muss man sorgfältig überlegen, ob die Durchführung einer Varianzanalyse trotzdem OK ist.
Allgemein gilt, dass der F-Test der Varianzanalyse auch bei kleineren Stichproben robust gegenüber Nicht-Normalität ist, vor allem bei gleichem Zellen-n (bei gleich vielen oder ungefähr gleich vielen Messwerten in jeder Zelle). Probieren Sie das anhand einer Simulation ('Monte-Carlo Experiment') aus:
Simulation (Rice University, Houston, USA) Durch Simulation (Computer zieht Zufallsstichproben aus einer Population) wird gezeigt, ob / wie stark sich die Zahl der falschen Entscheidungen gegen die Nullhypothese (Alpha-Fehler) erhöht, wenn:
Verteilungen nicht normal sind
Varianzen nicht homogen sind
Stichproben unterschiedlich groß sind
Zwei oder alle drei Probleme gleichzeitig auftreten.
Zitierbar sind z.B.: Stevens, J. (1999). Intermediate Statistics. A Modern Approach. London: Erlbaum. 75-76. Bortz J.(1999). Statistik für Sozialwissenschaftler, 5. Auflage. Berlin: Springer. 276. Everitt, B.S. (1996). Making Sense of Statistics in Psychology. Oxford: Oxford University Press. 55.
FAQ 5: Was tun bei Varianzinhomogenität bei Varianzanalysen:
Die Varianzhomogenität wird bei Varianzanalysen routinemäßig überprüft. Wenn allerdings die Zellen-n gleich groß oder annähernd gleich groß sind (in jeder Zelle etwa gleich viele Messwerte sind), spielt eine etwaige Inhomogenität keine Rolle. Das gilt, wenn das Verhältnis zwischen dem größten und dem kleinsten Zellen-n kleiner als 1.5 ist (Stevens, Seite 75-76).
Eine Inhomogenität der Varianzen ist also nur dann kritisch, wenn das Verhältnis zwischen größtem und kleinstem Zellen-n größer als 1.5 ist. Wenn die größeren Varianzen in den Zellen mit den größeren n vorkommen, wird der F-Test konservativer (weniger Power, größeres Beta-Fehler Risiko). Wenn die größeren Varianzen in den Zellen mit den kleineren n vorkommen, wird der F-Test zu liberal (größeres Alpha-Fehler Risiko). (Stevens, Seite 76).
Empfehlungen für den Fall, dass man inhomogene Varianzen bei ungleichen Zellen-n hat, sind bei Stevens (Seite 91-92) nachzulesen (Institutsbibliothek, Handapparat 'Statistik für Fortgeschrittene').
Probieren Sie auch die Simulation unter FAQ 3 aus!
Kommentare zur Verletzung der Varianzhomogenität bei multivariaten Varianzanalysen sind bei Tinsley und Brown nachzulesen (auch Handapparat).
Stevens, J. (1999). Intermediate Statistics. A Modern Approach. London: Erlbaum. Tinsley, H.E.A. & Brown, S.D. (2000). Handbook of Applied Multivariate Statistics and Mathematical Modelling. San Diego: Academic Press.
FAQ 6: Voraussetzungen bei Varianzanalysen mit Within-Subjects (Messwiederholungs-) Faktoren: Sphärizität
Die Voraussetzung der Sphärizität ist erfüllt, wenn die Varianzen der Differenzen aller Paare von Messwerten gleich groß sind. Bei drei Faktorstufen gibt es z.B. für jede Testperson eine Differenz der Messwerte unter Bedingung 1 und 2, eine Differenz der Messwerte unter Bedingung 1 und 3 und eine Differenz der Messwerte unter Bedingung 2 und 3. Das ergibt für jedes Paar (1-2, 1-3, 2-3) eine Verteilung von Differenzen, für die dann die Varianz bestimmt wird.
Zur Überprüfung der Sphärizitäts-Voraussetzung kann der Mauchly's Sphericity Test verwendet werden, der von SPSS bei Messwiederholungsanalysen automatisch ausgegeben wird. Die Voraussetzung ist verletzt, wenn der Mauchly's Test ein signifikantes Resultat liefert.
Wenn es nur zwei Faktorstufen gibt, gibt es nur ein einziges mögliches Messwertepaar. Ein Vergleich von Varianzen der Differenzen von Messwertepaaren ist dann natürlich nicht möglich. SPSS gibt daher auch kein Ergebnis des Mauchly's Test aus, wenn der Messwiederholungsfaktor nur zwei Stufen hat.
Wenn die Voraussetzung verletzt ist, muss man eines der beiden folgenden Dinge tun:
Multiplikation der Freiheitsgrade für den F-Test mit Epsilon (Signifikanzangaben für den F-Test mit korrigierten Freiheitsgraden werden von SPSS automatisch ausgegeben).
Verwenden des multivariaten statt des univariaten Ansatzes für die Varianzanalyse. Entsprechende Resultate werden ebenfalls von SPSS automatisch mit ausgegeben. Das ist die modernere Maßnahme, die in der aktuellen Literatur vorgezogen und empfohlen wird.
Beide Korrekturvarianten keinesfalls automatisch anwenden, sondern nur dann, wenn die Sphärizitäts-Voraussetzung verletzt ist! (Wenn die Voraussetzung erfüllt ist, würde v.a. die Power des Tests darunter leiden, d.h. tatsächlich bestehende Mittelwertsunterschiede würden häufiger fälschlicherweise nicht erkannt werden).
FAQ 7: Warum verschwindet der signifikante Effekt des Faktors 1, wenn ich in die Varianzanalyse einen weiteren Faktor 2 dazugebe:
Wenn sich die Ergebnisse für Haupteffekte und Wechselwirkungen ändern, je nachdem, ob man einen weiteren Faktor in der Analyse berücksichtigt oder nicht, beginnt man an der Zuverlässigkeit statistischer Verfahren zu zweifeln. Auf Anhieb ist es nicht einsichtig, warum z.B. der Haupteffekt 1 in der einfaktoriellen Varianzanalyse signifikant ist, der signifikante Effekt aber auf einmal komplett weg ist, wenn ein zweiter Faktor in der Analyse mit berücksichtigt wird (statt der einfaktoriellen Analyse eine zweifaktorielle Analyse 1 x 2 durchgeführt wird).
Solche und ähnliche Phänomene können vorkommen, wenn die Faktoren (UVs) korreliert sind, und wenn die Varianzanalyse mit der Regressionsmethode durchgeführt wird. In SPSS ist die Regressionsmethode (Methode 'unique' bzw. 'sstype(3)') default (also voreingestellt, wenn nichts anderes angegeben wird); es ist auch die empfohlene Methode, wenn die Faktoren korreliert sind.
Bei der Regressionsmethode wird nur der Anteil an Varianz einem Faktor zugeschrieben, den dieser Faktor ganz alleine aufklärt. Varianzanteile, die zwei oder mehrere Faktoren mit der abhängigen Variable gemeinsam haben, werden keinem der Faktoren zugeschrieben:
Wenn die Beziehungen zwischen den Variablen so oder so ähnlich sind wie in der Grafik, ist der Anteil der Varianz, der dem Faktor 1 zugeschrieben wird, größer, wenn Faktor 2 in der Analyse nicht berücksichtigt wird (die Varianzanalyse ohne Faktor 2 durchgeführt wird). Dadurch, dass Faktor 2 mit Faktor 1 korreliert ist, überlappen sich die Anteile, die die Faktoren mit der AV gemeinsam haben. Da dem Faktor 1 nur der Anteil an Varianz zugeschrieben wird, den dieser ganz alleine aufklärt, reduziert diese Überlappung den Anteil der Varianz, für den Faktor 1 'verantwortlich gemacht' wird - der Effekt ist nicht mehr signifikant.
Für die Signifikanzprüfung einer Produkt-Moment-Korrelation (Pearson's Korrelationskoeffizient) wird theoretisch vorausgesetzt, dass die Variablen in der Population bivariat normalverteilt sind. (Für den Korrelationskoeffizienten selbst, als deskriptives Maß, gelten keine Verteilungsvoraussetzungen).
Die Voraussetzung der bivariaten Normalverteilung ist praktisch nicht überprüfbar (eine sinnvolle Prüfung wäre wiederum nur unter ganz bestimmten theoretischen Voraussetzungen möglich). Als Versuch einer Annäherung tendieren daher manche dazu, die Verwendung der Produkt-Moment-Korrelation davon abhängig zu machen, ob jede der beiden Variablen jeweils für sich normalverteilt ist. (Normalverteilung der beiden Variablen ist eine notwendige aber nicht hinreichende Bedingung für die bivariate Normalverteilung). Diese Vorgangsweise ist allerdings nicht sinnvoll, da der Signifikanztest für Korrelationen äußerst robust gegenüber Verletzungen der Verteilungsannahme ist1. Es besteht daher nur in Ausnahmefällen Handlungsbedarf:
a) Extreme Abweichungen von einer Normalverteilung (Verteilung z.B. extrem schief oder J-shaped): In solchen Fällen wird empfohlen, eine Datentransformation in Erwägung zu ziehen.
b) Ein oder zwei extreme Werte: Wenige sehr extreme Werte können den Produkt-Moment-Korrelationskoeffizienten erheblich verfälschen (nach oben oder unten), besonders bei kleineren Stichproben. Wenn einzelne extreme Werte (sog. Ausreisser) in den Daten sind, und diese nicht auf Fehler (z.B. bei der Messung oder Dateneingabe) zurückzuführen sind, ist es sinnvoll, die Daten zuerst in eine Rangreihe zu bringen und erst dann die Korrelation zu berechnen (= Spearman-Rang-Korrelation).
Sowohl Fall a) als auch Fall b) können erkannt werden, indem man sich vor der Berechnung von Korrelationen die Rohdatenverteilungen anschaut. Fordern Sie daher vor der Berechnung von Korrelationen immer Frequencies und Histogramme an.
1 Dazu ist zitierbar: Bortz, J. (1999). Statistik für Sozialwissenschaftler, 5. Auflage. Berlin: Springer, Seite 205. Zurück