Der t-Test prüft, ob sich ein gemessener Mittelwert von einem Erwartungswert oder zwei Mittelwerte voneinander unterscheiden — methodisch sauber und mit überschaubarem Rechenaufwand. Hier die drei wichtigsten Varianten mit konkretem Anwendungsbeispiel.
Der t-Test gehört zu den meistverwendeten statistischen Verfahren in der quantitativen Sozialforschung. Er prüft, ob ein beobachteter Unterschied zwischen Mittelwerten zufällig oder systematisch ist. In der Marktforschung, in Mitarbeiterbefragungen, in klinischen Studien — überall, wo zwei Gruppen oder ein Soll-Ist-Vergleich auf dem Tisch liegt, ist der t-Test die naheliegende erste Wahl.
Drei Varianten sind in der Praxis relevant: der Einstichproben-t-Test (Mittelwert gegen Erwartungswert), der ungepaarte Zweistichproben-t-Test (zwei unabhängige Gruppen) und der gepaarte Zweistichproben-t-Test (eine Gruppe vorher/nachher). Wir gehen sie der Reihe nach durch.
Was prüft der t-Test überhaupt?
Im Kern beantwortet der t-Test eine einfache Frage: Ist der Unterschied, den wir in den Daten sehen, groß genug, um nicht durch Zufall erklärt zu werden? Stichproben streuen — selbst wenn die Grundgesamtheit identisch wäre, würden zwei zufällig gezogene Gruppen leicht unterschiedliche Mittelwerte zeigen. Der t-Test gibt eine Wahrscheinlichkeit dafür, dass der gemessene Unterschied „nur Streuung" und nicht „echter Effekt" ist.
Die Logik dahinter ist Hypothesentest: Wir formulieren eine Nullhypothese („kein Unterschied"), berechnen, wie wahrscheinlich unsere Daten wären, wenn die Nullhypothese stimmt, und entscheiden uns auf Basis dieser Wahrscheinlichkeit, ob wir die Nullhypothese verwerfen.
Einstichproben-t-Test: Mittelwert gegen Soll-Wert
Der Einstichproben-t-Test prüft, ob der Mittelwert einer einzelnen Stichprobe signifikant von einem vorgegebenen Erwartungswert abweicht. Anwendungsfälle in Umfragen: Benchmark-Vergleich (weicht unsere Mitarbeiterzufriedenheit vom Branchen-Mittelwert ab?), Ziel-Soll-Vergleich (erreicht unser CSAT-Wert das definierte Ziel?), Vergleich mit historischen Referenzen (liegt der NPS in dieser Welle über dem Vorjahres-Median?).
Konkretes Beispiel: Ihre Geschäftsführung hat sich zum Ziel gesetzt, dass die Mitarbeitenden sich auf einer Skala von 1 bis 5 mit der Unternehmensstrategie identifizieren — Ziel-Mittelwert 4,0. In der diesjährigen Mitarbeiterbefragung mit 80 Teilnehmenden ergibt sich ein Mittelwert von 3,7. Frage: ist die Differenz von 0,3 ein echtes Warnsignal, oder ist sie mit Stichprobenstreuung erklärbar?
Die Berechnung läuft in drei Schritten. Zuerst berechnen Sie den Mittelwert Ihrer Stichprobe und die Standardabweichung. Dann setzen Sie diese Werte in die t-Test-Formel ein:
Im Zähler steht die Differenz zwischen Stichprobenmittelwert (x̄) und Erwartungswert (μ₀). Im Nenner die Standardabweichung (s) geteilt durch die Wurzel aus der Stichprobengröße (n). Das Ergebnis ist der t-Wert — eine standardisierte Maßzahl für die Größe der Abweichung relativ zur Streuung der Daten.
Drittens vergleichen Sie den berechneten t-Wert mit einem kritischen Wert aus der t-Verteilungstabelle. Diesen kritischen Wert finden Sie in jeder Statistik-Formelsammlung — er hängt von zwei Größen ab: dem Freiheitsgrad (Stichprobengröße minus 1) und dem gewählten Signifikanzniveau (üblich 5 % oder 1 %).
Liegt der absolute Wert Ihres berechneten t über dem kritischen Wert, ist die Abweichung signifikant — die Nullhypothese „der Identifikations-Wert entspricht dem Ziel von 4,0" wird abgelehnt. Liegt er darunter, ist die Abweichung mit Zufall vereinbar — keine Eskalation nötig.
Ungepaarter Zweistichproben-t-Test: zwei unabhängige Gruppen
Der ungepaarte Zweistichproben-t-Test vergleicht die Mittelwerte zweier unabhängiger Gruppen — also Gruppen, deren Mitglieder nichts miteinander zu tun haben. Das ist die häufigste Variante in Umfragen: Männer vs. Frauen, Kunden vs. Nicht-Kunden, Standort A vs. Standort B.
Beispiel: Sie wollen wissen, ob sich die Kundenzufriedenheit zwischen Ihren beiden Niederlassungen in Berlin und München unterscheidet. Sie befragen 120 Kundinnen und Kunden pro Standort und vergleichen die Mittelwerte. Berlin: 4,1 von 5. München: 3,8 von 5. Ist diese Differenz von 0,3 systematisch oder Stichprobenrauschen?
Die Formel ist eine direkte Erweiterung des Einstichproben-Falls. Im Zähler steht die Differenz der beiden Gruppenmittelwerte, im Nenner eine gewichtete Kombination beider Streuungen:
Dabei ist sₚ die sogenannte gepoolte Standardabweichung — der gewichtete Durchschnitt der Standardabweichungen beider Gruppen:
Wichtig: der ungepaarte t-Test setzt voraus, dass die Varianzen der beiden Gruppen ähnlich sind (Levene-Test oder Visual Check). Wenn die Varianzen stark abweichen, verwenden Sie die Welch-Korrektur, die statt der gepoolten Standardabweichung die getrennten Streuungen nutzt — viele Statistikpakete tun das automatisch.
Der Freiheitsgrad ist hier die Summe beider Stichprobengrößen minus 2 (n₁ + n₂ − 2). Der Rest der Auswertung — t-Wert berechnen, kritischen Wert aus der Tabelle ziehen, vergleichen — funktioniert identisch zum Einstichproben-Fall.
Gepaarter Zweistichproben-t-Test: dieselben Personen vorher und nachher
Der gepaarte t-Test ist konzeptionell der eleganteste: er vergleicht nicht zwei verschiedene Gruppen, sondern dieselbe Gruppe zu zwei Zeitpunkten. Vorher-Nachher-Studien, Pre-Test/Post-Test-Designs, A/B-Tests mit Wiederholung — überall, wo jede Messung einer früheren Messung zugeordnet werden kann.
Beispiel: Sie haben ein neues Onboarding-Programm für Mitarbeitende eingeführt. Vor der Einführung haben 60 neue Mitarbeitende Ihre Einarbeitungs-Erfahrung auf 1 bis 5 bewertet (Mittelwert 3,2). Nach der Programm-Reform und sechs Monaten Anwendung wiederholen Sie die Befragung mit derselben Personengruppe (Mittelwert 3,9). Frage: hat sich die Wahrnehmung signifikant verbessert, oder ist die Differenz Rauschen?
Statistisch ist der gepaarte t-Test eigentlich ein Einstichproben-Test auf den Differenzen: Sie berechnen für jede Person die Differenz zwischen Vorher- und Nachher-Wert (d = x_nachher − x_vorher) und prüfen dann, ob der Mittelwert dieser Differenzen von Null abweicht. Die Formel:
Hier ist d̄ der Mittelwert aller individuellen Differenzen, s_d die Standardabweichung der Differenzen und n die Anzahl der Paarungen. Der Freiheitsgrad ist n − 1 (wie beim Einstichproben-Fall), weil n hier nicht die Anzahl der Beobachtungen, sondern die Anzahl der Differenz-Werte ist.
Diese Konstruktion ist methodisch sauberer als zwei unabhängige Tests, weil die intra-personellen Unterschiede automatisch herausgerechnet werden — eine Person, die generell kritischer bewertet, kompensiert sich gegen sich selbst. Die statistische Power ist deshalb in der Regel höher als beim ungepaarten Test mit gleicher Fallzahl.
Stärke des Unterschieds einschätzen — Cohen's d
Statistische Signifikanz sagt nur, ob ein Unterschied existiert — nicht, wie groß er ist. Bei sehr großen Stichproben werden auch winzige Unterschiede signifikant, die praktisch bedeutungslos sind. Deshalb berichtet man neben dem p-Wert immer auch die Effektstärke. Für den t-Test ist das übliche Maß Cohen's d:
Im Zähler steht die Differenz der Mittelwerte, im Nenner die gepoolte Standardabweichung. Anders als beim t-Wert wird hier nicht durch √n geteilt — Cohen's d ist unabhängig von der Stichprobengröße und beschreibt die reine Größe des Effekts. Cohen schlug folgende Faustregeln vor: d ≈ 0,2 = kleiner Effekt, d ≈ 0,5 = mittlerer Effekt, d ≈ 0,8 oder größer = starker Effekt. Wichtig: das sind Konventionen, keine Naturgesetze — in vielen Fachgebieten gelten andere Schwellen.
Voraussetzungen — wann der t-Test passt und wann nicht
Der t-Test ist robust, aber nicht universell. Drei Voraussetzungen sollten Sie vor der Anwendung prüfen.
Erstens, das Skalenniveau. Die untersuchte Variable muss intervallskaliert sein (also Abstände sind interpretierbar — Temperatur, Gewicht, Einkommen, Likert-Summenwerte gelten als ausreichend). Reine Häufigkeiten oder Nominalwerte (Geschlecht, Produktpräferenz) sind ungeeignet — hier ist der Chi-Quadrat-Test der richtige Partner.
Zweitens, die Verteilung. Die Werte sollten annähernd normalverteilt sein. Bei ausreichend großer Stichprobe (n > 30 pro Gruppe) gilt der zentrale Grenzwertsatz und die Normalverteilungsannahme darf gelockert werden. Bei kleinen Stichproben mit schiefer Verteilung greifen Sie besser zu nicht-parametrischen Alternativen — Mann-Whitney-U beim ungepaarten Vergleich, Wilcoxon beim gepaarten.
Drittens, Unabhängigkeit der Beobachtungen. Wenn Sie 30 Mitarbeitende einer Abteilung und 30 Mitarbeitende einer anderen Abteilung befragen, sind die Beobachtungen innerhalb einer Abteilung nicht unabhängig (gemeinsame Vorgesetzte, gemeinsame Arbeitsbedingungen). Solche Cluster-Effekte verfälschen den t-Test — Mehrebenenanalyse wäre der saubere Weg.
Fazit
Der t-Test ist ein Werkzeug für eine konkrete Frage: ist der Mittelwert-Unterschied, den ich sehe, statistisch tragfähig? In dieser Spezifität ist er sehr gut. Sobald Sie aber kategoriale Variablen vergleichen, Zusammenhänge zwischen mehreren Variablen prüfen oder komplexere Studiendesigns auswerten wollen, brauchen Sie andere Verfahren. Hier gehört der Chi-Quadrat-Test in das Werkzeugkästchen daneben — er übernimmt, wo der t-Test aufhört.
In QUESTIONSTAR berechnen Sie t-Tests direkt in der Auswertungsansicht — t-Wert, p-Wert, Freiheitsgrad und Interpretationshinweis erscheinen automatisch, sobald Sie zwei Mittelwerte zum Vergleich auswählen.
Quellen
- Bortz, Jürgen, und Christof Schuster: Statistik für Human- und Sozialwissenschaftler. 7. Auflage. Springer, 2010.
- Field, Andy: Discovering Statistics Using IBM SPSS Statistics. 5. Edition. SAGE, 2018.
- Schumann, Siegfried: Repräsentative Umfrage. 7. Auflage. De Gruyter Oldenbourg, 2019.
