Der t-Test in Online-Umfragen: Mittelwerte vergleichen

Der t-Test prüft, ob sich ein gemessener Mittelwert von einem Erwartungswert oder zwei Mittelwerte voneinander unterscheiden — methodisch sauber und mit überschaubarem Rechenaufwand. Hier die drei wichtigsten Varianten mit konkretem Anwendungsbeispiel.

Der t-Test gehört zu den meistverwendeten statistischen Verfahren in der quantitativen Sozialforschung. Er prüft, ob ein beobachteter Unterschied zwischen Mittelwerten zufällig oder systematisch ist. In der Marktforschung, in Mitarbeiterbefragungen, in klinischen Studien — überall, wo zwei Gruppen oder ein Soll-Ist-Vergleich auf dem Tisch liegt, ist der t-Test die naheliegende erste Wahl.

Drei Varianten sind in der Praxis relevant: der Einstichproben-t-Test (Mittelwert gegen Erwartungswert), der ungepaarte Zweistichproben-t-Test (zwei unabhängige Gruppen) und der gepaarte Zweistichproben-t-Test (eine Gruppe vorher/nachher). Wir gehen sie der Reihe nach durch.

Was prüft der t-Test überhaupt?

Im Kern beantwortet der t-Test eine einfache Frage: Ist der Unterschied, den wir in den Daten sehen, groß genug, um nicht durch Zufall erklärt zu werden? Stichproben streuen — selbst wenn die Grundgesamtheit identisch wäre, würden zwei zufällig gezogene Gruppen leicht unterschiedliche Mittelwerte zeigen. Der t-Test gibt eine Wahrscheinlichkeit dafür, dass der gemessene Unterschied „nur Streuung" und nicht „echter Effekt" ist.

Die Logik dahinter ist Hypothesentest: Wir formulieren eine Nullhypothese („kein Unterschied"), berechnen, wie wahrscheinlich unsere Daten wären, wenn die Nullhypothese stimmt, und entscheiden uns auf Basis dieser Wahrscheinlichkeit, ob wir die Nullhypothese verwerfen.

Einstichproben-t-Test: Mittelwert gegen Soll-Wert

Der Einstichproben-t-Test prüft, ob der Mittelwert einer einzelnen Stichprobe signifikant von einem vorgegebenen Erwartungswert abweicht. Anwendungsfälle in Umfragen: Benchmark-Vergleich (weicht unsere Mitarbeiterzufriedenheit vom Branchen-Mittelwert ab?), Ziel-Soll-Vergleich (erreicht unser CSAT-Wert das definierte Ziel?), Vergleich mit historischen Referenzen (liegt der NPS in dieser Welle über dem Vorjahres-Median?).

Konkretes Beispiel: Ihre Geschäftsführung hat sich zum Ziel gesetzt, dass die Mitarbeitenden sich auf einer Skala von 1 bis 5 mit der Unternehmensstrategie identifizieren — Ziel-Mittelwert 4,0. In der diesjährigen Mitarbeiterbefragung mit 80 Teilnehmenden ergibt sich ein Mittelwert von 3,7. Frage: ist die Differenz von 0,3 ein echtes Warnsignal, oder ist sie mit Stichprobenstreuung erklärbar?

Die Berechnung läuft in drei Schritten. Zuerst berechnen Sie den Mittelwert Ihrer Stichprobe und die Standardabweichung. Dann setzen Sie diese Werte in die t-Test-Formel ein:

t = \frac{\bar{x} - \mu_0}{s \,/\, \sqrt{n}}t-Test (Einstichproben)

Im Zähler steht die Differenz zwischen Stichprobenmittelwert (x̄) und Erwartungswert (μ₀). Im Nenner die Standardabweichung (s) geteilt durch die Wurzel aus der Stichprobengröße (n). Das Ergebnis ist der t-Wert — eine standardisierte Maßzahl für die Größe der Abweichung relativ zur Streuung der Daten.

Was der t-Test wirklich vergleicht — die Idee hinter der Formel

Klingt nach Mathematik — die Idee ist aber einfach. Der Zähler (x̄ − μ₀) ist die rohe Abweichung: um wie viel weicht Ihr gemessener Mittelwert vom Erwartungswert ab? In unserem Beispiel: 3,7 statt 4,0 — also 0,3.

Der Nenner (s ÷ √n) ist der sogenannte Standardfehler des Mittelwerts. Er beantwortet die Frage: wie stark würde der Mittelwert allein durch Zufall schwanken, wenn man dieselbe Befragung mehrfach mit anderen Personen wiederholt? Bei hoher Streuung in den Daten und kleiner Stichprobe ist diese Schwankung groß. Bei gleichmäßigen Antworten und großer Stichprobe ist sie klein.

Indem wir den Zähler durch den Nenner teilen, vergleichen wir die beobachtete Abweichung mit der üblicherweise erwartbaren Schwankung. Der t-Wert sagt also: in wie vielen Standardfehlern liegt die Differenz, die wir gefunden haben? Ein Wert von 2 bedeutet: zweimal so weit weg, wie wir es allein durch Zufall erwarten würden — schon ziemlich verdächtig. Ein Wert nahe 0 sagt: alles im normalen Streubereich, kein Grund zur Aufregung.

Drittens vergleichen Sie den berechneten t-Wert mit einem kritischen Wert aus der t-Verteilungstabelle. Diesen kritischen Wert finden Sie in jeder Statistik-Formelsammlung — er hängt von zwei Größen ab: dem Freiheitsgrad (Stichprobengröße minus 1) und dem gewählten Signifikanzniveau (üblich 5 % oder 1 %).

Was bedeuten diese 5 % im Klartext?

Stellen Sie sich vor, Sie führen Ihre Befragung hundertmal hintereinander durch — jedes Mal mit anderen Personen, aber unter exakt denselben Bedingungen. Und nehmen wir an, in Wirklichkeit gäbe es überhaupt keinen Unterschied zwischen Stichproben-Mittelwert und Erwartungswert.

Bei einem Signifikanzniveau von 5 % würden Sie trotzdem in etwa 5 dieser 100 Durchläufe eine Abweichung „erkennen", die statistisch signifikant aussieht — obwohl sie objektiv nicht existiert. Das sind die zufälligen Ausreißer, die wir bewusst in Kauf nehmen.

Mit 1 % wäre es nur etwa 1 von 100 Durchläufen — der Test wird strenger, aber Sie brauchen dann auch eine stärkere Abweichung in den Daten, damit überhaupt etwas signifikant wird.

Welches Niveau Sie wählen, hängt vom Risiko ab: bei interner Mitarbeiter- oder Kundenbefragung reichen die üblichen 5 %, bei klinischen Studien oder rechtlich relevanten Befragungen wählt man konservativer.

Woher kommt dieser „kritische Wert" eigentlich?

Statistiker haben schon vor langer Zeit für jede mögliche Kombination aus Freiheitsgrad und Signifikanzniveau eine Schwelle berechnet — den kritischen Wert.

Die Idee dahinter: Wenn ein t-Wert unter der Annahme „kein Unterschied" nur in 5 % aller zufälligen Stichproben überschritten würde, dann ist genau dieser Wert die „5-%-Schwelle". Liegt Ihr berechneter Wert darüber, halten wir das Ergebnis nicht mehr für Zufall — und sprechen von einer signifikanten Abweichung.

Statt diese Schwelle für jedes Setup neu auszurechnen, schaut man einfach in die t-Verteilungstabelle: die Werte sind dort längst für jeden Freiheitsgrad und jedes übliche Niveau tabelliert.

Wenn Ihr berechneter t-Wert (im Betrag) über dem Tabellenwert liegt, gehören Sie zu den 5 % aller möglichen Stichproben, die so extrem aussehen würden — selbst wenn in Wirklichkeit gar kein Unterschied da wäre. Sie verwerfen die Nullhypothese und akzeptieren bewusst, dass Sie in genau diesen 5 % aller Wiederholungen falsch liegen würden.

Liegt der absolute Wert Ihres berechneten t über dem kritischen Wert, ist die Abweichung signifikant — die Nullhypothese „der Identifikations-Wert entspricht dem Ziel von 4,0" wird abgelehnt. Liegt er darunter, ist die Abweichung mit Zufall vereinbar — keine Eskalation nötig.

Was Freiheitsgrade beim t-Test bedeuten — eine kurze Einsicht

Beim t-Test bedeutet „Freiheitsgrad" etwas anderes als bei der Kreuztabelle — die Idee bleibt aber ähnlich. Wenn der Mittelwert Ihrer Stichprobe schon feststeht, wie viele Ihrer einzelnen Messwerte könnten Sie dann noch frei verändern, ohne dass der Mittelwert kippt?

Ein kleines Beispiel: Sie haben fünf Messungen mit einem Mittelwert von 12. Sagen wir, vier der fünf Werte sind 10, 12, 11 und 13. Dann muss der fünfte Wert genau 14 sein — sonst kommt der Mittelwert nicht raus. Eine „Freiheit" ist also dafür weg, dass wir den Mittelwert kennen. Bei n Werten bleiben deshalb n − 1 Freiheitsgrade übrig.

Beim Zweistichproben-Vergleich werden zwei Mittelwerte aus den Daten gerechnet — also sind n₁ + n₂ − 2 Freiheitsgrade übrig. Beim gepaarten Test rechnen wir mit den Differenzen pro Person, und deren Mittelwert ist der einzige Parameter — also wieder n − 1, wobei n die Zahl der Paare ist (nicht der einzelnen Messwerte).

Warum das wichtig ist: die t-Verteilung sieht je nach Freiheitsgrad anders aus. Bei kleinen Stichproben ist sie breiter — die Unsicherheit ist größer, also brauchen Sie eine stärkere Abweichung, damit man von „signifikant" spricht. Bei großen Stichproben wird sie schmaler und nähert sich der Normalverteilung — die Schwelle sinkt. Genau deshalb gibt es in der Statistiktabelle für jeden Freiheitsgrad eine eigene Zeile mit anderen kritischen Werten.

Ungepaarter Zweistichproben-t-Test: zwei unabhängige Gruppen

Der ungepaarte Zweistichproben-t-Test vergleicht die Mittelwerte zweier unabhängiger Gruppen — also Gruppen, deren Mitglieder nichts miteinander zu tun haben. Das ist die häufigste Variante in Umfragen: Männer vs. Frauen, Kunden vs. Nicht-Kunden, Standort A vs. Standort B.

Beispiel: Sie wollen wissen, ob sich die Kundenzufriedenheit zwischen Ihren beiden Niederlassungen in Berlin und München unterscheidet. Sie befragen 120 Kundinnen und Kunden pro Standort und vergleichen die Mittelwerte. Berlin: 4,1 von 5. München: 3,8 von 5. Ist diese Differenz von 0,3 systematisch oder Stichprobenrauschen?

Die Formel ist eine direkte Erweiterung des Einstichproben-Falls. Im Zähler steht die Differenz der beiden Gruppenmittelwerte, im Nenner eine gewichtete Kombination beider Streuungen:

t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \cdot \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}}}t-Test (ungepaart, gleiche Varianzen)

Dabei ist sₚ die sogenannte gepoolte Standardabweichung — der gewichtete Durchschnitt der Standardabweichungen beider Gruppen:

s_p = \sqrt{\frac{(n_1 - 1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 - 2}}Gepoolte Standardabweichung

Wichtig: der ungepaarte t-Test setzt voraus, dass die Varianzen der beiden Gruppen ähnlich sind (Levene-Test oder Visual Check). Wenn die Varianzen stark abweichen, verwenden Sie die Welch-Korrektur, die statt der gepoolten Standardabweichung die getrennten Streuungen nutzt — viele Statistikpakete tun das automatisch.

Der Freiheitsgrad ist hier die Summe beider Stichprobengrößen minus 2 (n₁ + n₂ − 2). Der Rest der Auswertung — t-Wert berechnen, kritischen Wert aus der Tabelle ziehen, vergleichen — funktioniert identisch zum Einstichproben-Fall.

Gepaarter Zweistichproben-t-Test: dieselben Personen vorher und nachher

Der gepaarte t-Test ist konzeptionell der eleganteste: er vergleicht nicht zwei verschiedene Gruppen, sondern dieselbe Gruppe zu zwei Zeitpunkten. Vorher-Nachher-Studien, Pre-Test/Post-Test-Designs, A/B-Tests mit Wiederholung — überall, wo jede Messung einer früheren Messung zugeordnet werden kann.

Beispiel: Sie haben ein neues Onboarding-Programm für Mitarbeitende eingeführt. Vor der Einführung haben 60 neue Mitarbeitende Ihre Einarbeitungs-Erfahrung auf 1 bis 5 bewertet (Mittelwert 3,2). Nach der Programm-Reform und sechs Monaten Anwendung wiederholen Sie die Befragung mit derselben Personengruppe (Mittelwert 3,9). Frage: hat sich die Wahrnehmung signifikant verbessert, oder ist die Differenz Rauschen?

Statistisch ist der gepaarte t-Test eigentlich ein Einstichproben-Test auf den Differenzen: Sie berechnen für jede Person die Differenz zwischen Vorher- und Nachher-Wert (d = x_nachher − x_vorher) und prüfen dann, ob der Mittelwert dieser Differenzen von Null abweicht. Die Formel:

t = \frac{\bar{d}}{s_d \,/\, \sqrt{n}}t-Test (gepaart)

Hier ist d̄ der Mittelwert aller individuellen Differenzen, s_d die Standardabweichung der Differenzen und n die Anzahl der Paarungen. Der Freiheitsgrad ist n − 1 (wie beim Einstichproben-Fall), weil n hier nicht die Anzahl der Beobachtungen, sondern die Anzahl der Differenz-Werte ist.

Diese Konstruktion ist methodisch sauberer als zwei unabhängige Tests, weil die intra-personellen Unterschiede automatisch herausgerechnet werden — eine Person, die generell kritischer bewertet, kompensiert sich gegen sich selbst. Die statistische Power ist deshalb in der Regel höher als beim ungepaarten Test mit gleicher Fallzahl.

Stärke des Unterschieds einschätzen — Cohen's d

Statistische Signifikanz sagt nur, ob ein Unterschied existiert — nicht, wie groß er ist. Bei sehr großen Stichproben werden auch winzige Unterschiede signifikant, die praktisch bedeutungslos sind. Deshalb berichtet man neben dem p-Wert immer auch die Effektstärke. Für den t-Test ist das übliche Maß Cohen's d:

d = \frac{\bar{x}_1 - \bar{x}_2}{s_p}Cohen's d (Effektstärke beim t-Test)

Im Zähler steht die Differenz der Mittelwerte, im Nenner die gepoolte Standardabweichung. Anders als beim t-Wert wird hier nicht durch √n geteilt — Cohen's d ist unabhängig von der Stichprobengröße und beschreibt die reine Größe des Effekts. Cohen schlug folgende Faustregeln vor: d ≈ 0,2 = kleiner Effekt, d ≈ 0,5 = mittlerer Effekt, d ≈ 0,8 oder größer = starker Effekt. Wichtig: das sind Konventionen, keine Naturgesetze — in vielen Fachgebieten gelten andere Schwellen.

Was Cohen's d eigentlich aussagt — die Idee dahinter

Hinter Cohen's d steckt eine intuitive Frage: wie groß ist der Unterschied zwischen den Gruppen, gemessen in „Standardabweichungen einzelner Personen"?

Bei d = 0 liegen die Mittelwerte exakt aufeinander — kein Effekt. Bei d = 1 ist die Differenz so groß wie eine Standardabweichung der Daten: ein Mensch aus Gruppe A liegt im Schnitt eine ganze typische Streueinheit höher als ein Mensch aus Gruppe B. Das ist viel.

Anders gesagt: ein kleiner d-Wert bedeutet, dass sich die Verteilungen beider Gruppen stark überlappen — man kann eine einzelne Person nicht zuverlässig der einen oder anderen Gruppe zuordnen, nur weil man ihren Wert kennt. Ein großer d-Wert bedeutet starke Trennung — die Gruppen sind als Verteilungen klar unterscheidbar.

Im Berliner-vs-München-Beispiel oben: 4,1 vs 3,8 bei einer typischen Standardabweichung von etwa 1,0 ergibt d ≈ 0,3 — ein kleiner bis mittlerer Effekt. Der Unterschied ist real (sofern signifikant), aber er rechtfertigt keine grundlegende Standort-Restrukturierung.

Voraussetzungen — wann der t-Test passt und wann nicht

Der t-Test ist robust, aber nicht universell. Drei Voraussetzungen sollten Sie vor der Anwendung prüfen.

Erstens, das Skalenniveau. Die untersuchte Variable muss intervallskaliert sein (also Abstände sind interpretierbar — Temperatur, Gewicht, Einkommen, Likert-Summenwerte gelten als ausreichend). Reine Häufigkeiten oder Nominalwerte (Geschlecht, Produktpräferenz) sind ungeeignet — hier ist der Chi-Quadrat-Test der richtige Partner.

Zweitens, die Verteilung. Die Werte sollten annähernd normalverteilt sein. Bei ausreichend großer Stichprobe (n > 30 pro Gruppe) gilt der zentrale Grenzwertsatz und die Normalverteilungsannahme darf gelockert werden. Bei kleinen Stichproben mit schiefer Verteilung greifen Sie besser zu nicht-parametrischen Alternativen — Mann-Whitney-U beim ungepaarten Vergleich, Wilcoxon beim gepaarten.

Drittens, Unabhängigkeit der Beobachtungen. Wenn Sie 30 Mitarbeitende einer Abteilung und 30 Mitarbeitende einer anderen Abteilung befragen, sind die Beobachtungen innerhalb einer Abteilung nicht unabhängig (gemeinsame Vorgesetzte, gemeinsame Arbeitsbedingungen). Solche Cluster-Effekte verfälschen den t-Test — Mehrebenenanalyse wäre der saubere Weg.

Fazit

Der t-Test ist ein Werkzeug für eine konkrete Frage: ist der Mittelwert-Unterschied, den ich sehe, statistisch tragfähig? In dieser Spezifität ist er sehr gut. Sobald Sie aber kategoriale Variablen vergleichen, Zusammenhänge zwischen mehreren Variablen prüfen oder komplexere Studiendesigns auswerten wollen, brauchen Sie andere Verfahren. Hier gehört der Chi-Quadrat-Test in das Werkzeugkästchen daneben — er übernimmt, wo der t-Test aufhört.

In QUESTIONSTAR berechnen Sie t-Tests direkt in der Auswertungsansicht — t-Wert, p-Wert, Freiheitsgrad und Interpretationshinweis erscheinen automatisch, sobald Sie zwei Mittelwerte zum Vergleich auswählen.

Quellen

Bortz, Jürgen, und Christof Schuster: Statistik für Human- und Sozialwissenschaftler. 7. Auflage. Springer, 2010.
Field, Andy: Discovering Statistics Using IBM SPSS Statistics. 5. Edition. SAGE, 2018.
Schumann, Siegfried: Repräsentative Umfrage. 7. Auflage. De Gruyter Oldenbourg, 2019.