Chi-Quadrat-Test in Online-Umfragen: Zusammenhänge prüfen

Wenn Sie wissen wollen, ob zwei kategoriale Merkmale zusammenhängen — Geschlecht und Markenpräferenz, Bildungsabschluss und Wahlverhalten, Standort und Kundenzufriedenheit — ist der Chi-Quadrat-Test das passende Werkzeug. Hier die Methodik mit konkretem Beispiel.

In Umfragen erheben wir häufig kategoriale Daten — Geschlecht, Altersgruppe, Bildungsabschluss, Markenpräferenz, Wahlentscheidung, Wohnort. Die naheliegende Frage in der Auswertung lautet oft: hängen zwei dieser Merkmale zusammen? Bevorzugen Männer wirklich Marke A häufiger als Frauen? Korreliert der Wohnort mit der Wahlpräferenz? Hier kommt der Chi-Quadrat-Test ins Spiel.

Kategoriale (nominale) vs. metrische Daten — der entscheidende Unterschied

Kategoriale Daten — oft auch „nominal" genannt — ordnen Beobachtungen Klassen zu: Geschlecht (männlich/weiblich/divers), Markenpräferenz (Marke A/B/C), Wohnregion, Farbpräferenz. Wenn man diesen Klassen Zahlen zuordnet (Mann = 1, Frau = 2), sind diese Zahlen reine Etiketten, keine Werte. „Frau = 2" ist nicht „mehr" als „Mann = 1" — Mittelwerte sind sinnlos, „größer als"-Vergleiche unmöglich. Metrische Daten dagegen — Alter, Einkommen, Likert-Summenwerte — haben echte Größenrelationen: „40 Jahre" ist objektiv mehr als „30 Jahre". Statistische Tests sind auf jeweils eine dieser beiden Welten zugeschnitten. Der t-Test braucht metrische Daten (er vergleicht ja Mittelwerte). Für kategoriale Daten existiert ein eigenes Verfahren — der Chi-Quadrat-Test.

Im Unterschied zum t-Test, der Mittelwerte vergleicht, prüft der Chi-Quadrat-Test Häufigkeiten. Wenn Sie zwei Variablen jeweils in Kategorien erhoben haben, lässt sich auf Basis einer Kreuztabelle berechnen, ob die beobachteten Häufigkeitsverteilungen vom statistischen Zufall abweichen.

Was prüft der Chi-Quadrat-Test?

Die Logik ist erstaunlich einfach: Sie zählen, wie oft jede Kombination zweier Merkmale tatsächlich vorkommt, und vergleichen diese tatsächlichen Häufigkeiten mit den Häufigkeiten, die zu erwarten wären, wenn die beiden Merkmale völlig unabhängig voneinander wären. Sind die Abweichungen klein, sind die Merkmale wahrscheinlich unabhängig. Sind sie groß, gibt es einen Zusammenhang.

Der Chi-Quadrat-Wert quantifiziert genau diese Abweichung. Je größer er ist, desto stärker weichen die beobachteten von den erwarteten Häufigkeiten ab — und desto unwahrscheinlicher ist es, dass diese Abweichung nur durch Zufall entstanden ist.

Voraussetzungen

Bevor Sie rechnen, prüfen Sie drei Punkte. Erstens müssen beide Variablen kategorial sein (nominal oder ordinal — bei stetigen Variablen verwenden Sie den t-Test oder die Korrelation). Zweitens müssen die Beobachtungen unabhängig sein: eine Person darf nur einmal in der Tabelle stehen. Drittens darf in keiner Zelle die erwartete Häufigkeit unter 5 liegen — bei kleinen Stichproben oder vielen Kategorien wird der Test sonst unzuverlässig. Faustregel: höchstens 20 % der Zellen dürfen erwartete Werte unter 5 haben, keine darf bei Null oder darunter liegen.

Wenn die letzte Voraussetzung verletzt ist, gibt es Ausweichoptionen: Kategorien zusammenfassen (zwei schwach besetzte Altersklassen werden eine), exakte Tests (Fisher-Exact-Test für 2×2-Tabellen) oder andere Verfahren.

Schritt 1: Kreuztabelle aufstellen

Stellen Sie sich vor: Sie haben in einer Kundenumfrage 200 Personen befragt, ob sie unsere Marke (Marke A) oder die Wettbewerbsmarke (Marke B) bevorzugen — getrennt nach Geschlecht. Die Daten sehen so aus:

Beobachtet	Männer	Frauen	Zeilensumme
Marke A	52	38	90
Marke B	48	62	110
Spaltensumme	100	100	200

Auf den ersten Blick sieht es so aus, als würden Männer Marke A bevorzugen und Frauen Marke B. Aber ist diese Verteilung systematisch oder einfach Stichprobenstreuung?

Schritt 2: Erwartete Häufigkeiten berechnen

Wenn Geschlecht und Markenpräferenz tatsächlich unabhängig wären, müssten sich die Häufigkeiten proportional zur Gesamtverteilung aufteilen. 90 von 200 Befragten bevorzugen insgesamt Marke A — das sind 45 %. Wenn Geschlecht keine Rolle spielt, müssten in jeder Geschlechtsgruppe 45 % Marke A bevorzugen.

E_{ij} = \frac{R_i \cdot C_j}{N}Erwartete Häufigkeit pro Zelle

Dabei ist Rᵢ die Zeilensumme der Zelle, Cⱼ die Spaltensumme und N die Gesamtsumme. Für die Männer-Marke-A-Zelle: (90 × 100) ÷ 200 = 45.

Die vollständige Tabelle der erwarteten Häufigkeiten sieht so aus:

Erwartet (bei Unabhängigkeit)	Männer	Frauen
Marke A	45	45
Marke B	55	55

Schritt 3: Chi-Quadrat-Wert berechnen

Für jede Zelle berechnen Sie die quadrierte Abweichung der beobachteten von der erwarteten Häufigkeit, geteilt durch die erwartete Häufigkeit. Dann summieren Sie über alle Zellen.

\chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}Chi-Quadrat-Wert

Was Chi-Quadrat misst — die Idee hinter der Formel

Hinter dieser Formel steckt eine erstaunlich einfache Idee. Jeder Summand prüft eine einzelne Zelle: wie weit weicht der tatsächliche Wert von dem ab, was wir erwartet hätten? In unserer Tabelle bevorzugen 52 Männer Marke A — erwartet hätten wir 45. Die Abweichung ist 7. Das ist der Kern jeder Zelle.

Drumherum kommen zwei Tricks. Erstens: wir quadrieren die Abweichung. Nicht, um sie größer aussehen zu lassen — sondern damit eine Abweichung von +7 in einer Zelle und eine von −7 in einer anderen sich nicht gegenseitig wegheben, wenn wir am Ende zusammenrechnen. Beide sind echte Abweichungen, beide sollen zählen.

Zweitens: wir teilen durch die erwartete Häufigkeit. Warum? Eine Abweichung von 5 bei einer erwarteten Zahl von 5 ist riesig (das Doppelte des Erwarteten). Dieselbe Abweichung von 5 bei einer erwarteten Zahl von 500 ist fast nichts. Diese Division macht die Abweichungen über Zellen mit unterschiedlich großen Erwartungen vergleichbar.

Dann summieren wir alles auf — und bekommen Chi-Quadrat. Was sagt der Wert? Wäre er Null, würden die Daten genau zu der Erwartung passen, dass die beiden Merkmale unabhängig sind. Je größer er ist, desto weiter weichen Ihre Beobachtungen davon ab — und desto unwahrscheinlicher ist es, dass das nur Zufall ist.

O steht dabei für die beobachtete (observed), E für die erwartete (expected) Häufigkeit pro Zelle. In unserem Beispiel: (52−45)² ÷ 45 + (38−45)² ÷ 45 + (48−55)² ÷ 55 + (62−55)² ÷ 55 = 1,089 + 1,089 + 0,891 + 0,891 ≈ 3,96.

Schritt 4: Freiheitsgrade und Signifikanzniveau

Der berechnete Chi-Quadrat-Wert ist allein noch nicht aussagekräftig — er muss mit einem kritischen Wert verglichen werden, der zwei Bezugsgrößen berücksichtigt.

Freiheitsgrade. Für eine Kreuztabelle berechnen sie sich als (Anzahl Zeilen − 1) × (Anzahl Spalten − 1). Bei einer 2×2-Tabelle wie unserer: (2−1) × (2−1) = 1 Freiheitsgrad. Bei einer 3×4-Tabelle wären es 6.

Was Freiheitsgrade eigentlich sind — eine kurze Einsicht

„Freiheitsgrade" klingt nach Statistik-Jargon — sind aber ganz konkret zählbar. Die Idee dahinter: wenn die Zeilen- und Spaltensummen Ihrer Tabelle schon feststehen, in wie viele Zellen können Sie dann noch frei eine Zahl eintragen, ohne dass am Ende etwas nicht aufgeht?

Bei unserer 2×2-Tabelle hat Zeile 1 die Summe 90, Zeile 2 die Summe 110, beide Spalten haben 100. Schreiben Sie in die obere linke Zelle die Zahl 10 — und alles andere ist sofort festgelegt. Rechts oben muss 80 stehen (damit Zeile 1 auf 90 kommt), links unten 90 (damit Spalte 1 auf 100 kommt), rechts unten 20 (damit der Rest aufgeht). Nur eine einzige Zelle war wirklich frei wählbar — das ist 1 Freiheitsgrad.

Bei einer 3×4-Tabelle blieben 6 Zellen frei, die anderen 6 ergäben sich automatisch — deshalb die Formel (3−1) × (4−1) = 6.

Warum das wichtig ist: die Chi-Quadrat-Verteilung sieht je nach Freiheitsgrad anders aus. Aus einer Tabelle mit mehr Zellen kann der Wert allein durch Zufallseffekte größer werden — die Schwelle, ab der man von „signifikant" spricht, wandert deshalb mit der Tabellengröße mit. Genau deshalb steht in der Statistiktabelle für jeden Freiheitsgrad ein eigener kritischer Wert.

Signifikanzniveau. Üblicherweise 5 % (also α = 0,05), in besonders sensiblen Studien 1 %. Das ist die akzeptierte Irrtumswahrscheinlichkeit für die fälschliche Ablehnung der Unabhängigkeits-Hypothese.

Was „5 %" wirklich heißt — die Wahrscheinlichkeit im Klartext

Was bedeuten diese 5 % im Klartext? Stellen Sie sich vor, Sie führen Ihre Befragung hundertmal hintereinander durch — jedes Mal mit anderen Personen, aber unter exakt denselben Bedingungen. Und nehmen wir an, in Wirklichkeit gäbe es zwischen den beiden Merkmalen gar keinen echten Zusammenhang.

Bei einem Signifikanzniveau von 5 % würden Sie trotzdem in etwa 5 dieser 100 Durchläufe einen Zusammenhang „erkennen" — obwohl er objektiv nicht existiert. Das sind die zufälligen Ausreißer, die wir bewusst in Kauf nehmen.

Mit 1 % wäre es nur etwa 1 von 100 Durchläufen — der Test wird strenger, aber Sie brauchen dann auch eine stärkere Abweichung in den Daten, damit überhaupt etwas signifikant wird.

Welches Niveau Sie wählen, hängt vom Risiko ab: bei normaler Marktforschung reichen die üblichen 5 %, bei klinischen Studien oder rechtlich relevanten Befragungen wählt man konservativer.

Was ist der „kritische Wert" — und woher kommt er?

Woher kommt dieser „kritische Wert" eigentlich? Statistiker haben schon vor langer Zeit für jede mögliche Kombination aus Freiheitsgrad und Signifikanzniveau eine Schwelle berechnet.

Die Idee dahinter: Wenn ein Chi-Quadrat-Wert unter der Annahme von Unabhängigkeit nur in 5 % aller zufälligen Stichproben überschritten würde, dann ist genau dieser Wert die „5-%-Schwelle". Liegt Ihr selbst berechneter Wert darüber, halten wir das Ergebnis nicht mehr für Zufall — und sprechen von einem signifikanten Zusammenhang.

Statt diese Schwelle für jedes Setup neu auszurechnen, schaut man einfach in die Chi-Quadrat-Verteilungstabelle: die Werte sind dort längst für jeden Freiheitsgrad und jedes übliche Niveau tabelliert. Bei Freiheitsgrad 1 und α = 0,05 steht dort 3,841.

Wenn Ihr berechneter Chi-Quadrat-Wert darüber liegt, gehören Sie zu den 5 % aller möglichen Stichproben, die so extrem aussehen würden — selbst wenn in Wirklichkeit gar kein Zusammenhang da wäre. Sie verwerfen die Annahme der Unabhängigkeit und akzeptieren bewusst, dass Sie in genau diesen 5 % aller Wiederholungen mit Ihrer Aussage falsch liegen würden.

In unserem Beispiel: Freiheitsgrad 1, α = 0,05 → kritischer Wert 3,841. Unser berechneter Chi-Quadrat-Wert von 3,96 liegt knapp darüber. Die Nullhypothese „Geschlecht und Markenpräferenz sind unabhängig" wird abgelehnt. Es gibt einen statistisch signifikanten Zusammenhang.

Schritt 5: Stärke des Zusammenhangs einschätzen

Statistische Signifikanz sagt nur, ob ein Zusammenhang existiert — nicht, wie stark er ist. Bei großen Stichproben werden auch sehr kleine Effekte signifikant. Für die Effektgröße verwenden Sie ergänzende Maße:

Phi-Koeffizient (für 2×2-Tabellen) oder Cramérs V (für größere Tabellen). Werte um 0,1 gelten als schwacher, um 0,3 als mittlerer, ab 0,5 als starker Zusammenhang. In unserem Beispiel beträgt Cramérs V ungefähr 0,14 — ein schwacher Zusammenhang, der trotz Signifikanz nicht zu einer Marketing-Kehrtwende führen sollte.

Was die Effektstärke-Werte eigentlich aussagen — die Idee dahinter

Was sagen diese Zahlen eigentlich aus? Die Idee dahinter: je höher der Koeffizient, desto mehr „verrät" Ihnen die eine Variable über die andere.

Bei einem Wert von 1 könnten Sie — wenn Sie nur die Kategorie der ersten Variable kennen — die Kategorie der zweiten zu 100 % korrekt vorhersagen. Anders gesagt: alle Männer würden eine andere Marke wählen als alle Frauen, eine perfekte Trennung.

Bei einem Wert von 0 bringt die Kenntnis der ersten Variable überhaupt keinen Vorteil — die Verteilung der zweiten Variable ist in beiden Gruppen identisch, also reine Unabhängigkeit.

Werte dazwischen liegen entsprechend zwischen „kompletter Information" und „keinerlei Information". Unser Cramérs V von 0,14 sagt also: das Wissen um das Geschlecht hilft uns ein wenig, die Markenpräferenz vorherzusagen — aber wirklich nur ein wenig.

Wichtig: diese Aussage gilt für die konkrete Stichprobe, die Sie befragt haben — nicht automatisch für die gesamte Grundgesamtheit.

Wann der Chi-Quadrat-Test nicht passt

Der Chi-Quadrat-Test ist auf zwei kategoriale Variablen beschränkt. Sobald Sie mehr als zwei Variablen gleichzeitig untersuchen wollen (Geschlecht × Altersgruppe × Markenpräferenz), brauchen Sie loglineare Modelle. Wenn eine der Variablen ordinal ist und Sie die Ordnung mit auswerten wollen (statt sie zu ignorieren), prüfen Sie den Mantel-Haenszel-Test oder die ordinale Regression.

Und wie oben erwähnt: bei kleinen erwarteten Häufigkeiten wechseln Sie zum Fisher-Exact-Test. Der ist mathematisch eleganter, in der Auswertung aber rechenintensiver — moderne Statistikpakete erledigen das automatisch.

Fazit

Der Chi-Quadrat-Test ist das Standardwerkzeug für die Auswertung von Zusammenhängen zwischen kategorialen Variablen. Er ist methodisch einfach, intuitiv verständlich und in jeder Statistiksoftware verfügbar. Wichtig ist, ihn nicht als Endpunkt zu verstehen: Signifikanz allein sagt nichts über die praktische Relevanz. Erst mit ergänzender Effektgröße (Phi, Cramérs V) wird ein vollständiges Bild daraus.

In QUESTIONSTAR erstellen Sie Kreuztabellen mit zwei Klicks direkt in der Auswertungsansicht — der Chi-Quadrat-Wert, der p-Wert und Cramérs V werden automatisch berechnet und angezeigt.

Quellen

Bortz, Jürgen, und Nicola Döring: Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler. 4. Auflage. Springer, 2006.
Agresti, Alan: An Introduction to Categorical Data Analysis. 3. Edition. Wiley, 2018.
Field, Andy: Discovering Statistics Using IBM SPSS Statistics. 5. Edition. SAGE, 2018.