Auswertung von Online-Umfragen: vom Erkenntnisziel zum Ergebnis

Die häufigste Auswertungs-Frage lautet: «Daten sind da, was jetzt?» Die ehrliche Antwort: dafür ist es schon spät. Die wichtigsten Entscheidungen über Ihre Auswertung treffen Sie nicht nach der Datenerhebung, sondern davor — wenn Sie überlegen, welche praktische Frage Ihre Umfrage eigentlich beantworten soll. In sieben Schritten vom Erkenntnisziel zum belastbaren Ergebnis.

Die häufigste Frage zur Auswertung lautet: «Die Daten sind da — was mache ich jetzt damit?» Die ehrliche Antwort: dafür ist es schon spät. Die wichtigste Entscheidung über Ihre Auswertung haben Sie längst getroffen — bewusst oder unbewusst — als Sie überlegten, welche Fragen Sie überhaupt stellen.

Wer ohne klare Entscheidungsfrage in eine Umfrage geht, sammelt Antworten, mit denen er hinterher nichts anfangen kann. Keine statistische Methode rettet einen Datensatz, der nie für eine konkrete Frage erhoben wurde. Skalenniveau, Lagemaße, Visualisierungen — das alles ist Handwerk. Das Material aber bestimmen Sie früher, beim Aufsetzen der Umfrage.

Dieser Artikel führt Sie durch sieben Schritte: vom Erkenntnisziel (Schritt 1) über die handwerkliche deskriptive Auswertung (Schritte 2 bis 6) bis zur Hypothesenprüfung (Schritt 7). Der erste Schritt ist der wichtigste — und wenn Sie ihn vor der Erhebung erledigt haben, fallen die anderen fast von alleine.

Schritt 1: Wissen, welche Entscheidung die Daten informieren sollen

Bevor Sie die erste Frage formulieren, müssen Sie drei Fragen für sich beantworten. Welche praktische Entscheidung wollen Sie mit den Daten unterstützen? Welche Antworten wären actionable — würden zu einer konkreten Maßnahme führen? Welche wären lediglich «nice to know» — interessant, aber ohne Konsequenz?

Actionable bedeutet: wenn Sie das Ergebnis sehen, können Sie sagen «also machen wir A» oder «also machen wir B». Nice-to-know bedeutet: wenn Sie das Ergebnis sehen, sagen Sie «aha, interessant» — und nichts ändert sich. Beide haben ihren Platz, aber Sie sollten wissen, welche Sorte Sie gerade erheben. Wer den ganzen Fragebogen mit Nice-to-know-Items füllt, erhebt teure Daten, die im Bericht versanden.

Konkretes Beispiel: Mitarbeiterbefragung zur Zufriedenheit.
Vorgehen A («so geht es nicht»): «Wir wollen wissen, wie zufrieden unsere Mitarbeitenden sind.» Daraus folgen 30 Items zu allgemeiner Zufriedenheit, Stimmung, Kollegialität, Führung. Am Ende liegt ein Mittelwert von 3,7 auf einer Fünf-Punkte-Skala vor. Und jetzt? Niemand weiß, was zu tun ist.
Vorgehen B («so geht es»): «Wir wollen entscheiden, ob wir das Onboarding-Programm für Neueinsteiger ausbauen oder unverändert lassen.»
Daraus folgen gezielte Items zur Zufriedenheit in den ersten sechs Monaten, zu konkreten Onboarding-Aspekten (Buddy-System, fachliche Einarbeitung, Feedback-Gespräche), plus eine demografische Variable «Eintrittsdatum» als Filter. Das Auswertungsziel ist von vornherein klar: Median pro Onboarding-Aspekt in der Subgruppe der Beschäftigten mit weniger als sechs Monaten Zugehörigkeit.
Am Ende liegen Werte vor, aus denen sich direkt eine Entscheidung ableiten lässt: welcher Onboarding-Aspekt ausgebaut wird, welcher bleibt.

Beide Befragungen kosten ungefähr gleich viel Zeit und Geld. Die zweite produziert Daten, die eine Entscheidung tragen. Die erste produziert Daten, die einen Bericht tragen — und dann im Ordner liegen.

Praktische Konsequenz für Ihre Vorbereitung: schreiben Sie die Entscheidung, die Sie unterstützen wollen, in einem einzigen Satz auf. Wenn das nicht gelingt, ist die Entscheidung noch nicht klar formuliert — und die Umfrage wird unklare Daten produzieren. Erst wenn dieser Satz steht, leiten Sie die Variablen ab: welche brauchen Sie inhaltlich, welche als Filter, welche als demografische Klassifikation, in welchem Skalenniveau, mit welcher angestrebten Auswertungs-Operation. Diese Vorarbeit nimmt eine halbe Stunde in Anspruch. Sie spart später Tage.

Wenn Sie diesen Schritt sauber erledigt haben, sind die nächsten sechs nicht mehr als handwerkliche Umsetzung dessen, was Sie schon entschieden haben. Wenn Sie ihn übersprungen haben, helfen weder das richtige Skalenniveau noch die schönste Visualisierung. Dann sammeln Sie Zahlen, aber keine Antworten.

Schritt 2: Skalenniveau bestimmen

Bevor Sie irgendetwas berechnen, identifizieren Sie für jede Variable das Skalenniveau. Es entscheidet darüber, welche Lagemaße, Streuungsmaße und Visualisierungen zulässig sind. Drei Niveaus sind in Umfragen relevant.

Nominalskala. Daten ohne natürliche Reihenfolge. Beispiele: Geschlecht, Bundesland, Branche, Lieblingsmarke. Hier ist nur der Modus als Lagemaß sinnvoll — Mittelwert und Median ergeben keinen Sinn.

Ordinalskala. Daten mit natürlicher Reihenfolge, aber ohne quantifizierbare Abstände. Klassisches Beispiel: Likert-Skalen («trifft gar nicht zu» bis «trifft voll zu»). Modus und Median sind sinnvoll; der Mittelwert ist methodisch umstritten, weil die Abstände zwischen den Stufen nicht garantiert gleich groß sind.

Metrische Skala. Daten mit natürlicher Reihenfolge und quantifizierbaren, gleichgroßen Abständen. Beispiele: Alter in Jahren, Einkommen in Euro, Anzahl Mitarbeiter. Alle drei Lagemaße sind anwendbar.

Schritt 3: Häufigkeiten berechnen

Häufigkeiten beantworten die Grundfrage: wie verteilen sich die Antworten? Drei Varianten sind zu unterscheiden.

Absolute Häufigkeit. Die nackte Anzahl: wie oft kommt jeder Wert vor. Bei einer Umfrage zu bevorzugten Kommunikationskanälen mit 200 Teilnehmenden könnten 80 «E-Mail» wählen, 60 «Telefon», 50 «Chat», 10 «Brief». Die absolute Häufigkeit ist 80, 60, 50, 10.

Relative Häufigkeit. Die absolute Häufigkeit geteilt durch die Gesamtzahl der Antworten — meist in Prozent ausgedrückt. Im Beispiel: 40 %, 30 %, 25 %, 5 %. Relative Häufigkeiten sind die Standard-Darstellungsform in Berichten, weil sie über unterschiedlich große Stichproben vergleichbar sind.

Kumulierte Häufigkeit. Die laufende Summe der relativen Häufigkeiten. Sinnvoll bei ordinal- oder metrisch skalierten Daten. Beispiel: in einer Altersbefragung sind 30 % unter 30 Jahre, weitere 35 % zwischen 30 und 45, weitere 25 % zwischen 45 und 60, die restlichen 10 % über 60. Die kumulierten Werte: 30 %, 65 %, 90 %, 100 %. Aus ihnen lesen Sie ab, dass zwei Drittel der Stichprobe unter 45 Jahre alt sind.

Bei Variablen mit sehr vielen Ausprägungen — etwa Einkommen oder Alter in Einzeljahren — empfiehlt sich die Gruppierung in Klassen. Statt «38 Jahre, 39 Jahre, 40 Jahre …» betrachten Sie Altersgruppen «25 — 34», «35 — 44», «45 — 54». Die Gruppierung sollte vor der Datenerhebung festgelegt werden, nicht nachträglich angepasst, um ein Wunschergebnis zu erzeugen.

Schritt 4: Lagemaße berechnen

Lagemaße verdichten eine Verteilung auf eine einzelne Zahl, die das Zentrum beschreibt. Drei sind in der Praxis relevant.

Arithmetisches Mittel (Mittelwert)

Die Summe aller Werte geteilt durch ihre Anzahl. Anwendbar nur auf metrische Daten. Stark anfällig für Ausreißer: ein einziger Extremwert kann das Ergebnis erheblich verzerren. Wer in einer Einkommenserhebung den Mittelwert über alle Teilnehmenden berechnet, bekommt einen Wert, der durch wenige sehr hohe Einkommen nach oben gezogen wird — und der die Lage des typischen Teilnehmers überzeichnet.

Median

Der Wert, der die nach Größe sortierte Verteilung in zwei gleich große Hälften teilt: 50 % der Daten liegen darunter, 50 % darüber. Anwendbar auf ordinale und metrische Daten. Robust gegen Ausreißer — ein einzelner Extremwert verändert den Median nicht. Bei schiefer Verteilung (Einkommen, Wartezeiten, Antwortdauern) ist der Median fast immer aussagekräftiger als der Mittelwert.

Modus

Der am häufigsten vorkommende Wert. Anwendbar auf alle Skalenniveaus, einziges sinnvolles Lagemaß bei nominalskalierten Daten. Bei mehrgipfligen Verteilungen kann es mehrere Modi geben — dann ist die Angabe eines einzigen «zentralen Wertes» ohnehin irreführend, und der Modus warnt davor.

Faustregel für die Auswahl: bei nominalen Daten nur Modus. Bei ordinalen Daten Modus und Median. Bei metrischen Daten alle drei berechnen — und prüfen, ob Mittelwert und Median deutlich auseinanderliegen. Ist die Differenz groß, ist die Verteilung schief, und der Median ist die ehrlichere Kennzahl.

Schritt 5: Streuungsmaße berücksichtigen

Ein Lagemaß allein ist selten genug. Zwei Stichproben können denselben Mittelwert haben und trotzdem völlig unterschiedlich aussehen — in der einen liegen alle Werte eng beieinander, in der anderen ist die Streuung enorm. Streuungsmaße quantifizieren diese Unterschiede.

Spannweite. Maximum minus Minimum. Einfachstes, aber durch Ausreißer leicht verzerrtes Maß. Schnell zu berechnen, schnell zu kommunizieren — methodisch eher Orientierungswert.

Quartile und Interquartilsabstand. Die Quartile teilen die sortierten Daten in vier gleich große Gruppen. Das untere Quartil (Q1) markiert die Grenze zu den niedrigsten 25 %, das obere Quartil (Q3) zu den höchsten 25 %. Der Interquartilsabstand (Q3 minus Q1) erfasst die mittleren 50 % der Verteilung und ist robust gegen Ausreißer.

Standardabweichung und Varianz. Die mittlere quadratische Abweichung der Werte vom Mittelwert. Anwendbar nur auf metrische Daten. Die Standardabweichung ist die Wurzel der Varianz und in der gleichen Maßeinheit wie die Originaldaten — deshalb in Berichten verständlicher als die Varianz selbst.

Schritt 6: Passende Visualisierungen wählen

Welche Darstellungsform die richtige ist, hängt vom Skalenniveau und von der Botschaft ab. Die wichtigsten Optionen für Umfragedaten:

Säulen- und Balkendiagramm. Standardform für absolute oder relative Häufigkeiten von nominal- oder ordinalskalierten Daten. Säulen vertikal, Balken horizontal — die Wahl ist meist eine Frage der Beschriftung: lange Kategorienamen lesen sich besser horizontal.

Kreisdiagramm. Geeignet, wenn die Aufteilung eines Ganzen in wenige (maximal fünf, sechs) Kategorien gezeigt werden soll. Bei mehr Kategorien verliert das Kreisdiagramm an Lesbarkeit — ein Balkendiagramm ist dann fast immer die bessere Wahl.

Boxplot. Verdichtet eine Verteilung auf fünf Kennzahlen: Minimum, unteres Quartil, Median, oberes Quartil, Maximum. Ideal für den Vergleich mehrerer Gruppen — etwa wenn Sie die Verteilung der Kundenzufriedenheit über mehrere Niederlassungen visualisieren möchten. Streuung, Schiefe und Ausreißer sind auf einen Blick erkennbar.

Streudiagramm. Zeigt den Zusammenhang zweier metrischer Variablen. Jeder Punkt repräsentiert eine Antwort, die Lage in beiden Dimensionen ist die Antwort auf beide Fragen. Sinnvoll zur visuellen Prüfung von Korrelationen, bevor man formale Korrelationskoeffizienten berechnet.

Radardiagramm. Stellt mehrere Dimensionen einer Bewertung gleichzeitig dar. Häufig genutzt für Image- und Kompetenzprofile: «wie wird unser Unternehmen in den Dimensionen Innovation, Service, Preis, Qualität, Nachhaltigkeit wahrgenommen?». Funktioniert gut für vier bis acht Dimensionen.

Wordcloud. Für offene Antworten. Die Häufigkeit der Wörter wird durch die Schriftgröße abgebildet. Schneller Überblick über die dominanten Themen — aber kein Ersatz für eine inhaltsanalytische Auswertung, die Kontext und Konnotation berücksichtigt.

In QUESTIONSTAR sind alle genannten Visualisierungen direkt im Auswertungs-Modul verfügbar. Sie wechseln zwischen Darstellungsarten per Klick, ohne die Daten zu exportieren. Für strukturelle Detailanalysen — Subgruppen-Vergleiche, Kreuztabellen, Filter-Kombinationen — steht zusätzlich der Export nach Excel, CSV oder SPSS zur Verfügung.

Schritt 7: Hypothesen prüfen

Bis hierher beschreibt die Auswertung. Was sie noch nicht tut: prüfen, ob beobachtete Unterschiede statistisch belastbar sind. Genau dafür gibt es die inferenzstatistischen Verfahren.

Für den Vergleich von Mittelwerten — etwa Zufriedenheit in zwei Abteilungen, oder vor und nach einer Maßnahme — ist der t-Test das Standardverfahren. Eine ausführliche Anleitung mit Beispielen finden Sie in unserem Artikel Der t-Test — Mittelwerte methodisch sauber vergleichen.

Für den Vergleich von Häufigkeitsverteilungen — etwa ob die Verteilung der bevorzugten Kommunikationskanäle zwischen Altersgruppen unterschiedlich ist — ist der Chi-Quadrat-Test das passende Verfahren. Details im Artikel Der Chi-Quadrat-Test in Online-Umfragen.

Für die Aggregation mehrerer Items zu einem Skalenwert — typischer Fall bei Multi-Item-Likert-Skalen für Konstrukte wie Mitarbeiter-Identifikation oder Markenloyalität — finden Sie methodische Hinweise im Artikel Aggregation von Multi-Item-Likert-Skalen.

Fazit

Eine saubere Auswertung folgt einer klaren Reihenfolge: das Erkenntnisziel formulieren, das Skalenniveau klären, Häufigkeiten berechnen, Lagemaße und Streuungsmaße bestimmen, passende Visualisierungen wählen, gegebenenfalls inferenzstatistische Verfahren anwenden. Wer in dieser Sequenz vorgeht — und die erste Entscheidung schon vor der Datenerhebung trifft — vermeidet die häufigsten methodischen Fehler und kommt zu Ergebnissen, die sich vor Fachpublikum, Geschäftsleitung und Auditor bewähren.

In QUESTIONSTAR sind die deskriptiven Auswertungsschritte automatisiert: Häufigkeiten, Mittelwerte und Visualisierungen erscheinen direkt im Auswertungs-Modul. Für vertiefte Analysen exportieren Sie die Rohdaten nach Excel oder SPSS und arbeiten dort mit der vollen Palette inferenzstatistischer Methoden. Wenn Sie bei der Auswahl der passenden Methode unsicher sind, schreiben Sie uns — Methodenfragen beantworten wir auch ohne Vertrag.

Quellen

Bortz, Jürgen, und Christof Schuster: Statistik für Human- und Sozialwissenschaftler. 7. Auflage. Springer, 2010.
Eid, Michael, Mario Gollwitzer und Manfred Schmitt: Statistik und Forschungsmethoden. 5. Auflage. Beltz, 2017.
Fahrmeir, Ludwig, Christian Heumann, Rita Künstler, Iris Pigeot und Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer Spektrum, 2016.