Likert-Skalen erstellen: 5 Aspekte methodisch korrekt

Die Likert-Skala ist die meistverwendete Form der Ratingskala in der empirischen Sozialforschung — vorgestellt 1932 vom amerikanischen Psychologen Rensis Likert, seit dem mit zahllosen Varianten weitergedacht. Sie misst nicht beobachtbare Konstrukte: Einstellungen, Zufriedenheit, Wichtigkeitsurteile, Kaufabsichten. Was man methodisch verlangt, ist Einfachheit für die Befragten und Genauigkeit für die Auswertung. Diese beiden Ziele stehen in einem Spannungsverhältnis, das die fünf folgenden Entscheidungen austarieren.

Aspekt 1 — wie viele Antwortkategorien?

In Lehrbüchern und Methodensammlungen findet sich keine kanonische Zahl, sondern eine Spanne: vier bis neun Kategorien. Die häufigsten Designs in der Praxis sind die fünf- und die siebenstufige Skala. Welche Sie wählen, hängt von drei Faktoren ab.

Erstens, die Differenzierbarkeit der Sprache. Eine Skala muss benannt werden können. Mit fünf Stufen schreiben Sie problemlos „stimme nicht zu — stimme eher nicht zu — weder noch — stimme eher zu — stimme zu". Bei sieben Stufen wird es enger, bei neun Stufen wird es künstlich. Was Sie sprachlich nicht klar voneinander abgrenzen können, ist auch kognitiv nicht klar abgrenzbar — die Befragten raten dann.

Zweitens, das Medium. Auf einem Smartphone werden lange horizontale Skalen entweder zu schmal oder müssen scrollen. In einer Telefonbefragung müssen alle Kategorien vorgelesen werden — sieben sind dann das pragmatische Maximum, an das sich die Befragten noch erinnern. In einer Paper-Pencil-Befragung kommen Platzfragen dazu.

Drittens, der Auswertungszweck. Je feiner die Skala, desto höher die theoretisch erreichbare statistische Auflösung. Aber: jede zusätzliche Stufe bringt nur einen abnehmenden Grenznutzen, weil die Befragten gar nicht so fein differenzieren können wie das Tool. Korrelationsbasierte Analysen profitieren von fünf bis sieben Stufen; weiter zu gehen bringt selten echten Erkenntnisgewinn.

Aspekt 2 — balanciert oder nicht?

Eine balancierte Likert-Skala enthält gleich viele zustimmende wie ablehnende Kategorien. Eine nicht balancierte Skala verschiebt das Gewicht — zum Beispiel drei positive Kategorien („stimme voll zu" / „stimme zu" / „stimme eher zu") gegen nur eine negative („stimme nicht zu"). Auf den ersten Blick wirkt der Unterschied harmlos, in den Daten ist er es nicht.

Nicht balancierte Skalen erzeugen einen unsichtbaren Sog in Richtung der überrepräsentierten Seite. Die Befragten orientieren sich an der angebotenen Auswahl und lesen aus dem Skalenangebot ein erwartetes Antwortmuster heraus — „die positive Antwort ist offenbar die normale". Dieser Bias ist methodisch gut dokumentiert und kann die Befunde einer Studie deutlich verzerren.

Zur Balance gehört außerdem, dass die semantischen Abstände zwischen den Kategorien gleichmäßig verteilt sind. „Stimme voll und ganz zu — stimme überwiegend zu — weder noch — stimme nicht zu — stimme überhaupt nicht zu" sieht balanciert aus (zwei positive, zwei negative, eine Mitte), ist es aber bei genauerem Hinsehen nicht: zwischen „weder noch" und „stimme nicht zu" fehlt ein Schritt, der auf der positiven Seite vorhanden ist. Sauberer wäre „stimme voll und ganz zu — stimme zu — weder noch — stimme nicht zu — stimme überhaupt nicht zu" — gleicher Schritt zwischen allen Kategorien.

Im Zweifel: vor der Feldphase eine kollegiale Lesedurchsicht. Ungleichgewichte in Skalen sind, wenn man weiß, wonach man sucht, in dreißig Sekunden gefunden. Im Datensatz später nicht mehr.

Aspekt 3 — gerade oder ungerade Anzahl an Stufen?

Eine ungerade Anzahl von Kategorien hat eine neutrale Mitte („weder noch"). Eine gerade Anzahl hat keine — die Befragten müssen sich zu einer Seite bekennen. Die Wahl ist ein bewusstes Design-Statement.

Eine neutrale Mitte ist sinnvoll, wenn Sie davon ausgehen, dass eine substanzielle Minderheit der Befragten tatsächlich keine Position hat — bei abstrakten Themen, bei Fragen zu kaum bekannten Objekten, bei sensiblen oder politisch aufgeladenen Inhalten. Wer die Mitte streicht, riskiert „Tendenz zur Mitte" als Forced-Choice-Artefakt: Befragte wählen dann die nächste Kategorie nach oben oder unten ohne erkenntnisbedingten Anker.

Eine gerade Anzahl von Stufen ohne Mitte ist sinnvoll, wenn das Konstrukt eine Stellungnahme erfordert. Bei Wichtigkeitsbewertungen („wichtig — eher wichtig — eher unwichtig — unwichtig") will man wissen, in welche Richtung die Tendenz geht. Eine Mittelposition wäre hier inhaltlich meist nicht informativ.

Eine gute Faustregel: Wenn Sie sich nicht entscheiden können, fragen Sie sich — würde ich diese Daten verwenden können, wenn vierzig Prozent der Antworten in der Mitte landen? Wenn ja, lassen Sie die Mitte drin. Wenn nicht, nehmen Sie eine gerade Anzahl.

Aspekt 4 — Antwortpflicht oder „weiß nicht"?

Verwandt mit der Frage nach der Mitte, aber davon zu unterscheiden, ist die Frage nach einer expliziten „weiß nicht"-Option. Sie erfasst einen anderen kognitiven Zustand: nicht „mir ist es egal" (das wäre die neutrale Mitte), sondern „ich habe zu diesem Punkt keine Information oder Meinung".

Die Versuchung, „weiß nicht" rauszulassen, ist verständlich — man möchte Antworten, nicht Verweigerungen. Aber: erzwungene Antworten von Befragten, die das Thema nicht kennen, sind Rauschen. Sie verbessern die Auswertung nicht; sie machen sie nur störanfälliger.

Eine pragmatische Faustregel: Verwenden Sie „weiß nicht", wenn die Frage Spezialwissen voraussetzt oder Inhalte berührt, zu denen einige Befragte plausibel keine Meinung haben (Politik, Wissenschaftsthemen, persönlich-sensible Bereiche). Verzichten Sie darauf, wenn das Thema universell zugänglich ist (Zufriedenheit mit dem eigenen Arbeitsplatz, eigene Konsumpräferenzen).

Eine zweite Variante: „keine Angabe" als ausdrückliche Verweigerungs-Option. Diese ist methodisch enger als „weiß nicht" — die Befragten wissen die Antwort, möchten sie aber nicht offenlegen. In QUESTIONSTAR werden beide Optionen separat ausgewertet, sodass Sie nachträglich unterscheiden können.

Aspekt 5 — alle Stufen beschriften oder nur die Endpunkte?

Drei Varianten kommen in der Praxis vor: vollständig verbal beschriftete Skalen, nur an den Endpunkten beschriftete Skalen (Endpunkt-Skalierung) und reine Zahlenskalen ohne Worte. Die methodische Forschung zu dieser Frage ist eindeutig — und zwar in einer Richtung, die viele zunächst überrascht: für das Antwortverhalten der Befragten macht es praktisch keinen Unterschied, ob nur die beiden äußeren Stufen oder alle Skalenpunkte beschriftet werden.

Die Wahl ist deshalb weniger eine methodische als eine pragmatische. Vollständige Beschriftung gibt jeder Stufe einen sprachlichen Anker — das hilft Befragten, die schnell lesen, und macht den Fragebogen für Außenstehende leichter zu interpretieren. Der Preis: man muss für jede Stufe eine plausible Bezeichnung finden, und die Sprache wird ab fünf bis sieben Stufen unweigerlich künstlich.

Endpunkt-Skalierung („trifft völlig zu" auf der einen Seite, „trifft überhaupt nicht zu" auf der anderen, dazwischen leere Punkte) verlangt von den Befragten einen eigenen inneren Maßstab. Das funktioniert gut bei kulturell etablierten Skalen (Schulnoten, NPS) und ist bei mehrsprachigen Studien oft die sauberere Lösung — die semantische Übersetzung mittlerer Stufen wie „trifft etwas weniger zu" ist sprachübergreifend selten genau gleichwertig, die Pole dagegen schon.

Reine Zahlenskalen ohne Beschriftung sind eine Sondervariante. Sie funktionieren, wenn die Skala kulturell etabliert ist (NPS von 0 bis 10, Schulnoten von 1 bis 6) und keine Erklärung mehr braucht. Außerhalb dieser etablierten Fälle führen sie zu Unsicherheit, was die einzelnen Zahlen bedeuten sollen.

Fazit

Likert-Skalen sind kein Fenster, das man einfach aufmacht. Jede der fünf Entscheidungen oben hat Konsequenzen — manchmal kleine, manchmal große. Wer sie vorab durchdenkt, bekommt Daten, mit denen sich arbeiten lässt. Wer sie überspringt, sammelt Antworten, deren Aussagekraft sich erst beim Auswerten entscheidet, und dann oft zum Schlechteren.

Wenn Sie für ein konkretes Projekt unsicher sind, welche Stellschrauben für Sie passen, schreiben Sie uns. Wir beantworten methodische Fragen auch dann, wenn kein Vertrag im Raum steht.

Literaturverzeichnis

Baur, Nina, und Jörg Blasius (Hrsg.): Handbuch Methoden der empirischen Sozialforschung. Wiesbaden: Springer Fachmedien, 2014.
Jacob, Rüdiger, Andreas Heinz und Jean Philippe Décieux: Umfrage: Einführung in die Methoden der Umfrageforschung. De Gruyter Oldenbourg, 2019.
Malhotra, Naresh K., und David F. Birks: Marketing Research: An Applied Approach. 2. European Edition. Pearson Education, 2006.
Schumann, Siegfried: Repräsentative Umfrage — praxisorientierte Einführung in empirische Methoden und statistische Analyseverfahren. 7. Auflage. De Gruyter Oldenbourg, 2019.
Thielsch, Meinald T. (Hrsg.): Praxis der Wirtschaftspsychologie. Themen und Fallbeispiele für Studium und Anwendung. Band 2. MV Wissenschaft, 2012.
Weinreich, Uwe, und Eike von Lindern: Praxisbuch Kundenbefragungen — repräsentative Stichproben auswählen, relevante Fragen stellen, Ergebnisse richtig interpretieren. mi-Fachverlag, 2008.