QUESTIONSTAR
Methodologie·20. März 2025·11 Min. Lesezeit

Latente Konstrukte und Multi-Item-Skalen

Wie messen Sie etwas, das man nicht direkt beobachten kann — und woran erkennen Sie, ob die Messung trägt?

Für Praktiker
Latente Konstrukte und Multi-Item-Skalen

Markenimage, Mitarbeiterzufriedenheit, Loyalität, Vertrauen — vieles, was in Umfragen gemessen wird, lässt sich nicht direkt beobachten. Man kommt nur indirekt heran: über mehrere Fragen, die zusammen ein Bild ergeben. Das ist die Idee hinter latenten Konstrukten und Multi-Item-Skalen.

Manche Dinge lassen sich in einer Umfrage direkt erfragen: Alter, Wohnort, Einkommen, gekauftes Produkt. Eine Frage, eine Antwort, fertig. Bei anderen Themen geht das nicht. „Wie zufrieden sind Sie mit unserer Marke?" — eine einzelne Antwort darauf erfasst die Realität nur unzureichend, weil das, was wir messen wollen, vielschichtig ist.

Diese vielschichtigen Konzepte heißen in der Methodensprache „latente Konstrukte". Sie sind nicht direkt beobachtbar — Sie können einen Menschen nicht „loyal aussehen" sehen — aber sie haben Spuren im Verhalten und in den Einstellungen, die sich abfragen lassen. Wer mehrere solche Spuren sammelt und sie zu einem Gesamtwert verdichtet, hat eine Multi-Item-Skala konstruiert. Wie das methodisch sauber geht, klären wir hier.

Manifeste vs. latente Variablen — der Unterschied

Variablen lassen sich danach unterscheiden, ob ihre Ausprägungen direkt feststellbar sind oder nicht. Manifeste Variablen sind die direkt messbaren: Alter (Geburtsjahr), Geschlecht, Wohnort, gekauftes Produkt, Anzahl der Besuche im letzten Monat. Eine Frage reicht, die Antwort ist eindeutig zuzuordnen.

Latente Variablen sind das Gegenteil: nicht direkt beobachtbar. Vertrauen in eine Marke, Identifikation mit dem Arbeitgeber, Innovationsbereitschaft, wahrgenommene Servicequalität. Sie existieren als Konzept, aber sie haben keine eindeutige direkte Antwort. Wenn Sie fragen „Wie sehr identifizieren Sie sich mit Ihrem Unternehmen?", bekommen Sie eine Antwort — aber diese eine Antwort ist nur ein einzelner, möglicherweise tagesform- und wortlautabhängiger Schnappschuss.

Von einem Konzept zur Multi-Item-Skala

Wenn Sie ein latentes Konstrukt messen wollen, beginnen Sie mit einer Definition. „Was meinen wir konkret mit Identifikation?" — die Antwort ist nicht selbstverständlich. Identifikation umfasst typischerweise mehrere Facetten: emotionale Bindung, Stolz, Zustimmung zu den Zielen, Bereitschaft, sich für das Unternehmen einzusetzen. Eine einzige Frage kann nur eine dieser Facetten erfassen.

Eine Multi-Item-Skala besteht aus mehreren Aussagen (Items), die jeweils eine Facette des Konstrukts ansprechen. Die Befragten geben zu jeder Aussage ihre Zustimmung auf einer einheitlichen Skala (meistens fünf- oder siebenstufige Likert-Skala) an. Bei der Auswertung werden die einzelnen Antworten zu einem Gesamtwert pro Person verdichtet — meist als Mittelwert oder Summe.

Ein klassisches Beispiel für eine Drei-Item-Skala zur Mitarbeiteridentifikation:

  • Ich bin stolz darauf, in diesem Unternehmen zu arbeiten.
  • Die Werte unseres Unternehmens stimmen weitgehend mit meinen eigenen überein.
  • Ich erzähle Freunden gern, wo ich arbeite.

Jedes Item bewertet die Person auf 1 bis 5. Der Mittelwert über die drei Items ist die persönliche Identifikations-Maßzahl. Wer in allen drei Items 5 ankreuzt, identifiziert sich stark. Wer überall 2 ankreuzt, identifiziert sich kaum. Wer gemischte Werte hat — etwa 5 / 5 / 2 — liefert ein differenziertes Bild, das eine einzige Frage nicht eingefangen hätte.

Wie eine gute Multi-Item-Skala entsteht

Multi-Item-Skalen sind nicht beliebig zusammenstellbar. Drei Schritte führen zu einer Skala, die methodisch trägt:

Erstens, das Konstrukt definieren. Was genau wollen wir messen? Welche Facetten gehören dazu, welche grenzen wir ab? Diese theoretische Klärung passiert vor jedem konkreten Item-Schreiben. Wer Identifikation messen will, sollte vorab entscheiden: sind Loyalität und Identifikation dasselbe Konstrukt oder zwei verschiedene? Solche Fragen klärt man nicht in der Auswertung, sondern in der Konzeptphase.

Zweitens, Items für jede Facette schreiben. Pro Facette mindestens zwei Items. Die Items sollten denselben Skala-Anker verwenden („stimme nicht zu" bis „stimme voll zu"), inhaltlich verschieden sein, aber dasselbe Konstrukt aus unterschiedlichen Blickwinkeln ansprechen. Wenn Sie sich mehrfach im Kreis drehen („Sind Sie zufrieden? Sind Sie glücklich? Fühlen Sie sich gut?"), messen Sie nicht mehrere Facetten, sondern dasselbe dreifach — das gibt zwar konsistente Werte, aber keine bessere Messung.

Drittens, in einem Pre-Test prüfen. Verteilen Sie die Skala an zehn bis dreißig Personen aus der Zielgruppe und schauen Sie sich an, wie die Items zusammenhängen. Wenn ein Item systematisch andere Antworten bekommt als die übrigen, ist es entweder schlecht formuliert oder misst etwas anderes — beides spricht gegen die Aufnahme. Eine Faktorenanalyse oder eine Reliabilitätsanalyse (Cronbachs Alpha) sind die formellen Werkzeuge dafür; ein einfacher Korrelations-Vergleich der Items reicht aber im Pre-Test oft schon.

Gütekriterien — wann ist eine Skala brauchbar?

Drei Eigenschaften muss eine Multi-Item-Skala erfüllen, damit man ihrem Ergebnis vertrauen kann: Objektivität, Reliabilität, Validität. Die drei klingen ähnlich, meinen aber Unterschiedliches.

Objektivität heißt: das Ergebnis hängt nicht davon ab, wer die Skala durchführt, auswertet oder interpretiert. Eine standardisierte schriftliche Befragung erreicht das im Wesentlichen automatisch — bei Telefon-Interviews oder qualitativen Methoden ist es schwieriger.

Reliabilität heißt: die Skala misst zuverlässig, mit wenig zufälligen Schwankungen. Wenn dieselbe Person die Skala zweimal in kurzem Abstand ausfüllt, sollten die Werte ähnlich sein. Das übliche Maß ist Cronbachs Alpha — Werte ab 0,7 gelten als akzeptabel, ab 0,8 als gut. Niedrige Alpha-Werte deuten darauf hin, dass die Items zu unterschiedliches messen.

Validität heißt: die Skala misst tatsächlich das, was sie messen soll — nicht etwas anderes. Eine Skala kann hochreliabel sein und trotzdem das falsche Konstrukt messen. Validität ist die anspruchsvollste der drei Eigenschaften und lässt sich nicht in einer einzigen Statistik ausdrücken; sie wird über das Verhältnis zu anderen, theoretisch verwandten Konstrukten geprüft.

Vor- und Nachteile gegenüber Single-Item-Fragen

Multi-Item-Skalen sind aufwändiger als Single-Item-Fragen. Lohnt sich das immer? Nein — und genau diese Frage sollte am Anfang stehen.

Vorteil: deutlich höhere Messgenauigkeit, weil zufällige Schwankungen einzelner Items sich teilweise gegeneinander aufheben. Multi-Item-Skalen sind robuster gegen Tagesform, Stimmung, missverstandene Formulierung.

Vorteil: Möglichkeit zu Faktorenanalysen, Subskalen-Analysen, Item-spezifischen Reaktionen. Wer fünf Identifikations-Items hat, kann sehen, welche Facette des Konstrukts am stärksten ausgeprägt ist — Single-Item gibt diese Differenzierung nicht her.

Nachteil: Längere Befragung. Statt eines Items zu Identifikation müssen Sie drei bis fünf stellen. Bei einer Befragung mit dreißig Konstrukten wird das eine sehr lange Umfrage.

Nachteil: Methodischer Aufwand bei der Auswertung. Mittelwert oder Faktorwerte? Cronbachs Alpha berichten? Skalen-Validierung? Wer das nicht vorhat, hat in der Multi-Item-Form gegenüber dem Single-Item keinen wirklichen Erkenntnisgewinn.

Faustregel aus der Praxis: bei zentralen Konstrukten der Forschungsfrage lohnt sich der Aufwand fast immer. Bei Nebenvariablen, Hintergrundmerkmalen oder routinemäßigem Tracking reicht oft ein gut formuliertes Single-Item.

Fazit

Latente Konstrukte sind in fast jeder anspruchsvollen Befragung präsent — und sie verlangen eine andere Mess-Logik als manifeste Variablen. Multi-Item-Skalen sind die methodisch saubere Antwort: sie liefern stabilere, vielschichtigere und besser interpretierbare Daten als eine einzige Frage. Der Preis ist Aufwand: in der Konstruktion, im Pre-Test, in der Auswertung. Bei zentralen Konstrukten ist das gut investiert.

Wenn Sie sich nicht sicher sind, ob ein bestimmtes Konstrukt eine Skala braucht oder ein Single-Item reicht, schreiben Sie uns. Methodenfragen beantworten wir auch ohne Vertrag.

Quellen

  • Bühner, Markus: Einführung in die Test- und Fragebogenkonstruktion. 3. Auflage. Pearson, 2011.
  • Moosbrugger, Helfried, und Augustin Kelava (Hrsg.): Testtheorie und Fragebogenkonstruktion. 3. Auflage. Springer, 2020.
  • Eid, Michael, Mario Gollwitzer und Manfred Schmitt: Statistik und Forschungsmethoden. 5. Auflage. Beltz, 2017.