Fragebogen erstellen für quantitative Forschung
Frageformen, Skalen, Formulierung — und warum der Pretest die beste Investition ist
2026-04-24 · Lesezeit: ca. 12 Minuten
Abstract
Ein Fragebogen ist ein Messinstrument. Seine Qualität entscheidet, ob am Ende belastbare Daten vorliegen oder ein Bündel von Antworten, aus dem sich mit statistischen Methoden nichts Sauberes ziehen lässt. Dieser Artikel führt durch die Fragetypen, benennt die zentralen Formulierungsregeln, erklärt die Likert-Skala und zeigt, warum der Pretest nicht verzichtbar ist. Für studentische Arbeiten werden außerdem die Online-Tools eingeordnet, die Erhebungen heute meist tragen.
Was einen guten Fragebogen ausmacht
Ein Fragebogen ist nicht eine Sammlung interessanter Fragen, sondern ein Werkzeug, das aus einer Forschungsfrage ableitbare Merkmale bei einer Stichprobe erfasst. Entscheidend ist, dass jeder einzelnen Frage eine klare Rolle im Analysekonzept zugewiesen ist. Wer die statistische Auswertung nicht im Blick hat, produziert Fragebögen, die nachher mühsam umkodiert werden müssen oder schlicht nicht auswertbar sind.
Vor der ersten Frage steht die Operationalisierung: Welche Konzepte sollen gemessen werden, und mit welchen beobachtbaren Indikatoren wird jedes Konzept erfasst? Ein Konzept wie »Arbeitszufriedenheit« ist nicht direkt messbar, wohl aber über eine Reihe von Fragen zu Einzelaspekten (Verhältnis zu Kolleg*innen, Bezahlung, Entwicklungsmöglichkeiten), die zu einem Index zusammengeführt werden. Die Operationalisierung gehört ins Methodenkapitel und wird nicht erst im Fragebogen selbst entwickelt.
Der zweite Fundament-Schritt ist die Klärung, welche statistischen Verfahren später eingesetzt werden. Eine Frage, deren Antworten auf einer ordinalen Skala (»stimme überhaupt nicht zu« bis »stimme voll zu«) erfasst sind, erlaubt andere Auswertungen als eine, die nur »Ja« oder »Nein« akzeptiert. Der Zusammenhang zwischen Fragetyp, Skalenniveau und möglichen Tests wird in SPSS-Grundlagen für die Bachelorarbeit genauer erläutert.
Frageformen im Überblick
Geschlossene Fragen dominieren in quantitativen Untersuchungen. Single-Choice-Fragen erzwingen eine Entscheidung für genau eine Option, Multiple-Choice-Fragen erlauben mehrere Kreuze. Die Likert-Skala misst Zustimmung oder Intensität auf einer geordneten Stufen-Skala und gehört zu den am häufigsten eingesetzten Formaten — sie erlaubt differenzierte Auswertungen und ist gleichzeitig für Befragte intuitiv verständlich. Matrix-Fragen bündeln mehrere thematisch zusammenhängende Items auf einer gemeinsamen Antwortskala und sparen Platz; ihr Nachteil ist eine höhere Ermüdungsneigung der Befragten, weil ab dem fünften oder sechsten Item oft »durchgeklickt« wird.
Offene Fragen sind die Ausnahme. Sie liefern qualitative Daten, die aufwendig zu codieren sind, und werden in quantitativen Fragebögen meist nur gezielt eingesetzt — etwa am Ende für freiwillige Anmerkungen oder zur Vertiefung einer vorherigen geschlossenen Frage. Mehr als zwei bis drei offene Fragen pro Fragebogen sind in studentischen Arbeiten selten sinnvoll.
Likert-Skala: 5 oder 7 Stufen, mit oder ohne Mitte
Die Likert-Skala kennt Varianten. Fünf Stufen sind der klassische Fall: »stimme überhaupt nicht zu«, »stimme eher nicht zu«, »teils/teils«, »stimme eher zu«, »stimme voll und ganz zu«. Sieben Stufen erlauben feinere Differenzierungen und werden in Studien bevorzugt, die psychometrisch gut validierte Skalen einsetzen. Drei Stufen sind zu grob und verschenken Differenzierungspotenzial.
Die Frage, ob eine neutrale Mitte eingeplant wird oder nicht, ist eine methodische Entscheidung. Geradzahlige Skalen (4 oder 6 Stufen) erzwingen eine Tendenz; ungeradzahlige (5 oder 7) erlauben Neutralität. Beides ist verteidigbar: Wer gezielt eine Richtungsangabe fordern will, nimmt eine geradzahlige Skala. Wer die differenziertere Messung priorisiert und in Kauf nimmt, dass manche Befragte die Mitte als Ausweichmöglichkeit nutzen, nimmt eine ungeradzahlige Skala.
Ob die Skalenendpunkte symmetrisch beschriftet sind, ist weniger verhandelbar: Sie sollten es sein. »Überhaupt nicht« und »voll und ganz« bilden ein symmetrisches Paar; »überhaupt nicht« und »eher ja« nicht. Asymmetrische Skalen produzieren systematische Verzerrungen.
Fragen richtig formulieren
Die Formulierung jeder einzelnen Frage ist der Punkt, an dem die meisten Fragebögen an Qualität verlieren. Drei Regeln decken einen Großteil der Problemfälle ab.
Eindeutig statt suggestiv. Fragen wie »Finden Sie es nicht auch problematisch, dass …« geben eine Antwort vor. Besser neutral: »Wie bewerten Sie, dass …«. Wer eine negative Antwort haben will, bekommt sie in der Regel auch; aber das Ergebnis hat keinen Erkenntniswert.
Einfach statt akademisch. Jede Frage sollte von einer durchschnittlichen Person aus der Zielgruppe beim ersten Lesen verstanden werden. Fachbegriffe, Fremdwörter und doppelte Verneinungen (»Lehnen Sie ab, dass nicht …«) erhöhen die Non-Response-Rate und verzerren die verbleibenden Antworten.
Eine Frage pro Frage. »Finden Sie das Angebot hilfreich und gut strukturiert?« ist zwei Fragen in einer. Wer »hilfreich« bejaht, aber »gut strukturiert« verneint, kann nicht sinnvoll antworten. Jede Frage misst genau ein Konstrukt.
Zusätzlich: Zeiträume sollten konkret sein. »In den letzten 12 Monaten« ist messbar, »in letzter Zeit« ist es nicht. Vergleichsfragen sollten eine klare Bezugsgröße haben. Bewertungs-Fragen sollten die Bewertungsdimension benennen (nach Kosten, nach Zeitaufwand, nach Qualität?). Details dieser Art entscheiden, ob am Ende auswertbare Daten vorliegen.
Aufbau und Dramaturgie
Ein Fragebogen hat eine dramaturgische Struktur, die die Antwortbereitschaft beeinflusst. Am Anfang steht ein kurzes Anschreiben: Worum geht es, wie lange dauert es, was passiert mit den Daten, bis wann ist die Teilnahme möglich. Die ersten Fragen sind einfach und thematisch neutral — sie dienen dem Einstieg und signalisieren den Befragten, dass die Teilnahme machbar ist.
Heikle Fragen gehören in die Mitte oder gegen Ende des Fragebogens, aber nicht ganz ans Ende (wo die Befragten ungeduldig abschließen wollen). Demografische Fragen (Alter, Geschlecht, Bildung, Einkommen) stehen klassisch am Ende — sie sind statistisch wichtig, aber für Befragte oft unangenehm, und wer vorzeitig abbricht, hat wenigstens die inhaltlichen Fragen beantwortet.
Als Gesamtlänge für studentische Fragebögen hat sich eine Bearbeitungszeit von acht bis zwölf Minuten etabliert. Über fünfzehn Minuten steigen die Abbruchraten deutlich, besonders bei Online-Umfragen. Die Länge sollte vor Feldstart über einen realistischen Probelauf gemessen werden, nicht geschätzt.
Pretest: die beste Investition
Der Pretest ist der Schritt, der in Abschlussarbeiten am häufigsten weggelassen wird — und der am zuverlässigsten die Qualität der Erhebung hebt. Fünf bis zehn Personen aus der Zielgruppe füllen den Fragebogen aus und melden anschließend zurück, welche Fragen unklar waren, welche Stolper-Items auftreten, wie lange die Bearbeitung tatsächlich gedauert hat.
Der klassische Pretest kombiniert zwei Varianten. Erstens: kognitive Vorbefragung — die Testpersonen denken laut mit, während sie die Fragen beantworten, und die Forscherin hört zu, wo Missverständnisse auftreten. Zweitens: quantitativer Pretest — die Testpersonen füllen den Fragebogen online aus, und die Forscherin prüft, ob die Filterlogik funktioniert, ob alle Fragen beantwortet werden können und ob die Daten im Backend sauber ankommen.
Nach dem Pretest folgt die Überarbeitung. Ein Fragebogen, der den Pretest unverändert übersteht, ist die Ausnahme; die Regel sind Umformulierungen, gestrichene Fragen, neue Filter. Erst nach der Überarbeitung geht der Fragebogen in den Feldstart.
Online-Tools
Papierfragebögen sind in studentischen Arbeiten selten geworden. Online-Befragungen dominieren, weil sie Reichweite, Datenqualität (keine händische Eingabe) und Auswertungsgeschwindigkeit verbessern. Drei Tools sind im deutschsprachigen Raum verbreitet: SoSci Survey (kostenlos für akademische Nutzung, sehr mächtig, Lernkurve moderat), LimeSurvey (Open Source, kann selbst gehostet werden, flexibel bei Filterlogik), Google Forms (niedrigschwellig, aber mit Datenschutz-Fragezeichen und begrenzter Auswertungslogik).
Für wissenschaftliche Abschlussarbeiten im deutschsprachigen Raum ist SoSci Survey der Quasi-Standard — viele Hochschulen stellen eigene Instanzen bereit, die Anmeldung läuft unkompliziert, und die Exportfunktionen für SPSS, R und CSV sind sauber. Google Forms ist dagegen wegen der Datenverarbeitung auf US-Servern für Umfragen mit personenbezogenen Daten kritisch zu sehen; für rein anonyme Kurzumfragen und als Quick-Fix bei Pretests bleibt es nutzbar.
Stichprobengröße
Die nötige Stichprobengröße hängt von den geplanten Analysen ab. Für eine explorative Deskription reichen 50 bis 100 Fälle; für Regressionsanalysen mit mehreren Prädiktoren beginnen die Faustregeln bei 10 bis 20 Fällen pro Prädiktor; für hypothesenprüfende Tests mit mittlerer Effektstärke und Standard-Power von 0,80 werden oft 80 bis 200 Fälle benötigt. Mehr Detail dazu in Stichprobenauswahl — Methoden und Fehler.
Die Stichprobengröße muss vor der Erhebung geplant werden — mit dem Tool G*Power, einer Faustregel oder einer Poweranalyse aus der Methodenliteratur. »So viele wie möglich« ist keine Planung; es ist eine Umschreibung dafür, dass die Frage nicht durchdacht wurde.
Rücklauf und Non-Response
Der Rücklauf einer Fragebogen-Studie liegt je nach Kanal und Zielgruppe zwischen 10 und 60 Prozent. Studentische Online-Umfragen, die über soziale Medien und Bekanntenkreise verbreitet werden, erreichen typischerweise 20 bis 40 Prozent der angeschriebenen Personen. Bei Umfragen an klar abgrenzbare Zielgruppen — etwa Mitarbeitende eines Unternehmens — sind höhere Werte erreichbar, wenn die Unterstützung durch die Leitung signalisiert wird.
Non-Response ist in zwei Varianten problematisch: als Unit-Non-Response, wenn ganze Personen die Teilnahme verweigern, und als Item-Non-Response, wenn einzelne Fragen unbeantwortet bleiben. Systematisches Nicht-Antworten bei bestimmten Gruppen verzerrt die Ergebnisse. Ein Fragebogen, der in einer Studie zur Arbeitszufriedenheit hohe Abbruchraten bei sehr unzufriedenen Befragten hat, produziert ein schiefes Bild. Dieses Risiko ist nicht zu beseitigen, aber im Methodenkapitel zu benennen.
Typische Fehler
Zu viele Items ohne Begründung. Jede Frage kostet Aufmerksamkeit und erhöht die Abbruchrate. Wer 80 Items im Fragebogen hat, muss für jedes einzelne begründen können, warum es drin ist. Items ohne klare analytische Rolle fliegen raus.
Filterlogik nicht getestet. Online-Tools erlauben, Fragen abhängig von vorherigen Antworten ein- oder auszublenden. Fehler in der Filterlogik fallen erst auf, wenn die ersten Datensätze unvollständig sind. Der Pretest prüft die Logik systematisch.
Unklare Skalenanker. »Mittelmäßig« ist nicht dasselbe wie »weder noch«. Die Wortwahl an den Skalenstufen ändert die Antwortverteilung. Standard-Anker aus etablierten Instrumenten sind fast immer besser als eigene Formulierungen.
Demografische Variablen zu detailliert. Exakte Alters-Angabe in Jahren wird selten gebraucht; Altersklassen (18–24, 25–34 …) reichen für fast alle Auswertungen und erhöhen die Antwortrate, weil sie weniger aufdringlich wirken.
Zusammenfassung
Ein belastbarer Fragebogen beginnt mit Operationalisierung und Analyseplan, nicht mit Fragen. Die Fragetypen sind Werkzeuge — Single- und Multiple-Choice für nominale Daten, Likert und Matrix für ordinale, offene Fragen gezielt und sparsam. Jede Formulierung vermeidet Suggestion, doppelte Konstrukte und akademische Sprache. Ein Pretest mit fünf bis zehn Personen aus der Zielgruppe ist nicht verhandelbar. Als Tools sind SoSci Survey und LimeSurvey die erste Wahl. Die Stichprobengröße wird vorab aus dem Analyseplan abgeleitet, nicht nachträglich gerechtfertigt.
Unterstützung beim Fragebogen-Design, Pretest oder der Auswertung Ihrer Daten?
Kostenlos anfragen WhatsApp →