@article{wittenberg_stichprobenauswahl_2026}

@article{wittenberg_stichprobenauswahl_2026,
  title    = {Stichprobenauswahl — Methoden und Fehler},
  author   = {Wittenberg, Julius},
  year     = {2026},
  category = {Methodik und wissenschaftliches Arbeiten},
  section  = {§ 3.6},
  keywords = {Stichprobe, Zufallsstichprobe, Cluster, Convenience, G*Power, Non-Response}
}

Kapitel III · § 3.6 · Methodik und wissenschaftliches Arbeiten · 10 Min Lesezeit

Stichprobenauswahl — Methoden und Fehler

Wahrscheinlichkeits- und Gelegenheitsstichproben, Größe und systematische Verzerrungen

Julius Wittenberg

2026-04-24 · Lesezeit: ca. 10 Minuten

Abstract

Die Stichprobenauswahl entscheidet, auf welche Grundgesamtheit die Ergebnisse einer empirischen Arbeit verallgemeinert werden dürfen. Wahrscheinlichkeitsbasierte Verfahren sind methodisch sauber, in studentischen Arbeiten aber selten realisierbar; Gelegenheitsstichproben sind pragmatisch, müssen aber in ihren Grenzen benannt werden. Dieser Artikel führt durch die Hauptverfahren, zeigt, wie sich die Stichprobengröße planen lässt, und benennt die Verzerrungen, die jedes Design mitbringt.

Schlüsselwörter: Stichprobe · Zufallsstichprobe · geschichtet · Cluster · Convenience · G*Power · Selection Bias · Non-Response

Population und Stichprobe

Jede empirische Untersuchung bezieht sich auf eine Grundgesamtheit (Population) — die Menge aller Elemente, über die die Aussage gelten soll. Weil die Population meist zu groß ist, um vollständig erhoben zu werden, wird ein Teil davon untersucht: die Stichprobe. Die methodische Kunst besteht darin, eine Stichprobe so zu ziehen, dass die Ergebnisse belastbar auf die Population verallgemeinert werden können.

Die Grundgesamtheit wird in der Regel präzise definiert. »Studierende« ist zu vage; »Bachelor-Studierende der Wirtschaftswissenschaften an deutschen Universitäten im Wintersemester 2025/26« ist eine präzise Grundgesamtheit. Die Definition entscheidet, auf welche Menge die späteren Aussagen generalisiert werden dürfen.

Zwei Grundtypen von Stichprobenverfahren werden unterschieden: Wahrscheinlichkeitsstichproben (jedes Element der Grundgesamtheit hat eine bekannte, meist gleiche Wahrscheinlichkeit, gezogen zu werden) und Nicht-Wahrscheinlichkeitsstichproben (die Auswahl folgt anderen Prinzipien). Nur Wahrscheinlichkeitsstichproben erlauben streng genommen die statistische Verallgemeinerung. In der Praxis dominieren trotzdem Nicht-Wahrscheinlichkeitsstichproben, weil sie schneller und günstiger umsetzbar sind.

Überblick der Verfahren

Abbildung 1: Die sechs gängigen Stichprobenverfahren. Linke Spalte mit wahrscheinlichkeitsbasierter Ziehung, rechte mit pragmatischen Alternativen.

Wahrscheinlichkeitsstichproben im Detail

Die einfache Zufallsstichprobe ist der Idealfall der Statistik: Jedes Element der Grundgesamtheit hat die gleiche, bekannte Wahrscheinlichkeit, in die Stichprobe zu geraten. Umsetzen lässt sich das nur, wenn eine vollständige Liste der Grundgesamtheit vorliegt und daraus zufällig ausgewählt werden kann. Das ist in studentischen Arbeiten selten realistisch — ein Mitgliederverzeichnis eines Vereins oder eine Personalliste im Unternehmen wären Beispiele, wo es möglich wäre.

Die geschichtete Stichprobe erweitert das Verfahren, wenn die Grundgesamtheit in Gruppen zerfällt, die in der Analyse wichtig werden. Aus jeder Schicht wird zufällig gezogen, und die Ziehungsgrößen werden so gewählt, dass die Schichten in der Stichprobe in passenden Anteilen vertreten sind. Wer über Arbeitszufriedenheit in einem Unternehmen mit drei Fachbereichen forscht und sicherstellen will, dass jeder Bereich in relevanter Größe vertreten ist, wählt ein geschichtetes Design.

Die Klumpenstichprobe — auch Clusterstichprobe genannt — funktioniert umgekehrt: Statt zufällig einzelne Personen zu ziehen, werden ganze Gruppen (Schulklassen, Bürogemeinschaften, Krankenhausstationen) zufällig ausgewählt und innerhalb vollständig erfasst. Der Vorteil liegt in der Praktikabilität, besonders wenn die Grundgesamtheit räumlich verteilt ist. Der Nachteil: Die Mitglieder eines Clusters sind sich oft ähnlich, was die effektive Stichprobengröße reduziert.

Nicht-Wahrscheinlichkeitsstichproben

Die Gelegenheitsstichprobe (Convenience Sample) ist die realistische Ausgangslage der meisten studentischen Arbeiten. Befragt werden die Personen, die erreichbar und bereit sind — Bekannte, Kommilitonen, Follower in sozialen Medien, Kontaktaufnahme über Organisationen. Der Vorteil liegt in der schnellen Umsetzung; der Nachteil in der systematischen Verzerrung, die das Verfahren fast immer mit sich bringt.

Die Quotenstichprobe definiert vorab Quoten für wichtige Merkmale (Geschlecht 50:50, Altersgruppen in definierter Verteilung) und wirbt Teilnehmende, bis die Quoten gefüllt sind. Die Auswahl innerhalb einer Quote ist nicht zufällig. Im Bereich der Markt- und Meinungsforschung ist das Verfahren etabliert, in der wissenschaftlichen Forschung weniger verbreitet.

Das Schneeball-Verfahren ist die Methode der Wahl bei schwer erreichbaren Zielgruppen — etwa Menschen ohne offizielle Organisations-Zugehörigkeit (Selbstständige in Nischenbereichen, bestimmte Subkulturen, anonyme Communities). Teilnehmende empfehlen weitere potenzielle Teilnehmende. Das Verfahren produziert homogene Stichproben, weil empfohlene Personen oft aus demselben sozialen Umfeld stammen.

Stichprobengröße planen

Wie viele Personen müssen befragt werden? Die Antwort hängt von den geplanten Analysen, der erwarteten Effektstärke und dem Power-Niveau ab. Für deskriptive Arbeiten reichen oft 50 bis 100 Fälle; für hypothesenprüfende Arbeiten mit Standard-Power (0,80) und mittlerer Effektstärke werden in der Regel 80 bis 200 Fälle empfohlen; für Regressionsanalysen mit mehreren Prädiktoren gilt eine Faustregel von mindestens 10 bis 20 Fällen pro Prädiktor.

G*Power ist das verbreitete Werkzeug für die formale Poweranalyse. Es ist kostenfrei verfügbar, wird in Methodenkapiteln häufig referenziert und erlaubt für die meisten Standardverfahren (t-Test, ANOVA, Regression, Korrelation) eine belastbare Berechnung der nötigen Stichprobengröße bei definiertem Alphafehler, Power und Effektstärke. Die Angabe im Methodenkapitel: »Eine Poweranalyse mit G*Power ergibt bei α = 0,05, Power = 0,80 und erwarteter mittlerer Effektstärke eine Mindest-Stichprobengröße von N = 85.«

Wer ohne formale Poweranalyse argumentiert, orientiert sich an Faustregeln aus der Methodenliteratur. Für einen t-Test mit mittlerer Effektstärke reichen etwa 50 Fälle pro Gruppe, für eine Chi-Quadrat-Kreuztabelle etwa 5 pro Zelle. Diese Faustregeln sind konservativ genug, um für die meisten studentischen Arbeiten zu reichen — ersetzen aber keine formale Planung in anspruchsvollen Designs. Die Stichprobengröße sollte in jedem Fall so gewählt werden, dass auch bei überraschend hoher Varianz oder unerwarteten Ausfällen die Mindestzahl für die geplanten Tests erhalten bleibt; ein Sicherheitszuschlag von 10 bis 20 Prozent auf die berechnete Untergrenze ist in studentischen Arbeiten üblich.

Selection Bias und Non-Response-Bias

Jede Stichprobenziehung birgt Verzerrungen. Selection Bias entsteht, wenn das Auswahlverfahren systematisch bestimmte Gruppen bevorzugt oder ausschließt. Eine Online-Umfrage zum Thema Arbeitszufriedenheit, die über LinkedIn verbreitet wird, erreicht vor allem digital affine, karriereorientierte Personen — und liefert ein systematisch schiefes Bild der Arbeitszufriedenheit insgesamt.

Non-Response-Bias entsteht nachgelagert: Selbst wenn die Auswahl sauber ist, antworten nicht alle Angeschriebenen. Wenn die Nicht-Antwortenden sich systematisch von den Antwortenden unterscheiden, verzerrt die Stichprobe. Eine Umfrage zu Arbeitszeiten, bei der überlastete Mitarbeitende keine Zeit zum Ausfüllen haben und deshalb nicht antworten, produziert ein zu entspanntes Bild.

Diese Verzerrungen lassen sich selten vermeiden, aber immer benennen. Im Methodenkapitel oder in der Limitations-Sektion der Diskussion wird ausgewiesen, welche Bias-Quellen wahrscheinlich sind und wie sie die Interpretation der Ergebnisse einschränken. Eine Arbeit, die diese Limitationen ehrlich benennt, wirkt methodisch reifer als eine, die sie ignoriert.

Dokumentation im Methodenkapitel

Die Beschreibung der Stichprobe im Methodenkapitel enthält typischerweise sechs Elemente: die Grundgesamtheit (präzise definiert), das Auswahlverfahren (mit Begründung), die Ziehung (Zeitraum, Kanäle, Kontaktaufnahme), die Stichprobengröße (geplant und tatsächlich), die Rücklaufquote (bei Befragungen) und die demografische Beschreibung der Teilnehmenden (Verteilung der Schlüsselmerkmale).

Zusätzlich gehört eine Reflexion zur Aussagekraft dazu. Auf welche Grundgesamtheit lassen sich die Ergebnisse verallgemeinern? Welche Einschränkungen bringt das Design mit? Welche möglichen Verzerrungen sind plausibel, welche ausgeschlossen? Diese Reflexion ist Teil einer seriösen Methodenbeschreibung, nicht Selbstzweifel.

Qualitative Stichproben

Die bisherigen Ausführungen gelten vor allem für quantitative Untersuchungen. In qualitativer Forschung gelten andere Prinzipien. Die Logik ist nicht die statistische Verallgemeinerung, sondern die theoretische Aussagekraft: Welche Fälle ermöglichen den größten Erkenntnisgewinn für die Forschungsfrage? Das theoretische Sampling der Grounded Theory und das zielgerichtete Sampling bei Experteninterviews sind Beispiele — sie wählen Fälle gezielt aus, weil sie für die Analyse besonders informativ sind, nicht weil sie repräsentativ für eine größere Grundgesamtheit wären.

Die Stichprobengröße in qualitativen Arbeiten orientiert sich nicht an Poweranalyse, sondern am Konzept der theoretischen Sättigung (siehe Grounded Theory — Schritt für Schritt). In Experteninterview-Arbeiten liegen die üblichen Zahlen bei 6 bis 20, in der Grounded Theory bei 10 bis 30, mit erheblicher Variation je nach Heterogenität des Feldes.

Gemeinsam haben qualitative und quantitative Sampling-Verfahren, dass die Auswahl methodisch begründet werden muss. »Sechs Experten, weil zehn nicht erreichbar waren« ist keine methodische Begründung, sondern eine Entschuldigung. »Sechs Experten, weil die theoretische Sättigung mit dem fünften Interview erreicht war« ist eine Begründung. Der Unterschied liegt in der Reflexion, nicht im Wortlaut.

Typische Fehler

Convenience Sample als Zufallsstichprobe dargestellt. Der häufigste Fehler in studentischen Arbeiten. Wer seine Kommilitonen befragt und im Methodenkapitel schreibt »Es wurde eine Zufallsstichprobe gezogen«, macht eine methodisch falsche Angabe. Gelegenheitsstichprobe heißt Gelegenheitsstichprobe — und die Einschränkungen werden entsprechend diskutiert.

Überverallgemeinerung. Eine Stichprobe von 50 Studierenden einer Hochschule erlaubt Aussagen über diese 50 Personen — allenfalls vorsichtig über ähnliche Populationen. »Die deutsche Jugend« verallgemeinert zu weit.

Ausblenden der Rücklaufquote. Online-Umfragen mit 30 Prozent Rücklauf sind zunächst normal, haben aber bei Befragungen zu heiklen Themen Probleme mit Non-Response-Bias. Die Rücklaufquote gehört ins Methodenkapitel, nicht unter den Teppich.

Stichprobengröße nicht geplant. »Wir haben so viele erreicht, wie gegangen ist« ist keine Begründung. Die Zielgröße wird vorab aus den geplanten Analysen abgeleitet und im Methodenkapitel dokumentiert.

Zusammenfassung

Die Stichprobenauswahl ist der Punkt, an dem die Verallgemeinerbarkeit der Ergebnisse entschieden wird. Wahrscheinlichkeitsbasierte Verfahren sind methodisch ideal, in studentischen Arbeiten aber selten; Gelegenheits- und Schneeballstichproben sind pragmatisch, verlangen aber explizite Benennung ihrer Grenzen. Die Stichprobengröße ergibt sich aus den geplanten Analysen — G*Power ist das Standard-Werkzeug der Planung. Selection Bias und Non-Response-Bias sind wahrscheinlich, aber benennbar. Ein gut gemachtes Methodenkapitel macht genau das: präzise Beschreibung und ehrliche Reflexion der Grenzen.

Unterstützung bei der Stichprobenplanung, Poweranalyse oder Methodik Ihrer Arbeit?

Kostenlos anfragen WhatsApp →