Fallzahlberechnung
Die Fallzahlberechnung ist das Verfahren zur Bestimmung der Anzahl von Teilnehmern, die eine Studie benötigt, um ihre Fragestellung mit akzeptabler Zuverlässigkeit zu beantworten. Durch die Kombination einer angestrebten Effektgröße, einer akzeptierten Rate falsch-positiver Ergebnisse, einer gewünschten Power und der erwarteten Variabilität des Ergebnisses, ergibt sich die Anzahl der benötigten Probanden, sodass ein realer Effekt wahrscheinlich entdeckt wird und eine zufällige Entdeckung unwahrscheinlich mit einem solchen verwechselt wird. Es ist ein Planungsschritt, der eine Forschungsfrage in ein konkretes Rekrutierungsziel umwandelt.
Definition
Eine Fallzahlberechnung bestimmt die Anzahl der Studienteilnehmer, die benötigt werden, um eine vordefinierte Effektgröße mit einer gewählten statistischen Power (typischerweise 80 % oder 90 %) auf einem gewählten Signifikanzniveau (üblicherweise zweiseitig 0,05) zu detektieren, unter Berücksichtigung der erwarteten Variabilität des Ergebnisses.
Scope
Der Eintrag behandelt die Logik und die Bestandteile einer Fallzahlberechnung, die Rollen von Signifikanzniveau und Power, den Einfluss von Effektgröße und Ergebnisvariabilität sowie Anpassungen für erwartete Ausfälle. Er betrachtet die Fallzahl als methodisches Planungsthema innerhalb des Studiendesigns, einschließlich ihrer Verwendung in Interventions- und Beobachtungsstudien, und gibt keine numerischen Formeln als klinische Anweisungen.
Key concepts
- Signifikanzniveau (Alpha) und Typ-I-Fehler
- Statistische Power und Typ-II-Fehler (Beta)
- Effektgröße und minimal klinisch relevanter Unterschied
- Ergebnisvariabilität (Varianz oder Ereignisrate)
- Zuteilungsverhältnis zwischen den Gruppen
- Inflation für erwarteten Studienabbruch
- Fallzahlen für Pilot- und Machbarkeitsstudien
Mechanisms
Eine Berechnung verknüpft vier Größen, sodass die Festlegung von drei Größen die vierte bestimmt: das Signifikanzniveau, die Power, die zu detektierende Effektgröße und die Variabilität des Ergebnisses. Kleinere Zieleffekte, größere Ergebnisvariabilität, höhere Power und strengere Signifikanzniveaus erhöhen alle die erforderliche Probandenzahl. Für kontinuierliche Ergebnisse ist die relevante Variabilität die Standardabweichung; für binäre Ergebnisse sind es die Ereignisraten in jeder Gruppe. Die geplante Anzahl wird dann erhöht, um erwartete Verluste während der Nachbeobachtung auszugleichen, sodass die analysierte Stichprobe eine adäquate Power behält. Pilotstudien schätzen die Machbarkeit und Variabilität und nicht die Effektgröße und verwenden separate Regeln zur Größenbestimmung.
Clinical relevance
Eine ausreichend dimensionierte Studie liefert mit größerer Wahrscheinlichkeit eine vertrauenswürdige Antwort, während eine Studie mit unzureichender Power das Risiko birgt, reale Effekte zu übersehen, und eine unnötig große Studie zusätzliche Teilnehmer ohne Nutzen exponiert; die Beurteilung, ob eine Studie angemessen dimensioniert war, ist daher Teil der Bewertung ihrer Evidenz. Dieser Eintrag beschreibt eine Methode zur Forschungsplanung und ist keine Grundlage für individuelle klinische Entscheidungen.
Evidence & guidelines
Berichtsstandards verlangen, dass die Fallzahl und die zugrunde liegenden Annahmen angegeben werden: CONSORT 2010 fordert von Studien, zu berichten, wie die Fallzahl bestimmt wurde, einschließlich des angestrebten Effekts, der Power und des Signifikanzniveaus. Methodische Übersichten stellen fest, dass die berichteten Berechnungen oft unvollständig begründet sind, und spezielle Arbeiten zu Pilot- und Machbarkeitsstudien (z. B. Faustregeln und Konfidenzintervall-Ansätze) befassen sich damit, wie frühe Studienphasen, deren Zweck die Schätzung und nicht die Hypothesenprüfung ist, dimensioniert werden sollen.
History
Die Argumentation zur Fallzahl wurde routinemäßig, als der Neyman-Pearson-Rahmen mit seinen expliziten Fehlerraten vom Typ I und Typ II Mitte des 20. Jahrhunderts übernommen wurde, was der Power eine formale Rolle in der Planung gab. Standardwerke der medizinischen Statistik im späteren 20. Jahrhundert machten die Berechnungen für klinische Forscher zugänglich, und Berichtsrichtlinien wie CONSORT verlangten später, dass die Berechnung und ihre Annahmen offengelegt werden. Neuere Arbeiten haben verfeinert, wie Pilot- und Machbarkeitsstudien dimensioniert werden, und sie von definitiven Studien unterschieden.
Debates
- Wie sollte die angestrebte Effektgröße gewählt werden?
- Berechnungen sind empfindlich gegenüber dem angenommenen Effekt, und die Wahl eines optimistisch großen Effekts zur Rechtfertigung einer kleinen Stichprobe (manchmal als „Sample-Size-Samba“ bezeichnet) kann dazu führen, dass eine Studie für einen klinisch bedeutsamen Unterschied unterpowert ist; der Effekt sollte den kleinsten nachweisbaren Unterschied widerspiegeln und nicht das, was die Rekrutierung bequem macht.
- Wie groß sollte eine Pilot- oder Machbarkeitsstudie sein?
- Da Pilotstudien darauf abzielen, die Machbarkeit zu bewerten und die Variabilität zu schätzen, anstatt eine Hypothese zu testen, werden sie nach Faustregeln oder präzisionsbasierten und nicht nach powerbasierten Überlegungen dimensioniert, und die angemessene Größe bleibt ein Bereich aktiver methodischer Arbeit.
Key figures
- Kenneth Schulz
- David Grimes
- Douglas Altman
- Steven Julious
- Michael Campbell
Related topics
Seminal works
- schulz-grimes-2005-sampsize
- moher-2010-consort-ss
- altman-1991-textbook
Frequently asked questions
- Welche Informationen benötige ich, bevor ich eine Fallzahl berechnen kann?
- Mindestens das Signifikanzniveau (oft 0,05), die gewünschte Power (oft 80 % oder 90 %), den kleinsten nachweisbaren Effekt und eine Schätzung der Variabilität des Ergebnisses oder der Baseline-Ereignisrate; für die Planung fügen Sie auch einen Zuschlag für erwartete Ausfälle hinzu.
- Warum kann eine Studie sowohl zu groß als auch zu klein sein?
- Eine unterpowerte Studie kann einen realen Effekt übersehen, aber eine unnötig große Studie setzt zusätzliche Teilnehmer Studienverfahren aus und verbraucht Ressourcen, ohne die Antwort zu verbessern. Das Ziel ist daher eine angemessene Größe, nicht einfach eine große.