Statistik-Refresher: Referenzen

Kontrolle von Confounding
«Control of confounding in the analysis phase – an overview for clinicians»

In Beobachtungsstudien kann Confounding in der Planungs- und Analysephase kontrolliert werden. Anhand von Beispielen mit grossen Datenbankstudien im Gesundheitswesen gibt dieser Artikel Klinikern einen Überblick über Standardmethoden in der Analysephase, wie z.B. Stratifizierung, Standardisierung, multivariable Regressionsanalyse und Propensity Score (PS)-Methoden, sowie die fortgeschrittenere High-Dimensional Propensity Score (HD-PS)-Methode.

Quelle: Kahlert J, Gribsholt SB, Gammelager H, Dekkers OM, Luta G. Control of confounding in the analysis phase – an overview for clinicians. Clin Epidemiol. 2017; 9:195-204


Die p-Wert Krankheit
«Sifting the evidence – what’s wrong with significance tests?»

Dieser Artikel veranschaulicht, wie die Praxis des Signifikanztestens entstanden ist. Eine willkürliche Einteilung der Resultate als «signifikant» oder «nicht-signifikant» (gemäss dem üblicherweise verwendeten Schwellenwert von p = 0.05) war nicht die Absicht der Gründer der statistischen Inferenz. P-Werte müssen viel kleiner als 0.05 sein, bevor man diese als starke Hinweise gegen die Nullhypothese betrachten kann. Leider werden p-Werte immer noch häufig allgemein missverstanden. Die häufigste Fehlinterpretation ist, dass der p-Wert die Wahrscheinlichkeit ist, dass die Nullhypothese wahr ist, und dass ein signifikantes Ergebnis somit bedeutet, dass die Nullhypothese mit grosser Wahrscheinlichkeit nicht wahr ist. Der irreführende Charakter dieser Interpretation wird anhand von zwei plausiblen Annahmen aufgezeigt.

Quelle: Sterne JAC, Smith GD. Sifting the evidence—what's wrong with significance tests? Another comment on the role of statistical methods. BMJ. 2001; 322:226


Non-Inferiority Studien
«Challenges in the Design and Interpretation of Noninferiority Trials»

Dieser Artikel bietet einen Rahmen für alle Überlegungen zu den Merkmalen und Fallstricken von Non-Inferiority Studien (Nicht-Unterlegenheitsstudien). Als Beispiele werden kardiovaskuläre Interventionsstudien herangezogen. Non-Inferiority Studien können jedoch in vielen Fachgebieten durchgeführt werden. Es werden Zulassungsstudien für neue Therapien besprochen, sowie Studien, welche etablierte Behandlungsmethoden vergleichen. Darüber hinaus wird die Anwendung von Non-Inferiority-Konzepten und -Designs auf neue Anwendungsbereiche in der klinischen Forschung diskutiert.

Quelle: Mauri L, D’Agostino Sr RB. Challenges in the design and interpretation of noninferiority trials. New England Journal of Medicine. 2017, 377(14); 1357-1367.


Gematchte Fall-Kontroll-Studien
«Analysis of Matched Case-Control Studies»

Es gibt zwei verbreitete Missverständnisse über Fall-Kontroll-Studien: Erstens, dass das Matching an sich Confounding durch die Matching-Faktoren beseitigt (oder kontrolliert), und zweitens, dass bei einer gematchten Studie eine gematchte Analyse gemacht werden muss. Das Matching in einer Fall-Kontroll-Studie ist jedoch keine Kontrolle für Confounding. Es kann im Gegenteil sogar zu Confounding durch die Matching-Faktoren kommen, selbst wenn es in der Ausgangspopulation kein Confounding gab. Daher kann ein Matching-Design eine gematchte Analyse erfordern, muss aber nicht. Vorausgesetzt, dass es keine Probleme mit spärlichen Daten gibt, kann auch eine Standard- (nicht-gematchte) Analyse für gematchte Faktoren kontrollieren, und zwar ohne Verlust der Validität und sogar mit einer erhöhten Präzision.

Quelle:  Pearce N. Analysis of matched case-control studies. BMJ. 2016; 352:i969


Stepped Wegde Cluster randomisierte Studien
«The Stepped Wedge Cluster Randomised Trial: Rationale, Design, Analysis, and Reporting»

Eine Stepped Wedge Cluster randomisierte Studie ist ein Studiendesign, das in zunehmendem Masse bei der Bewertung von Interventionen vom Typ Dienstleistungserbringung eingesetzt wird. Das Design beinhaltet einen zufälligen und sequentiellen Übergang der Cluster von der Kontrolle zur Intervention, bis alle Cluster der Intervention zugeteilt worden sind. Es handelt sich um ein pragmatisches Studiendesign, das den Bedarf an robusten Bewertungen mit politischen oder logistischen Zwängen in Einklang bringen kann. Es eignet sich besonders für Auswertungen, die sich nicht auf die individuelle Patientenrekrutierung stützen. Wie bei allen Clusterstudien besteht auch bei Stepped Wedge Cluster randomisierten Studien mit individueller Rekrutierung und ohne Verblindung der Zuteilung oder der Intervention das Risiko eines systematischen Selektionsfehlers (selection bias).

Quelle: Hemming K, Haines TP, Chilton PJ, Girling AJ, Lilford RJ. The stepped wedge cluster randomised trial: rationale, design, analysis, and reporting. BMJ. 2015; 350:h391

 

Multiples Testen
«Multiple testing: when is many too much?»

In den allermeisten Studien wird mehr als eine Hypothese getestet oder mehr als ein Zusammenhang geschätzt. Das Testen mehrerer Hypothesen (multiples Testen) erhöht das Risiko, falsch-positive Schlüsse zu ziehen. Diese Publikation diskutiert dieses Phänomen und zeigt Methoden auf, mit welchen das Risiko falsch-positiver Schlussfolgerungen minimiert werden kann.

Quelle: Groenwold RHH, Goeman JJ, Cessie SL, Dekkers OM. Multiple testing: when is many too much? Eur J Endocrinol. 2021 Mar;184(3):E11-E14. doi: 10.1530/EJE-20-1375. PMID: 33300887.