“Statistical Significance is dead – let’s embrace uncertainty”

Mitschnitt der Update Session vom Tag der Klinischen Forschung 2020 "Statistical Significance is dead - let's embrace uncertainty"

Mitschnitt der Update Session vom Tag der Klinischen Forschung 2020 "Statistical Significance is dead - let's embrace uncertainty"

Was steckt hinter den Diskussionen rund um p < 0.05?

Die Einteilung von Studienresultaten in «statistisch signifikant» versus «statistisch nicht-signifikant» hat ausgedient. Das ist nicht nur die Meinung der drei Referierenden an der Update Session am Tag der Klinischen Forschung 2020, sondern der Konsens vieler Wissenschaftler weltweit. Die American Statistical Association (ASA) – die weltweit grösste Gesellschaft von Statistikern – hat im vergangenen Jahr ein «special issue» mit 43 Artikeln zum Thema «Statistical inference in the 21st century – A world beyond p < 0.05» publiziert (Wasserstein et al. 2019). Zeitgleich  haben über 800 Wissenschaftler einen Aufruf unterzeichnet, die statistische Signifikanz in den Ruhestand zu schicken (Amrhein et al. 2019).

Warum hat das Konzept der statistischen Signifikanz ausgedient?

Zu oft wurden «statistisch nicht-signifikante» Resultate als «negativ» bezeichnet und daraus abgeleitet, dass «kein Effekt, kein Unterschied oder kein Zusammenhang» besteht. Solche Ergebnisse werden meist erst gar nicht publiziert oder weiter diskutiert. Eine solche Dichotomisierung, basierend auf dem p-Wert und einem arbiträren Schwellenwert (meist 0.05), ist irreführend und erlaubt keine sinnvolle Interpretation. Stattdessen sollten beobachtete Effektgrössen kommuniziert und deren Unsicherheit im Kontext interpretiert werden, indem z.B. die oberen und unteren Grenzen von Vertrauensintervallen diskutiert werden.

Darf man jetzt keine p-Werte mehr verwenden?

In der gegenwärtigen Diskussion geht es nicht um die Abschaffung des p-Wertes, sondern darum, Studienresultate nicht mehr als «statistisch signifikant» oder «statistisch nicht-signifikant» abzustempeln. Diese Einteilung geschieht basierend auf dem p-Wert und einem arbiträren Schwellenwert (meist 0.05). Problematisch sind vor allem die gängigen damit verbundenen Missinterpretationen. Der p-Wert kann als ergänzende Information zusammen mit der geschätzten Effektgrösse und deren Unsicherheit angegeben werden. Für sich alleine ist der p-Wert aber bedeutungslos.

Welche Alternativen gibt es?

Die Statistik liefert nie eine eindeutige Ja/Nein-Antwort, sondern immer eine mit Unsicherheit behaftete Schätzung. Diese Unsicherheit dürfen wir nicht scheuen, sondern müssen sie bei der Interpretation berücksichtigen. Die Alternativen zur «statistischen Signifikanz» sind vielfältig. Die Statistikerinnen und Statistiker des Departement Klinische Forschung (DKF) helfen Ihnen gerne weiter. Für Ihre persönlichen Fragen und weitere Informationen vereinbaren Sie am besten einen persönlichen Termin:


p-Wert Gruppenfoto

v.l.n.r. Marco Cattaneo (DKF), Laura Werlen (DKF), Michael Coslovsky (DKF), Deborah Vogt (DKF), Thomas Fabbro (ProNatura, vorm. DKF), Valentin Amrhein (Dept. Umweltwissenschaften)