Lære
Hva er statistisk kraft? | Statistikk
Kraften er den langsiktige sannsynligheten for en serie identiske studier for å oppdage en statistisk signifikant effekt (f.eks. p<0,05) hvis det er noen. Sannsynligheten for en type 2 feil i en serie identiske studier er én minus potensen (1-ß, ofte 20%).
F.eks.
Hundre studier er utført innenfor samme populasjon med samme behandling A vs behandling B struktur. Den sanne behandlingsforskjellen i det virkelige liv mellom A og B er en 30 % høyere sjanse for full gjenoppretting i behandling A. Når statistikken utføres på disse hundre studiene (samme populasjon, samme varians, samme standardavvik), i gjennomsnitt ca. 20 studier vil ikke vise en statistisk signifikant effekt. Dette er type 2 feilrate, eller falske negativer – direkte relatert til den statistiske potensen (1-ß).
Så for å si det enkelt, en utilstrekkelig drevet studie vil sjeldnere vise en statistisk signifikant effekt, mens det faktisk er en forskjell.
Dette påvirker makten
Makt påvirkes av noen få faktorer, akkurat som med p-verdier .
- Prøvestørrelse: større utvalg = mer kraft (klarere forskjeller mellom grupper, mindre datastøy)
- Varians: mindre varians = mer kraft
- Effektstørrelser : større effektstørrelser = mer kraft (lettere å oppdage ved en test)
- Type statistisk test: noen tester gir mer kraft i bytte mot flere forutsetninger (det er ingen gratis lunsj i statistikk)
Det er imidlertid viktig å forstå at den statistiske kraften (f.eks. 80 %) er det for ett måleverktøy, for ett tidspunkt, for en effektstørrelse.
Lav effekt = upålitelig studie
Så en undersøkt studie øker risikoen for type 2-feil (falske negative) , men den øker også risikoen for type 1-feil (falske positive), med oppblåste effekter. Dette kalles "vinnerens forbannelse". Dette er grunnen til at du rett og slett ikke kan kaste flere utfallsmål på en prøvestørrelse og måle på flere tidspunkter uten å la den statistiske kraften din krasje. Gode forskere og klinikere vet at sekundære utfallsmål bare er suggestive fordi studien ikke er drevet for den mengden mål. Du trenger nye studier for å bekrefte disse forslagene. Problemet beskrevet ovenfor blir referert til som problemet med flere sammenligninger .
Jeg kan tenke meg at dette høres litt motintuitivt ut. La oss se på et eksempel.
F.eks.
Du foreleser en gruppe på 200 studenter og bestemmer deg for å dele dem opp i to grupper. Målet med studien din er å se om det er kjønnsforskjeller som flere kvinner i en gruppe sammenlignet med den andre. Det er ingen forskjell. Du ser så på øyenfarge, hårfarge, lengden på pekefingeren, benkpress PR, QOL, alder, antall søsken osv. Sjansen er stor for at du vil møte et statistisk signifikant resultat et sted. Dette er problemet med flere sammenligninger .
Løsninger
For å unngå underkraftige studier og risikoen for falske positive eller falske negativer , må forskere planlegge studiene med tilstrekkelig kraft. Dette krever vurdering av faktorer som utvalgsstørrelse, effektstørrelse , varians og den statistiske testen som brukes. Flere tester utgjør også en risiko for falske positiver , som kan løses gjennom metoder som å justere signifikansnivået eller bruke kontroll av falsk oppdagelsesfrekvens. Ved å forstå begrepet statistisk makt og dets betydning i hypotesetesting, kan forskere designe studier som gir pålitelige og meningsfulle resultater.
Referanser
Liker du det du lærer?
KJØP HELE PHYSIOTUTORS VURDERINGSBOK
- 600+ sider e-bok
- Interaktivt innhold (direkte videodemonstrasjon, PubMed-artikler)
- Statistiske verdier for alle spesialtester fra den nyeste forskningen
- Tilgjengelig i 🇬🇧 🇩🇪 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷
- Og mye mer!