Lære
Hva er problemet med flere sammenligninger? | Statistikk
Problemet med flere sammenligninger er problemet som oppstår når flere tester utføres på samme prøve. Et eksempel vil illustrere dette.
F.eks.
La oss si at en studie ser på potensielle risikofaktorer for løpeskader hos 5000 nybegynnere. Ulike variabler testes, siden vi ennå ikke vet hvilke som vil øke risikoen. Eksempler er: løpevolum, navikulært drop, q-vinkel, quad og glute styrke, hæl vs forfot slagmønster, minimalistisk vs maksimalistisk sko, og ankel dorsalfleksjon ROM.
Falske positive med flere sammenligninger
De fleste forskere vil godta en 5% falsk positiv rate, alfa- eller signifikansnivået . Dette er for en gitt variabel som quadriceps styrke. Det betyr at hvis denne studien utføres hundre ganger, vil omtrent 5 studier vise et falskt positivt resultat , mens det faktisk ikke er noen.
Forskerne ser imidlertid på ti variabler, ikke bare quad-styrke; innenfor samme prøve. Dette utgjør et problem.
Forskerne, uvitende om dette problemet, gjennomfører forsøket. To år senere kommer dataene inn, som viser at et hælslagmønster og glutestyrke er en risikofaktor for en løpeskade. Stor! Det er konklusjonen og papiret blir publisert.
Som nevnt før, betyr ikke signifikansnivået på 5 % at det er en 5 % falsk positiv rate på dette tidspunktet på grunn av mengden av forskjellige variabler som forskes på. Så forskerne aksepterte implisitt en mye større risiko for falske positive resultater ved å gjennomføre forsøket og se på ti variabler.
Den familiemessige feilprosenten viser dette. Med en ganske enkel beregning kan vi sjekke den falske positive raten, den er 40%! Formelen er vist nedenfor.
Løsninger på problemet med flere sammenligninger
Jeg tror vi kan være enige om at dette utgjør et problem. Så hva skal vi gjøre med det? Det finnes en løsning. Forskere kan gjøre korrigeringer for å motvirke denne alfa-inflasjonen ved å gjøre en Bonferroni- eller Holm-korreksjon. Dette er diskutert i " Type 1 feilratekontroll ".
Familiemessig feilrateformel:
1 – (1 – ɑ)x
ɑ: alfa- eller signifikansnivå i desimaler
x: antall tester
Type II feil
Men justering av signifikansnivået for hver enkelt test kan øke sannsynligheten for å gjøre en type II feil (falsk negativ) på tvers av alle testene. Dette er fordi det strengere signifikansnivået reduserer kraften til hver enkelt test for å oppdage en sann effekt eller forhold. Følgelig kan en betydelig effekt gå glipp av i enkelte tester, noe som fører til falske negative resultater . For å unngå falske negative resultater på grunn av problemet med flere sammenligninger, kan vi bruke teknikker som forhåndsregistrering av hypoteser, replikasjonsstudier eller kraftigere statistiske metoder som Bayesiansk inferens. I tillegg er det viktig å nøye utforme studien og hypotesene som testes for å minimere antall tester som utføres og sikre at de er meningsfulle og relevante for forskningsspørsmålet.
Liker du det du lærer?
KJØP HELE PHYSIOTUTORS VURDERINGSBOK
- 600+ sider e-bok
- Interaktivt innhold (direkte videodemonstrasjon, PubMed-artikler)
- Statistiske verdier for alle spesialtester fra den nyeste forskningen
- Tilgjengelig i 🇬🇧 🇩🇪 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷
- Og mye mer!