Leer
Wat is een P-waarde? | Statistieken
Eenvoudig gezegd drukt de p-waarde uit hoe verbaasd u bent over de gegevens, ervan uitgaande dat er geen effect is. Hoe lager de p-waarde, hoe onverenigbaarder de gegevens lijken met uw model (d.w.z. de veronderstelling dat er geen effect is).
Bijvoorbeeld.
Behandeling A wordt vergeleken met behandeling B, u neemt aan dat er geen effect of geen verschil is; u verwacht dat de nulhypothese juist is. Je voert de test uit en krijgt een p-waarde van 0,02. Dat betekent dat de gegevens die u verzamelde nogal verrassend zijn, aangezien u aannam dat de groepen niet zouden verschillen.
De p-waarde bestaat om je te beschermen tegen willekeur. Als u een onderzoek uitvoert, is de kans groot dat de effecten die u ziet gewoon willekeurig zijn - of dataruis, zoals wij dat noemen. Daarom zie je misschien merkbare verschillen in de gemiddelde waarden tussen de groepen, maar geen statistisch significant effect. Het kan ook andersom. Een studie kan een niet-significant resultaat opleveren, maar er kan een echt effect zijn; misschien omdat de steekproefomvang gewoon te klein is.
Wat beïnvloedt de p-waarde?
P-waarden worden beïnvloed door een paar verschillende factoren: steekproefgrootte, effectgrootte en het type test met zijn aannames.
- Steekproefgrootte: hoe groter de groep, hoe sneller je statistisch significante resultaten krijgt met kleine verschillen en vice versa.
- Effectgrootte: hoe groter de effectgrootte, hoe sneller je statistisch significante resultaten krijgt, zelfs met kleinere groepen, en omgekeerd.
- Type test: een test wordt gevoeliger voor verschillen met bepaalde aannames over bijvoorbeeld de gegevensverdeling, onafhankelijkheid van maten, homoscedasticiteit, eenzijdig vs tweezijdig, tussen-groep vs binnen-groep, enz.
Bijvoorbeeld.
Een groot onderzoek kan statistisch significante resultaten opleveren, zelfs met de kleinste effecten. Deze effecten betekenen misschien niets. De oorspronkelijke penicillinestudie gebruikte een klein monster om de gegevens te laten zien dat er enorme effecten zijn op het elimineren van bacteriën.
P-waarde <0,05 drempel
De drempel voor statistische significantie die de meeste onderzoekers gebruiken (d.w.z. p < 0,05) is gewoon arbitrair. Al met al zou het moeten veranderen op basis van je studieopstelling. Als je echt geen vals-positieve resultaten wilt (bijvoorbeeld een beslissing om een levensbedreigende operatie te ondergaan), dan heb je een laag drempelgetal nodig. Als je echt geen vals-negatieven wilt (bijvoorbeeld bij het diagnosticeren van agressieve tumoren), heb je een krachtigonderzoek nodig met vervolgens een hogere p-waarde drempelwaarde. Dit illustreert de geven-en nemen relatie tussen type 1 (α) en type 2 (ß) fouten.
De p-waarde is afgeleid van de gegevens, niet van de theorie. Je kunt je theorie niet 'bewijzen' met een statistisch significant effect. Het enige wat je kunt doen is proberen je theorie te weerleggen met andere studies, als die stand houdt, blijft je theorie overeind. Dit is vervalsing.
Misvattingen over de p-waarde
Enkele veel voorkomende misvattingen over de p-waarde in medisch onderzoek zijn:
- Een significante p-waarde betekent dat het effect of de associatie groot of klinisch betekenisvol is.
- Werkelijkheid: De p-waarde geeft alleen de waarschijnlijkheid aan van het verkrijgen van het waargenomen resultaat of extremer onder de nulhypothese. Het geeft geen informatie over de grootte of klinische significantie van het effect of de associatie
- Een niet-significante p-waarde betekent dat er geen effect of associatie is.
- Werkelijkheid: Een niet-significante p-waarde suggereert alleen dat het waargenomen resultaat niet statistisch significant is, maar het betekent niet noodzakelijkerwijs dat er geen effect of associatie is. Het kan te wijten zijn aan een laag statistisch vermogen of andere factoren zoals meetfouten of verstorende variabelen.
- Een p-waarde van 0,05 is een universele drempel voor statistische significantie.
- Werkelijkheid: De keuze van het significantieniveau hangt af van de context en moet gebaseerd zijn op factoren zoals het onderzoeksontwerp, de steekproefgrootte en de gevolgen van het maken van een type I fout. In sommige situaties kan een lager significantieniveau gepast zijn, zoals bij onderzoeken met meervoudige vergelijkingen of onderzoeken waar veel op het spel staat.
- Een significante p-waarde bewijst causaliteit.
- Werkelijkheid: Statistische significantie geeft alleen de waarschijnlijkheid aan van het verkrijgen van het waargenomen resultaat of een extremer resultaat onder de nulhypothese. Hiervoor is aanvullend bewijs nodig van onderzoeksopzet, biologische plausibiliteit en andere factoren.
- Een grote steekproefgrootte leidt altijd tot een significante p-waarde.
- Werkelijkheid: Een grote steekproefgrootte vergroot de kracht om een effect of associatie te detecteren, maar garandeert geen significante p-waarde. De effectgrootte, variabiliteit en andere factoren spelen ook een rol bij het bepalen van statistische significantie.
Bronnen
Elkins, M. R., Pinto, R. Z., Verhagen, A., Grygorowicz, M., Söderlund, A., Guemann, M., Gómez-Conesa, A., Blanton, S., Brismée, J. M., Agarwal, S., Jette, A., Karstens, S., Harms, M., Verheyden, G., & Sheikh, U. (2022). Statistische inferentie door schatting: aanbevelingen van de International Society of Physiotherapy Journal Editors. Tijdschrift voor manuele en manipulatieve therapie, 30(3), 133-138.
Neyman, J. en Pearson, E.S. (1928) On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. Biometrika, 20A, 175-240.
Vind je het leuk wat je leert?
KOOP HET VOLLEDIGE FYSIOTOREN BEOORDELINGSBOEK
- 600+ Pagina's e-Boek
- Interactieve inhoud (directe videodemonstratie, PubMed-artikelen)
- Statistische waarden voor alle speciale testen uit het laatste onderzoek
- Beschikbaar in 🇬🇧 🇩🇪 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷
- En nog veel meer!