Imparare
Cos'è il valore P? | Statistiche
In parole povere, il valore p esprime quanto si è sorpresi dai dati, supponendo che non vi sia alcun effetto. Più basso è il valore di p, più i dati sembrano incompatibili con il modello (cioè con l'ipotesi che non vi sia alcun effetto).
Eg.
Il trattamento A viene confrontato con il trattamento B, si presume che non vi sia alcun effetto o alcuna differenza; ci si aspetta che l'ipotesi nulla sia corretta. Si esegue il test e si ottiene un valore p di 0,02. Ciò significa che i dati raccolti sono piuttosto sorprendenti, considerando che si presumeva che i gruppi non differissero.
Il valore p esiste per proteggersi dalla casualità. Se si esegue uno studio, è probabile che gli effetti osservati siano solo casuali, o rumore dei dati, come lo chiamiamo noi. Ecco perché si possono notare differenze notevoli nei valori medi tra i gruppi, ma nessun effetto statisticamente significativo. Può accadere anche il contrario. Uno studio potrebbe mostrare un risultato non significativo, ma potrebbe esserci un effetto reale, magari perché la dimensione del campione è troppo piccola.
Cosa influenza il valore p?
I valori P sono influenzati da alcuni fattori diversi: la dimensione del campione, la dimensione dell'effetto e il tipo di test con le sue ipotesi.
- Dimensione del campione: più grande è il gruppo, più velocemente si otterranno risultati statisticamente significativi con piccole differenze e viceversa.
- Dimensione dell'effetto: più grande è la dimensione dell'effetto, più velocemente si otterranno risultati statisticamente significativi, anche con gruppi più piccoli, e viceversa.
- Tipo di test: un test diventa più sensibile alle differenze con determinate assunzioni, ad esempio sulla distribuzione dei dati, sull'indipendenza delle misure, sull'omoscedasticità, su un lato o su due lati, tra gruppi o all'interno di un gruppo, ecc.
Eg.
Uno studio enorme può trovare risultati statisticamente significativi anche con effetti minimi. Questi effetti potrebbero non avere alcun significato. Lo studio originale sulla penicillina ha utilizzato un campione minuscolo per dimostrare che gli effetti sull'eliminazione dei batteri sono enormi.
Soglia del valore P <0,05
La soglia di significatività statistica utilizzata dalla maggior parte dei ricercatori (cioè p < 0,05) è semplicemente arbitraria. Tutto sommato, dovrebbe cambiare in base all'impostazione dello studio. Se non si vogliono risultati falsi positivi (ad esempio, la decisione di sottoporsi a un'operazione pericolosa per la vita), è necessario un numero soglia basso. Se non si vogliono falsi negativi (ad esempio, per la diagnosi di tumori aggressivi), è necessario unostudio ad alta potenza con un numero soglia di p-value più elevato. Questo illustra la relazione di dare e avere tra errori di tipo 1 (α) e di tipo 2 (ß).
Si noti che il valore p è derivato dai dati, non dalla teoria. Non si può "dimostrare" la propria teoria con un effetto statisticamente significativo. L'unica cosa che si può fare è cercare di confutare la propria teoria con studi diversi, se regge, la teoria rimane in piedi. Questa è la falsificazione.
Idee sbagliate sul p-value
Alcune idee sbagliate comuni sul valore p nella ricerca medica includono:
- Un valore p significativo significa che l'effetto o l'associazione è grande o clinicamente significativo.
- Realtà: Il valore p indica solo la probabilità di ottenere il risultato osservato o un risultato più estremo sotto l'ipotesi nulla. Non fornisce informazioni sulla dimensione o sulla significatività clinica dell'effetto o dell'associazione.
- Un valore p non significativo significa che non vi è alcun effetto o associazione.
- Realtà: Un valore p non significativo suggerisce solo che il risultato osservato non è statisticamente significativo, ma non significa necessariamente che non vi sia alcun effetto o associazione. Può essere dovuto a una bassa potenza statistica o ad altri fattori, come l'errore di misurazione o le variabili confondenti.
- Un valore p di 0,05 è una soglia universale di significatività statistica.
- Realtà: La scelta del livello di significatività dipende dal contesto e deve basarsi su fattori quali il disegno dello studio, la dimensione del campione e le conseguenze di un errore di tipo I. Un livello di significatività più basso può essere appropriato in alcune situazioni, come negli studi con confronti multipli o con una posta in gioco elevata.
- Un valore p significativo dimostra la causalità.
- Realtà: La significatività statistica indica solo la probabilità di ottenere il risultato osservato o un risultato più estremo sotto l'ipotesi nulla. Non stabilisce la causalità, che richiede ulteriori prove derivanti dal disegno dello studio, dalla plausibilità biologica e da altri fattori.
- Un campione di grandi dimensioni porta sempre a un valore p significativo.
- Realtà: Un campione di grandi dimensioni aumenta la capacità di rilevare un effetto o un'associazione, ma non garantisce un valore p significativo. Anche la dimensione dell'effetto, la variabilità e altri fattori giocano un ruolo nel determinare la significatività statistica.
Riferimenti
Elkins, M. R., Pinto, R. Z., Verhagen, A., Grygorowicz, M., Söderlund, A., Guemann, M., Gómez-Conesa, A., Blanton, S., Brismée, J. M., Agarwal, S., Jette, A., Karstens, S., Harms, M., Verheyden, G., & Sheikh, U. (2022). Inferenza statistica attraverso la stima: raccomandazioni dell'International Society of Physiotherapy Journal Editors. The Journal of manual & manipulative therapy, 30(3), 133-138.
Neyman, J. e Pearson, E.S. (1928) Sull'uso e l'interpretazione di alcuni criteri di prova ai fini dell'inferenza statistica. Biometrika, 20A, 175-240.
Vi piace quello che state imparando?
ACQUISTARE IL PROGRAMMA COMPLETO DI FISIOTERAPIA LIBRO DI VALUTAZIONE
- Libro elettronico di oltre 600 pagine
- Contenuto interattivo (dimostrazione video diretta, articoli PubMed)
- Valori statistici per tutti i test speciali, tratti dalla ricerca più recente
- Disponibile in 🇬🇧 🇩🇪 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷
- E molto altro ancora!