Aprende
O que é um valor P? | Estatísticas
Em termos simples, o valor p expressa o grau de surpresa com os dados, assumindo que não existe qualquer efeito. Quanto mais baixo for o valor p, mais incompatíveis os dados parecem ser com o seu modelo (ou seja, a hipótese de que não há efeito).
Por exemplo.
O tratamento A é comparado com o tratamento B, assume-se que não há efeito ou diferença; espera-se que a hipótese nula esteja correcta. Efectua o teste e obtém um valor p de 0,02. Isso significa que os dados que recolheu são bastante surpreendentes, tendo em conta que partiu do princípio de que os grupos não difeririam entre si.
O valor p existe para nos protegermos do acaso. Se efetuar um estudo, é provável que os efeitos observados sejam apenas aleatórios - ou ruído de dados, como lhe chamamos. É por isso que se podem observar diferenças visíveis nos valores médios entre os grupos, mas nenhum efeito estatisticamente significativo. Também pode acontecer o contrário. Um estudo pode mostrar um resultado não significativo, mas pode haver um efeito verdadeiro; talvez porque o tamanho da amostra seja demasiado pequeno.
O que influencia o valor p?
Os valores de p são influenciados por alguns factores diferentes: tamanho da amostra, tamanho do efeito e o tipo de teste com os seus pressupostos.
- Tamanho da amostra: quanto maior for o grupo, mais rapidamente obterá resultados estatisticamente significativos com pequenas diferenças - e vice-versa.
- Tamanho do efeito: quanto maior for o tamanho do efeito, mais rapidamente se obterão resultados estatisticamente significativos, mesmo com grupos mais pequenos - e vice-versa
- Tipo de teste: um teste torna-se mais sensível a diferenças com determinados pressupostos sobre, por exemplo, a distribuição dos dados, a independência das medidas, a homocedasticidade, unilateral vs bilateral, entre grupos vs intragrupo, etc.
Por exemplo.
Um grande estudo pode encontrar resultados estatisticamente significativos, mesmo com os efeitos mais pequenos. Estes efeitos podem não significar nada. O estudo original sobre a penicilina utilizou uma amostra minúscula para que os dados demonstrassem que os efeitos na eliminação das bactérias são enormes.
Valor de p <0,05
O limiar de significância estatística utilizado pela maioria dos investigadores (ou seja, p < 0,05) é simplesmente arbitrário. Tudo considerado, deve mudar com base na configuração do seu estudo. Se não quiser resultados falsos positivos (por exemplo, uma decisão de se submeter a uma operação com risco de vida), precisa de um limiar baixo. Se realmente não quiser falsos negativos (por exemplo, diagnosticar tumores agressivos), precisa de umestudo de alta potência com um limiar de valor p subsequentemente mais elevado. Este facto ilustra a relação de dependência entre os erros de tipo 1 (α) e de tipo 2 (ß).
Note-se que o valor p é derivado dos dados, não da teoria. Não se pode "provar" a teoria com um efeito estatisticamente significativo. A única coisa que pode fazer é tentar refutar a sua teoria com estudos diferentes; se se mantiver, a sua teoria mantém-se. Isto é falsificação.
Conceitos errados sobre o valor p
Alguns equívocos comuns sobre o valor p na investigação médica incluem:
- Um valor de p significativo significa que o efeito ou associação é grande ou clinicamente significativo.
- A realidade: O valor p indica apenas a probabilidade de obter o resultado observado ou mais extremo sob a hipótese nula. Não fornece informações sobre o dimensão ou significado clínico do efeito ou associação
- Um valor de p não significativo significa que não existe qualquer efeito ou associação.
- A realidade: Um valor p não significativo sugere apenas que o resultado observado não é estatisticamente significativo, mas não significa necessariamente que não existe qualquer efeito ou associação. Pode dever-se a um baixo poder estatístico ou a outros factores, como erros de medição ou variáveis de confusão.
- Um valor de p de 0,05 é um limiar universal para a significância estatística.
- A realidade: A escolha do nível de significância depende do contexto e deve basear-se em factores como a conceção do estudo, a dimensão da amostra e as consequências de um erro do tipo I. Um nível de significância mais baixo pode ser adequado em algumas situações, como em estudos com comparações múltiplas ou em situações de grande risco
- Um valor de p significativo prova a causalidade.
- A realidade: A significância estatística indica apenas a probabilidade de obter o resultado observado ou mais extremo sob a hipótese nula. Não estabelece a causalidade, que exige provas adicionais da conceção do estudo, da plausibilidade biológica e de outros factores.
- Uma grande dimensão da amostra conduz sempre a um valor p significativo.
- A realidade: Uma amostra de grande dimensão aumenta o poder de deteção de um efeito ou associação, mas não garante um valor p significativo. O tamanho do efeito, a variabilidade e outros factores também desempenham um papel na determinação da significância estatística.
Referências
Elkins, M. R., Pinto, R. Z., Verhagen, A., Grygorowicz, M., Söderlund, A., Guemann, M., Gómez-Conesa, A., Blanton, S., Brismée, J. M., Agarwal, S., Jette, A., Karstens, S., Harms, M., Verheyden, G., & Sheikh, U. (2022). Inferência estatística através de estimativas: recomendações da International Society of Physiotherapy Journal Editors. Jornal de terapia manual e manipulativa, 30(3), 133-138.
Neyman, J. e Pearson, E.S. (1928) On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference (Sobre a utilização e interpretação de certos critérios de teste para fins de inferência estatística). Biometrika, 20A, 175-240.
Gostas do que estás a aprender?
COMPRA O PHYSIOTUTORS COMPLETO LIVRO DE AVALIAÇÃO
- Livro eletrónico com mais de 600 páginas
- Conteúdo interativo (demonstração direta em vídeo, artigos PubMed)
- Valores estatísticos para todos os testes especiais da investigação mais recente
- Disponível em 🇬🇧 🇩🇪 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷
- E muito mais!