学ぶ
P値とは何か?| 統計
簡単に言えば、p値は影響がないと仮定した場合のデータに対する驚きを表す。 p値が低ければ低いほど、データはあなたのモデル(すなわち効果がないという仮定)と相容れないと思われる。
例えば。
治療Aが治療Bと比較され、あなたは効果がない、または差がないと仮定する。 あなたは検定を行い、0.02というp値を得た。 つまり、あなたが集めたデータは、グループ間で差がないと想定していたことを考えれば、かなり驚くべきものだったということだ。
p値はランダム性から身を守るために存在する。 研究を行った場合、目に見える効果はランダムなもの、つまりデータノイズと呼ばれるものである可能性が高い。 グループ間の平均値に顕著な差があっても、統計的に有意な効果が見られないのはそのためだ。 その逆もあり得る。 ある研究では有意な結果が得られなくても、本当は効果があるのかもしれない。
何がp値に影響を与えるのか?
P値は、標本サイズ、効果量、検定の種類とその仮定など、いくつかの異なる要因に影響される。
- サンプルサイズ:グループが大きければ大きいほど、わずかな差でも統計的に有意な結果を早く得ることができる。
- 効果量:効果量が大きければ大きいほど、たとえ少人数のグループであっても、統計的に有意な結果を早く得ることができる。
- 検定の種類: 検定は、例えば、データ分布、尺度の独立性、同値性、片側対両側、グループ間対グループ内などに関する特定の仮定があると、その違いに敏感になる。
例えば。
巨大な研究は、わずかな効果でも統計的に有意な結果を見出すことができる。 これらの効果に意味はないかもしれない。 ペニシリンの最初の研究では、細菌を除去する大きな効果があることを示すデータを作るために、ごくわずかなサンプルを使った。
P値<0.05の閾値
多くの研究者が用いる統計的有意性の閾値(すなわちp<0.05)は恣意的なものに過ぎない。 あらゆることを考慮しても、研究のセットアップによって変わってくるはずだ。 もし本当にそうしたくないのなら 偽陽性 (例えば、生命を脅かすような手術を受ける決断をする場合)には、低いしきい値が必要である。 偽陰性(例えば、進行性腫瘍の診断)を本当に避けたいのであれば、p値のしきい値を高くした高倍率の研究が必要である。 これは、タイプ1(α)とタイプ2(ß)の誤差のギブ・アンド・テイクの関係を示している。
p値は理論ではなくデータから導き出されたものであることに注意してほしい。 統計的に有意な効果で自分の理論を『証明』することはできない。 あなたができることは、別の研究によってあなたの理論に反論しようとすることだ。 これが改竄である。
p値にまつわる誤解
医学研究におけるp値に関する一般的な誤解には次のようなものがある:
- 有意なp値は、効果や関連が大きい、あるいは臨床的に意味があることを意味する。
- 現実だ: p値は、帰無仮説のもとで、観察された結果が得られる可能性、あるいはより極端な結果が得られる可能性を示しているにすぎない。 に関する情報は提供していない。 効果の大きさや臨床的意義 または協会
- 有意でないp値は、効果や関連がないことを意味する。
- 現実だ: 有意でないp値は、観察された結果が統計的に有意でないことを示唆するだけで、必ずしも効果や関連がないことを意味しない。 これは統計的検出力が低いためかもしれないし、測定誤差や交絡変数などの他の要因によるものかもしれない。
- p値0.05は、統計的有意性の普遍的な閾値である。
- 有意なp値は因果関係を証明する。
- 現実だ: 統計的有意性は、帰無仮説のもとで、観察された結果またはそれ以上の極端な結果が得られる可能性を示しているにすぎない。 これは因果関係を証明するものではなく、研究デザイン、生物学的妥当性、その他の要因による追加の証拠が必要である。
- サンプルサイズが大きいと、常に有意なp値が得られる。
- 現実だ: サンプルサイズが大きいと、効果や関連を検出する力が強まるが、有意なp値が保証されるわけではない。 効果の大きさ、ばらつき、その他の要因も統計的有意性を決定する役割を果たす。
参考文献
Elkins, M. R., Pinto, R. Z., Verhagen, A., Grygorowicz, M., Söderlund, A., Guemann, M., Gómez-Conesa, A., Blanton, S., Brismée, J. M., Agarwal, S., Jette, A., Karstens, S., Harms, M., Verheyden, G., & Sheikh, U. (2022). 推定による統計的推論:国際理学療法ジャーナル編集者協会からの提言。 The Journal of manual & manipulative therapy, 30(3), 133-138.
ネイマン、J.、ピアソン、E.S. (1928) 統計的推論を目的としたある種の検定基準の使用と解釈について。 Biometrika, 20A, 175-240.
クリストリー、R.M. (2010). パワーとエラー: パワー不足の研究では偽陽性のリスクが増加する。 The Open Epidemiology Journal, 3, 16-19.
インフルエンザ菌の分離におけるペニシリウム培養物の抗菌作用について。 Br J Exp Pathol. 1929 Jun;10(3):226-36. PMCID: PMC2048009である。
エリクソン、R.A.、ラットナー、B.A. (2020). 生態毒性学においてp<0.05を超えること: 実務家のためのガイド 環境毒性化学, 39(9), 1657-1669.
今学んでいることが好きか?
フィジオチューターアセスメントブックを購入する
- 600ページ以上の電子書籍
- インタラクティブ・コンテンツ(ダイレクト・ビデオ・デモンストレーション、PubMed記事)
- 最新の研究によるすべての特別検査の統計値
- 🇬🇧 🇩🇪 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷 で利用できる。
- その他にもいろいろある!