تعلّم
ما هي قيمة P-Value؟ | الإحصائيات
بعبارات بسيطة تعبر القيمة p عن مدى دهشتك من البيانات، بافتراض عدم وجود تأثير. كلما انخفضت قيمة p، كلما بدت البيانات غير متوافقة مع نموذجك (أي افتراض عدم وجود تأثير).
على سبيل المثال.
تتم مقارنة العلاج (أ) بالعلاج (ب)، وتفترض عدم وجود تأثير أو عدم وجود فرق، وتتوقع أن تكون الفرضية الفارغة صحيحة. قمت بإجراء الاختبار وحصلت على قيمة p تساوي 0.02. وهذا يعني أن البيانات التي جمعتها مثيرة للدهشة إلى حد كبير، بالنظر إلى أنك افترضت أن المجموعات لن تختلف.
القيمة p موجودة لحماية نفسك من العشوائية. إذا قمت بإجراء دراسة، فمن المحتمل أن تكون التأثيرات التي تراها مجرد ضوضاء عشوائية - أو ضوضاء البيانات، كما نسميها. لهذا السبب قد ترى اختلافات ملحوظة في القيم المتوسطة بين المجموعات، ولكن لا يوجد تأثير ذو دلالة إحصائية. ويمكن أن يحدث العكس أيضاً. قد تُظهر دراسة ما نتيجة غير مهمة، ولكن قد يكون هناك تأثير حقيقي؛ ربما لأن حجم العينة صغير جدًا.
ما الذي يؤثر على قيمة p؟
تتأثر قيم P-قيم P بعدة عوامل مختلفة: حجم العينة، وحجم التأثير، ونوع الاختبار بافتراضاته.
- حجم العينة: كلما كان حجم العينة أكبر، كلما حصلت على نتائج ذات دلالة إحصائية أسرع مع وجود اختلافات صغيرة - والعكس صحيح.
- حجم التأثير: كلما كان حجم التأثير أكبر، كلما حصلت على نتائج ذات دلالة إحصائية أسرع، حتى مع المجموعات الأصغر - والعكس صحيح
- نوع الاختبار: يصبح الاختبار أكثر حساسية للاختلافات مع افتراضات معينة حول توزيع البيانات على سبيل المثال، واستقلالية المقاييس، والتجانس في المقاييس، والتماثل في المقاييس، وأحادية الجانب مقابل ثنائية الجانب، وبين المجموعة مقابل داخل المجموعة، إلخ.
على سبيل المثال.
يمكن أن تتوصل دراسة ضخمة إلى نتائج ذات دلالة إحصائية ذات تأثيرات ضئيلة. قد لا تعني هذه التأثيرات شيئاً. وهنا يأتي دور الأهمية السريرية، حيث استخدمت دراسة البنسلين الأصلية عينة صغيرة جدًا لتظهر البيانات أن هناك تأثيرات هائلة في القضاء على البكتيريا.
قيمة P-قيمة P <0.05 الحد الأدنى
إن عتبة الدلالة الإحصائية التي يستخدمها معظم الباحثين (أي p < 0.05) هي مجرد اعتباطية. كل الأمور يجب أن تتغير بناءً على إعدادات دراستك. إذا كنت لا تريد حقًا نتائج إيجابية كاذبة (على سبيل المثال قرار الخضوع لعملية جراحية تهدد الحياة)، فأنت بحاجة إلى رقم عتبة منخفض. إذا كنت لا تريد حقًا الحصول على نتائج سلبية كاذبة (على سبيل المثال تشخيص الأورام العدوانية)، فأنت بحاجة إلىدراسة عالية القوة مع رقم عتبة قيمة p-قيمة p أعلى لاحقًا. يوضح هذا علاقة الأخذ والعطاء بين أخطاء النوع 1 (α) والنوع 2 (ß).
لاحظ أن القيمة p مستمدة من البيانات وليس من النظرية. لا يمكنك "إثبات" نظريتك بتأثير ذي دلالة إحصائية. الشيء الوحيد الذي يمكنك القيام به هو محاولة دحض نظريتك بدراسات مختلفة، فإذا كانت صحيحة فإن نظريتك قائمة. هذا هو التزوير.
المفاهيم الخاطئة حول القيمة p
تتضمن بعض المفاهيم الخاطئة الشائعة حول القيمة p في الأبحاث الطبية ما يلي:
- تعني قيمة p ذات دلالة إحصائية كبيرة أن التأثير أو الارتباط كبير أو ذو مغزى سريريًا.
- الواقع: تشير قيمة p فقط إلى احتمالية الحصول على النتيجة المرصودة أو أكثر تطرفًا في ظل الفرضية الفارغة. لا يوفر معلومات حول الحجم أو الأهمية السريرية للتأثير أو الارتباط
- تعني قيمة p غير ذات دلالة إحصائية عدم وجود تأثير أو ارتباط.
- الواقع: تشير قيمة p غير ذات دلالة إحصائية فقط إلى أن النتيجة المرصودة ليست ذات دلالة إحصائية، ولكنها لا تعني بالضرورة عدم وجود تأثير أو ارتباط. قد يكون ذلك بسبب انخفاض القوة الإحصائية أو عوامل أخرى مثل خطأ القياس أو المتغيرات المربكة.
- تُعد قيمة p 0.05 عتبة عالمية للدلالة الإحصائية.
- الواقع: يعتمد اختيار مستوى الدلالة على السياق ويجب أن يعتمد على عوامل مثل تصميم الدراسة وحجم العينة وعواقب ارتكاب خطأ من النوع الأول. قد يكون مستوى الدلالة المنخفض مناسبًا في بعض الحالات، كما هو الحال في الدراسات ذات المقارنات المتعددة أو ذات المخاطر العالية
- تُثبت قيمة p-قيمة معنوية كبيرة وجود علاقة سببية.
- الواقع: تشير الدلالة الإحصائية فقط إلى احتمالية الحصول على النتيجة المرصودة أو أكثر تطرفًا في ظل الفرضية الفارغة. لا يثبت السببية التي تتطلب أدلة إضافية من تصميم الدراسة والمعقولية البيولوجية وعوامل أخرى.
- دائمًا ما يؤدي حجم العينة الكبير إلى قيمة p-قيمة كبيرة.
- الواقع: يزيد حجم العينة الكبير من القدرة على اكتشاف التأثير أو الارتباط، لكنه لا يضمن الحصول على قيمة p-قيمة p كبيرة. يلعب حجم التأثير والتباين وعوامل أخرى أيضًا دورًا في تحديد الدلالة الإحصائية.
المراجع
Elkins, M. R., Pinto, R. Z., Verhagen, A., Grygorowicz, M., Söderlund, A., Guemann, M., Gómez-Conesa, A., Blanton, S., Brismée, J. M., Agarwal, S., Jette, A., Karstens, S., Harms, M., Verheyden, G., & Sheikh, U. (2022). الاستدلال الإحصائي من خلال التقدير: توصيات من الجمعية الدولية لمحرري مجلات العلاج الطبيعي. مجلة العلاج اليدوي والتلاعب، 30(3)، 133-138.
نيمان، ج. وبيرسون، إ. س. (1928) حول استخدام وتفسير بعض معايير الاختبار لأغراض الاستدلال الإحصائي. بيومتريكا، 20 أ، 175-240.
هل أعجبك ما تتعلمه؟
اشتر كتاب التقييم الكامل للفيزيائيين
- كتاب إلكتروني من أكثر من 600 صفحة
- المحتوى التفاعلي (عرض توضيحي مباشر بالفيديو، مقالات المجلات الطبية)
- القيم الإحصائية لجميع الاختبارات الخاصة من أحدث الأبحاث
- متوفر في 🇬🇧 🇩🇪 🇩🇪 🇫🇷 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷
- وأكثر من ذلك بكثير!