تعلّم
ما هي القوة الإحصائية؟ | الإحصائيات
القوة هي الاحتمال طويل الأجل لسلسلة من الدراسات المتطابقة لاكتشاف تأثير ذي دلالة إحصائية (على سبيل المثال p <0.05) إذا كان هناك أي تأثير. إن احتمال حدوث خطأ من النوع الثاني في سلسلة من الدراسات المتطابقة هو واحد ناقص القوة (1-ß، وغالبًا ما يكون 20%).
على سبيل المثال.
يتم إجراء مائة دراسة ضمن نفس المجموعة السكانية بنفس بنية العلاج (أ) مقابل العلاج (ب). إن الفرق الحقيقي في العلاج الحقيقي في الحياة الواقعية بين العلاج (أ) و(ب) هو فرصة أعلى بنسبة 30% للشفاء الكامل في العلاج (أ). عند إجراء الإحصائيات على هذه الدراسات المائة (نفس عدد السكان، نفس التباين، نفس الانحراف المعياري)، في المتوسط لن تظهر حوالي 20 دراسة تأثيرًا ذا دلالة إحصائية. هذا هو معدل الخطأ من النوع 2، أو السلبيات الكاذبة - يرتبط مباشرةً بالقدرة الإحصائية (1-ß).
وببساطة، فإن الدراسة غير المدعومة بشكل كافٍ ستُظهر في كثير من الأحيان تأثيرًا غير مهم إحصائيًا، في حين أن هناك فرقًا فعليًا.
هذا يؤثر على الطاقة
تتأثر القوة ببعض العوامل، تمامًا كما هو الحال مع قيم p.
- حجم العينة: عينة أكبر = قوة أكبر (اختلافات أوضح بين المجموعات، ضوضاء بيانات أقل)
- التباين: تباين أقل = قوة أكبر
- أحجام التأثيرات: أحجام التأثيرات الأكبر = قوة أكبر (يسهل اكتشافها بالاختبار)
- نوع الاختبار الإحصائي: بعض الاختبارات تعطي قوة أكبر في مقابل المزيد من الافتراضات (لا توجد وجبات غداء مجانية في الإحصائيات)
ولكن من المهم أن نفهم أن القوة الإحصائية (على سبيل المثال 80%) لأداة قياس واحدة، لنقطة زمنية واحدة، لحجم تأثير واحد.
طاقة منخفضة = دراسة غير موثوقة
لذا فإن الدراسة التي لا تتمتع بالقدرة الكافية تزيد من خطر حدوث أخطاء من النوع الثاني (السلبيات الكاذبة)، ولكنها تزيد من خطر حدوث أخطاء من النوع الأول أيضًا (الإيجابيات الكاذبة)، مع تضخيم الآثار. وهذا ما يسمى "لعنة الفائز". هذا هو السبب في أنه لا يمكنك ببساطة إلقاء مقاييس نتائج متعددة على حجم عينة وقياسها في نقاط زمنية متعددة دون أن تنهار قوتك الإحصائية. يعرف الباحثون والأطباء السريريون الجيدون أن مقاييس النتائج الثانوية هي مجرد مقاييس إرشادية لأن الدراسة غير مدعومة بهذا القدر من المقاييس. تحتاج إلى دراسات جديدة لتأكيد هذه الاقتراحات. يشار إلى المشكلة الموضحة أعلاه باسم مشكلة المقارنة المتعددة.
يمكنني أن أتخيل أن هذا يبدو غير بديهي بعض الشيء. دعونا نلقي نظرة على مثال.
على سبيل المثال.
أنت تحاضر مجموعة من 200 طالب وتقرر تقسيمهم إلى مجموعتين. الهدف من دراستك هو معرفة ما إذا كانت هناك اختلافات بين الجنسين مثل زيادة عدد الإناث في إحدى المجموعتين مقارنة بالمجموعة الأخرى. لا يوجد فرق. ثم تنظر بعد ذلك إلى لون العينين ولون الشعر وطول السبابة وطول إصبع السبابة وعلاقاتهم مع زملائهم في العمل وجودة الحياة والعمر وعدد الأشقاء، إلخ. من المحتمل أن تصادف نتيجة ذات دلالة إحصائية في مكان ما. هذه هي مشكلة المقارنة المتعددة.
الحلول
لتجنب الدراسات ناقصة القوة وخطر النتائج الإيجابية الكاذبة أو السلبية الكاذبة، يجب على الباحثين التخطيط لدراساتهم بقوة كافية. يتطلب ذلك مراعاة عوامل مثل حجم العينة وحجم التأثير والتباين والاختبار الإحصائي المستخدم. تشكل الاختبارات المتعددة أيضًا خطر النتائج الإيجابية الكاذبة، والتي يمكن معالجتها من خلال طرق مثل تعديل مستوى الدلالة أو استخدام التحكم في معدل الاكتشاف الخاطئ. من خلال فهم مفهوم القوة الإحصائية وأهميتها في اختبار الفرضيات، يمكن للباحثين تصميم دراسات تؤدي إلى نتائج موثوقة وذات مغزى.
المراجع
هل أعجبك ما تتعلمه؟
اشتر كتاب التقييم الكامل للفيزيائيين
- كتاب إلكتروني من أكثر من 600 صفحة
- المحتوى التفاعلي (عرض توضيحي مباشر بالفيديو، مقالات المجلات الطبية)
- القيم الإحصائية لجميع الاختبارات الخاصة من أحدث الأبحاث
- متوفر في 🇬🇧 🇩🇪 🇩🇪 🇫🇷 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷
- وأكثر من ذلك بكثير!