เรียนรู้
พลังสถิติคืออะไร? | สถิติ
กำลังคือความน่าจะเป็นในระยะยาวของชุดการศึกษาที่เหมือนกันที่จะตรวจพบผลกระทบที่มีนัยสำคัญทางสถิติ (เช่น p<0.05) หากมี ความน่าจะเป็นของ ข้อผิดพลาดประเภทที่ 2 ในชุดการศึกษาที่เหมือนกันคือหนึ่งลบด้วยกำลัง (1-ß มักจะเป็น 20%)
เช่น
มีการดำเนินการศึกษาจำนวนหนึ่งร้อยครั้งภายในประชากรกลุ่มเดียวกันที่มีโครงสร้างการรักษา A เทียบกับการรักษา B เหมือนกัน ความแตกต่างระหว่างการรักษาจริงในชีวิตจริงระหว่าง A และ B คือ โอกาสที่การรักษา A จะหายขาดอย่างสมบูรณ์สูงขึ้น 30% เมื่อทำสถิติในงานวิจัย 100 ชิ้นนี้ (ประชากรกลุ่มเดียวกัน ความแปรปรวนเท่ากัน ค่าเบี่ยงเบนมาตรฐานเท่ากัน) โดยเฉลี่ยแล้ว การศึกษา 20 ชิ้นจะไม่แสดงผลที่มีนัยสำคัญทางสถิติ นี่คืออัตราข้อผิดพลาดประเภทที่ 2 หรือค่าลบเท็จ ซึ่งเกี่ยวข้องโดยตรงกับค่ากำลังทางสถิติ (1-ß)
หากจะพูดให้เข้าใจง่ายๆ ก็คือ การศึกษาวิจัยที่ไม่ได้รับการสนับสนุนอย่างเพียงพอจะแสดงผลที่มีนัยสำคัญทางสถิติได้น้อยลง แม้ว่าในความเป็นจริงแล้วจะมีความแตกต่างกันก็ตาม
สิ่งนี้มีอิทธิพลต่ออำนาจ
กำลังนั้นได้รับอิทธิพลจากปัจจัยบางประการ เช่นเดียวกับ ค่า p
- ขนาดตัวอย่าง: ตัวอย่างขนาดใหญ่กว่า = พลังงานที่มากขึ้น (ความแตกต่างระหว่างกลุ่มที่ชัดเจนขึ้น สัญญาณรบกวนข้อมูลน้อยลง)
- ความแปรปรวน: ความแปรปรวนน้อยลง = พลังงานมากขึ้น
- ขนาดเอฟเฟกต์ : ขนาดเอฟเฟกต์ที่ใหญ่ขึ้น = พลังที่มากขึ้น (ง่ายต่อการตรวจพบโดยการทดสอบ)
- ประเภทของการทดสอบทางสถิติ: การทดสอบบางประเภทให้พลังมากขึ้นโดยแลกกับสมมติฐานเพิ่มเติม (ไม่มีอาหารกลางวันฟรีในสถิติ)
อย่างไรก็ตาม สิ่งสำคัญคือต้องเข้าใจว่าพลังทางสถิติ (เช่น 80%) มีไว้สำหรับเครื่องมือวัดหนึ่งตัว สำหรับจุดหนึ่งในเวลา สำหรับขนาดเอฟเฟกต์หนึ่ง
พลังงานต่ำ = การศึกษาที่ไม่น่าเชื่อถือ
ดังนั้น การศึกษาวิจัยที่ไม่มีพลังมากพอจะเพิ่มความเสี่ยงของ ข้อผิดพลาดประเภทที่ 2 (ผลลบเทียม) แต่จะเพิ่มความเสี่ยงของ ข้อผิดพลาดประเภทที่ 1 เช่นกัน (ผลบวกเทียม) โดยมีผลกระทบที่เพิ่มมากขึ้น นี่คือสิ่งที่เรียกว่า ‘คำสาปของผู้ชนะ’ นี่คือเหตุผลที่คุณไม่สามารถใช้มาตรการผลลัพธ์หลายรายการในขนาดตัวอย่างเดียว และวัดในหลายจุดเวลาโดยไม่ปล่อยให้พลังทางสถิติของคุณลดลงได้ นักวิจัยและแพทย์ที่ดีจะทราบว่าการวัดผลรองนั้นเป็นเพียงการแนะนำเท่านั้น เนื่องจากการศึกษานี้ไม่ได้รับการสนับสนุนสำหรับการวัดผลจำนวนนั้น คุณต้องมีการศึกษาวิจัยใหม่เพื่อยืนยันข้อเสนอแนะเหล่านั้น ปัญหาที่ได้อธิบายไว้ข้างต้นเรียกว่า ปัญหาการเปรียบเทียบหลาย ๆ อย่าง
ฉันนึกภาพออกว่าเรื่องนี้ฟังดูขัดกับสัญชาตญาณนิดหน่อย มาดูตัวอย่างกัน
เช่น
คุณกำลังบรรยายให้กลุ่มนักศึกษา 200 คนฟัง และตัดสินใจแบ่งพวกเขาออกเป็นสองกลุ่ม จุดมุ่งหมายของการศึกษาของคุณคือการดูว่ามีช่องว่างทางเพศหรือไม่ เช่น มีผู้หญิงมากกว่าในกลุ่มหนึ่งเมื่อเทียบกับอีกกลุ่มหนึ่ง มันก็ไม่มีอะไรแตกต่าง จากนั้นคุณจะดูสีตา สีผม ความยาวของนิ้วชี้ PR ของการเบนช์เพรส คุณภาพชีวิต อายุ จำนวนพี่น้อง ฯลฯ มีโอกาสที่คุณจะพบผลลัพธ์ที่มีนัยสำคัญทางสถิติที่ไหนสักแห่ง นี่คือ ปัญหาการเปรียบเทียบหลาย ๆ อย่าง
โซลูชั่น
เพื่อหลีกเลี่ยงการศึกษาวิจัยที่มีกำลังไม่เพียงพอและความเสี่ยงของ ผลบวกปลอม หรือ ผลลบปลอม นักวิจัยจะต้องวางแผนการศึกษาวิจัยด้วยกำลังที่เพียงพอ สิ่งนี้ต้องพิจารณาถึงปัจจัยต่างๆ เช่น ขนาดตัวอย่าง ขนาดผลกระทบ ความแปรปรวน และการทดสอบทางสถิติที่ใช้ การทดสอบหลายครั้งยังก่อให้เกิดความเสี่ยงในการเกิด ผลบวกปลอม ซึ่งสามารถแก้ไขได้โดยใช้วิธีการต่างๆ เช่น การปรับ ระดับนัยสำคัญ หรือใช้การควบคุมอัตราการค้นพบเท็จ โดยการเข้าใจแนวคิดเรื่องพลังทางสถิติและความสำคัญในการทดสอบสมมติฐาน นักวิจัยสามารถออกแบบการศึกษาวิจัยที่ให้ผลลัพธ์ที่เชื่อถือได้และมีความหมายได้
อ้างอิง
ชอบสิ่งที่คุณเรียนรู้หรือไม่?
ซื้อ หนังสือประเมิน Physiotutors ฉบับเต็ม
- หนังสืออีบุ๊กมากกว่า 600 หน้า
- เนื้อหาเชิงโต้ตอบ (การสาธิตวิดีโอโดยตรง บทความ PubMed)
- ค่าสถิติสำหรับการทดสอบพิเศษทั้งหมดจากการวิจัยล่าสุด
- มีจำหน่ายใน 🇬🇧 🇩🇪 🇫🇷 🇪🇸 🇮🇹 🇵🇹 🇹🇷
- และอื่นๆอีกมากมาย!