ความแปรปรวนและส่วนเบี่ยงเบนมาตรฐาน (The Variance and Standard Deviations)

ความเบี่ยงเบนของข้อมูลแต่ละตัวกับค่าเฉลี่ยนั้นจะมีค่าทั้งบวกและลบ ถ้านำข้อมูลเบี่ยงเบนนี้มาบวกกันจะได้เป็น 0 วิธีการหนึ่งที่นำเสนอในการแก้ไขค่าที่ติดลบก็คือการใช้ส่วนเบี่ยงเบนเฉลี่ยดังที่ได้เสนอไปแล้ว อีกทางเลือกที่ใช้กันโดยทั่วไปก็คือการยกกำลังสองของค่าความเบี่ยงเบนแต่ละตัว นำมาบวกกัน ผลบวกที่ได้จะเป็นนิยามของการวัดการกระจาย ตัวอย่างเช่น ค่าเฉลี่ยของข้อมูล 1, 4, 7, 10 และ 13 คือ 7 ความเบี่ยงเบนของข้อมูลแต่ละตัวกับค่าเฉลี่ยเป็น -6, -3, 0, 3 และ 6 ยกกำลังสองจะได้ 36, 9, 0, 9, 36 และนำมาบวกกันได้ 90
การวัดการกระจายที่นิยมใช้กันมากคือความแปรปรวนซึ่งมีความสัมพันธ์กับส่วนเบี่ยงเบนมาตรฐาน ต่อไปนี้จะพูดถึงความแปรปรวนของประชากรและการประมาณค่าความแปรปรวนของประชากรจากกลุ่มตัวอย่าง
ความแปรปรวนของประชากร มีสูตรคำนวณว่า

เมื่อ 2 แทนความแปรปรวนของประชากร, แทนค่าเฉลี่ยของประชากร และ Np แทน จำนวนประชากร (X - )2 คือกำลังสองของความเบี่ยงเบนของข้อมูลแต่ละตัวจากค่าเฉลี่ยเมื่อเราหาร (X - )2 ด้วย Np จะหมายถึงส่วนเบี่ยงเบนเฉลี่ยยกกำลังสอง
หากเราต้องการประมาณค่าความแปรปรวนของประชากร เราจะต้องประมาณค่าจากกลุ่มตัวอย่าง ความแปรปรวนของกลุ่มตัวอย่างที่ใช้ประมาณค่า 2 คือ

เมื่อ S2 แทนความแปรปรวนของกลุ่มตัวอย่าง , แทนค่าเฉลี่ยของกลุ่มตัวอย่าง และ N แทนจำนวนกลุ่มตัวอย่าง
บางครั้งเราอาจหาร (X - )2 ด้วย N ไม่หารด้วย N - 1 ก็ได้ ทั้งนี้ขึ้นอยู่กับว่า ถ้า N มีจำนวนมาก ๆ ความแตกต่างของการใช้ N กับ N - 1 จะน้อยมาก แต่ถ้า N มีจำนวนน้อยความแตกต่างก็จะมีมากขึ้น
มีความจำเป็นอย่างไรในการใช้ N กับ N-1 ในกรณีที่เราหารด้วย N, (X - )2/N นั้นจะเกิคดวามลำเอียงในการประมาณค่า 2 ซึ่งเป็นความคลาดเคลื่อนอย่างมีระบบ ความลำเอียงคืออะไร สมมติว่าเราสุ่มกลุ่มตัวอย่างมาหลาย ๆ กลุ่มจากประชากรซึ่งมีขนาด N และมีค่าเฉลี่ย และคำนวณ S2 ของแต่ละกลุ่มโดยใช้ N ค่า S2 ที่ได้แต่ละค่าจะไม่เข้าใกล้ 2 ซึ่งเป็นความลำเอียงอย่างมีระบบในการประมาณค่า 2 ซึ่งมีค่าความลำเอียงเท่ากับ (N - 1)/N เมื่อเราหาร (X - )2 ด้วย N - 1 จะไม่มีความลำเอียงและค่าแต่ละค่าจะมีความแตกต่างจาก 2 น้อยที่สุด
เมื่อใส่สแควร์รูทความแปรปรวน ผลที่ได้คือส่วนเบี่ยงเบนมาตรฐาน
ส่วนเบี่ยงเบนมาตรฐานของประชากรคือ

และของกลุ่มตัวอย่าง

สมมติข้อมูลชุดหนึ่งคือ 7, 8 และ 15 มีค่าเฉลี่ยคือ 10 และความเบี่ยงเบนเป็น -3, -2, +5 ผลบวกของความเบี่ยงเบนเป็น 0 ((-3) + (-2) + 5 = 0) แต่ถ้านำความเบี่ยงเบนมายกกำลังแล้วบวกกัน 9 + 4 + 25 = 38 แม้ว่าผลบวกของความเบี่ยงเบนกำลังสองจะเป็นการเพิ่มขึ้นของข้อมูลทั้ง 3 ค่าแต่จะมีเพียง 2 ค่าเท่านั้นที่เป็นอิสระ จำนวนค่าที่เป็นอิสระถูกเรียกว่า degree of freedom ค่า (X - )2 เรียกได้ว่ามีความสัมพันธ์กับ N - 1 ซึ่งก็คือ degree of freedom
ซึ่งเป็นเหตุผลบางประการเกี่ยวกับแนวคิดในการวัดการกระจายว่า เราควรจะหารผลบวกของกำลังสองด้วยจำนวนของค่าที่เป็นอิสระ แนวคิดของ degree of freedom มีประโยชน์มากและเป็นแนวคิดทั่วไปทางสถิติ
ในการพิจารณาความแตกต่างแต่ละค่ากับค่าอื่น เช่น ค่า 2 ค่าคือ X1 และ X2 เราจะพิจารณาความแตกต่างของ X1 - X2 หรือค่า 3 ค่า คือ X1, X2 และ X3 เราจะพิจารณาค่าแตกต่างของ X1 - X2, X1 - X3 และ X2 - X3 โดยทั่วไป ถ้ามีข้อมูล N ค่า จำนวนของความแตกต่างคือ N(N - 1)/2
ตัวอย่างสำหรับค่าที่ได้จากการวัด 1, 4, 7, 10 และ 13 ความแตกต่างระหว่างค่าการวัดแต่ละค่าคือ -3, -6, -9, -12, -3, -6, -9, -3, -6 และ -3 สัญลักษณ์ของความแตกต่างขึ้นอยู่กับอันดับที่ของค่า ถ้าเรายกกำลังสองของค่าความแตกต่างที่ได้ทั้งหมดแล้วนำมาบวกและหารด้วยจำนวนของความแตกต่าง ผลที่ได้จะมีความสัมพันธ์กับ S2 ซึ่งจะมีค่าเป็น 2 เท่าของ S2 ในตัวอย่างนี้ผลบวกเมื่อนำค่าความแตกต่างแต่ละค่ายกกำลังสองแล้วคือ 450 เราหารด้วย 10 จะ 45.0 ซึ่งจะมีค่าเป็น 2 เท่าของความแปรปรวนคือ 22.5 สูตรในการคำนวณคือ

ตัวอย่างในการประยุกต์ใช้
เราเข้าใจธรรมชาติของความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานแล้ว ที่นี้เรามาดูตัวอย่างจะได้เข้าใจยิ่งขึ้น
พิจารณาแบบแผนการทดลองง่าย ๆ เกี่ยวกับการวินิจฉัยผลข้างเคียงของยาที่มีผลต่อผลสัมฤทธิ์ในการทำงาน กลุ่มที่ได้รับการทดลองเป็นกลุ่มที่ได้รับยาและกลุ่มควบคุมเป็นกลุ่มที่ไม่ได้รับยา จะมีกลุ่มตัวอย่าง 10 คนในแต่ละกลุ่ม ผลของคะแนนที่ได้รับจากการประเมินผลสัมฤทธิ์ในการทำงานของทั้ง 2 กลุ่ม ปรากฏดังนี้

กลุ่มทดลอง57 1731 454768859699
กลุ่มควบคุม29363742 495862636970

คะแนนเฉลี่ยของกลุ่มทดลองเป็น 50.0 และกลุ่มควบคุม 51.5 จากการวินิจฉัยที่ค่าเฉลี่ยเป็นไปได้ว่ายานั้นมีผลน้อยมากหรือไม่มีผลเลยกับกลุ่มตัวอย่าง
ส่วนเบี่ยงเบนมาตรฐานของทั้ง 2 กลุ่มเป็น 35.63 และ 14.86 กลุ่มทดลองมีการกระจายมากกว่ากลุ่มควบคุม จะเห็นชัดเจนว่า ยามีผลต่อผลสัมฤทธิ์ในการทำงาน เห็นได้ถึงคะแนนการปฏิบัติงานที่มีการกระจาย ในการวิเคราะห์ข้อมูลจากการทดลองจะต้องพิจารณาให้ดี ถ้าเป็นไปได้จะต้องพิจารณาถึงความแตกต่างของส่วนเบี่ยงเบนมาตรฐานหรือความแปรปรวนมากกว่าความแตกต่างของค่าเฉลี่ย

การคำนวณความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานจากข้อมูลที่ไม่ได้จัดกลุ่ม
ในการคำนวณความแปรปรวนนั้นสามารถเขียนด้วยสูตรอย่างง่าย ๆ ดังนี้

ผลบวกของ 2 จำนวน N ครั้งเขียนในรูปอย่างง่ายได้ N2
ส่วนเบี่ยงเบนมาตรฐานมีสูตรง่าย ๆ ว่า

ตัวอย่าง ค่าที่วัดได้ 5 ค่า 1, 4, 7, 10 และ 13 มีค่าเฉลี่ย 7 ยกกำลังสองข้อมูลทั้งหมดได้ 1, 16, 49, 100 และ 169 ผลบวกของข้อมูลกำลังสองคือ 335 ความแปรปรวนคือ

และส่วนเบี่ยงเบนมาตรฐานคือ = 4.74
อีกสูตรหนึ่งที่ใช้ในการคำนวณส่วนเบี่ยงเบนมาตรฐาน เพื่อหลีกเลี่ยงการคำนวณค่าเฉลี่ยคือ

ผลของส่วนเบี่ยงเบนมาตรฐานเมื่อบวกหรือคูณด้วยค่าคงที่
ถ้านำค่าคงที่ไปบวกกับข้อมูลทุก ๆ ค่าในกลุ่มตัวอย่าง ส่วนเบี่ยงเบนมาตรฐานจะไม่เปลี่ยนแปลง ตัวอย่างคะแนนในการสอบครั้งหนึ่งเมื่อตัดสินใจเพิ่มคะแนนให้กับนักเรียนแต่ละคนคนละ 10 คะแนน ค่าของส่วนเบี่ยงเบนมาตรฐานใหม่จะเท่ากับค่าของส่วนเบี่ยงเบนมาตรฐานเดิม
ค่าแต่ละค่าของข้อมูลแทนด้วย X เมื่อบวกด้วยค่าคงที่ C จะได้ X + C ถ้า คือค่าเฉลี่ยดั้งเดิมของข้อมูลชุดนี้ ค่าเฉลี่ยใหม่ก็คือ + C ความเบี่ยงเบนจากค่าเฉลี่ยกับค่าคงที่ที่บวกเพิ่มเข้าไปคือ ( X + C ) - ( + C ) ผลที่ได้จะเท่ากับ X - จะเห็นได้ว่า ความเบี่ยงเบนจะไม่เปลี่ยนเมื่อเพิ่มด้วยค่าคงที่ ดังนั้นส่วนเบี่ยงเบนมาตรฐานจึงไม่เปลี่ยนแปลง
ตัวอย่าง เมื่อเพิ่มค่าคงที่ 5 ให้กับข้อมูล 1, 4, 7, 10 และ 13 จะได้ 6, 9, 12, 15 และ 18 ค่าเฉลี่ยของข้อมูลเดิมคือ 7 และค่าเฉลี่ยหลังจากเพิ่มด้วยค่าคงที่แล้วคือ 7 + 5 = 12 ความเบี่ยงเบนมาตรฐานของข้อมูลแต่ละตัวกับค่าเฉลี่ยของข้อมูลทั้ง 2 ชุดมีค่าเท่ากับคือ -6, -3, 0, +3 และ +16 ส่วนเบี่ยงเบนมาตรฐานคือ 4.74
ถ้าข้อมูลแต่ละค่าของกลุ่มตัวอย่างถูกคูณด้วยค่าคงที่แล้ว ส่วนเบี่ยงเบนมาตรฐานจะเท่ากับส่วนเบี่ยงเบนมาตรฐานเดิมคูณด้วยค่าสัมบูรณ์ของค่าคงที่ ถ้าส่วนเบี่ยงเบนมาตรฐานของข้อมูลชุดหนึ่งเป็น 4 และนำค่าคงที่ 3 คูณด้วยข้อมูลแต่ละค่า ส่วนเบี่ยงเบนมาตรฐานใหม่ก็คือ 3 x 4 = 12 เราจะสังเกตเห็นว่า คือค่าเฉลี่ยของกลุ่มตัวอย่าง ค่าเฉลี่ยของการวัดคูณด้วย C คือ C ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย CX - C = C(X - ) ยกกำลังแล้วรวมกันและหารด้วย N - 1

ถ้าข้อมูลทุกค่าถูกคูณด้วยค่าคงที่ C ความแปรปรวนใหม่จะเท่ากับความแปรปรวนเดิมคูณด้วย C2 และส่วนเบี่ยงเบนมาตรฐาน ก็คือ ส่วนเบี่ยงเบนมาตรฐานเดิมคูณด้วยค่าสัมบูรณ์ของค่าคงที่ C ถ้า C เป็นจำนวนติดลบ เช่น -3 S ก็คูณกับค่าสัมบูรณ์ของ -3 ซึ่งก็คือ 3
ตัวอย่างข้อมูล 1, 4, 7, 10, 13 มีค่าเฉลี่ย 7 ความแปรปรวน 22.50 และส่วนเบี่ยงเบนมาตรฐาน 4.74 ถ้าข้อมูลแต่ละค่าถูกคูณด้วยค่าคงที่ 5 กลายเป็น 5, 20, 35, 50, 65 ค่าเฉลี่ยใหม่คือ 5 x 7 = 35 ความเบี่ยงเบนจากค่าเฉลี่ยคือ -30, -15, 0, +15, +36 ยกกำลังสองได้ 900, 225, 0, 225, 900 แล้วบวกกันได้ 2,250 ความแปรปรวน = 562.50 และส่วนเบี่ยงเบนมาตรฐานคือ 23.72

เอกสารชุดนี้จัดทำโดย : ฉัตรศิริ ปิยะพิมลสิทธิ์. พฤษภาคม ๒๕๔๔