การวิเคราะห์ ANOVA เหมือนการวิเคราะห์ regression

ในหัวข้อนี้จะนำเสนอการใช้การวิเคราะห์การถดถอยแทนการวิเคราะห์ความแปรปรวนแบบทางเดียว (One-way ANOVA)

รูปแบบลงรหัสสำหรับข้อมูลจัดกลุ่ม (categorical data)

ถ้าเรามีกลุ่มที่ต้องการทดสอบความแตกต่างมากกว่า 2 กลุ่ม ซึ่งกลุ่มเหล่านี้ก็คือตัวแปรอิสระที่ให้รหัสเป็น 0, 1 และ 2 ถ้าหากเราใช้ตัวแปรอิสระนี้นำเข้าวิเคราะห์การถดถอยเพื่อสร้างสมการทำนาย เราก็สามารถคำนวณหาค่าต่าง ๆ ออกมาได้ และสามารถสร้างสมการการถดถอยได้ แต่ผลทั้งหมดที่ได้จะผิด ถ้าเรามีรูปแบบการลงรหัสให้กับตัวแปรอิสระโดยกำหนดขึ้นมาเป็นชุดของตัวแปรแล้วเราก็จะสามารถวิเคราะห์การถดถอยได้ ซึ่งวิธีการลงรหัสจะมีหลายแบบในการลงรหัสข้อมูลจัดกลุ่ม ในเอกสารนี้จะนำเสนอวิธีการลงรหัส dummy coding และ effect coding โดยจะเปรียบเทียบกับผลของการวิเคราะห์ความแปรปรวน (ANOVA)

การวิเคราะห์ความแปรปรวน (ANOVA)

จะนำเสนอตัวอย่างการวิเคราะห์ความแปรปรวนในลักษณะของงานวิจัยเชิงทดลองที่มีกลุ่มที่ต้องการทดลองความแตกต่างอยู่ 3 กลุ่มคือ กลุ่มควบคุม (รหัส 0), กลุ่มทดลองกลุ่มที่ 1 (รหัส 1) และ กลุ่มทดลองกลุ่มที่สอง (รหัส 2) ในกลุ่มทดลอง 2 กลุ่มจะใช้ทดลองผลของการใช้สารละลายที่มีกลิ่นหอม 2 ชนิดว่าจะมีผลต่อระยะเวลาในการจำหรือไม่ ผลการทดลองแสดงในตาราง 1

ตาราง 1 ผลคะแนนจากการทดลอง

groupscore
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
10
8
13
9
10
13
10
9
11
8
13
15
10
12
11
12
11
15
16
11
8
10
9
9
6
6
9
13
10
9

สรุปสถิติที่เกี่ยวข้องในตาราง 2 และผลของการวิเคราะห์ความแปรปรวนแสดงในตาราง 3 และตาราง 4 จะแสดงผลของการเปรียบเทียบพหุคูณด้วยวิธี LSD

ตาราง 2 สรุปสถิติผลของความจำของกลุ่มทั้ง 3 กลุ่ม

กลุ่มNMeanSDStd error95% CI for mean
LowerUpper
0 (control)
1 (กลุ่มทดลอง 1)
2 (กลุ่มทดลอง 2)
รวม
10
10
10
30
10.10
12.60
8.90
10.53
1.79
2.07
2.02
2.46
0.57
0.65
0.64
0.45
8.82
11.12
7.45
9.61
11.38
14.08
10.35
11.45

ตาราง 3 ผลการวิเคราะห์ความแปรปรวน

แหล่งความแปรปรวนSum of squaresdfMean squareFSig.
Between groups
Within groups
total
71.267
104.200
175.467
2
27
29
35.633
3.859
9.2330.001

ตาราง 4 ผลการเปรียบเทียบพหุคูณด้วยวิธี LSD

(I) group(J) groupMean difference (I - J)Sig.
0 (กลุ่มควบคุม)1 (กลุ่มทดลอง 1)-2.500.008
2 (กลุ่มทดลอง 2)1.200.183
1 (กลุ่มทดลอง 1)0 (กลุ่มควบคุม)2.500.008
2 (กลุ่มทดลอง 2)3.700.000
2 (กลุ่มทดลอง 2)0 (กลุ่มควบคุม)-1.200.183
1 (กลุ่มทดลอง 1)-3.700.000

จากข้อมูลทั้ง 3 ตารางนี้เราสามารถสังเกตได้ว่า ประการแรก สถิติสรุปเป็นตัวบ่งชี้ถึงค่าเฉลี่ยของกลุ่มทดลองที่ 1 มีคะแนนความจำสูงที่สุด ตามด้วยกลุ่มควบคุมและกลุ่มทดลองที่ 2 ตามลำดับ ผลของการวิเคราะห์ความแปรปรวนเป็นการยืนยันว่าค่าเฉลี่ยของกลุ่มทั้ง 3 กลุ่มไม่เท่ากัน ผลการเปรียบเทียบพหุคูณแสดงให้เห็นว่าคะแนนเฉลี่ยแตกต่างกันอย่างมีนัยสำคัญระหว่างกลุ่มทดลองที่ 1 และกลุ่มควบคุม และระหว่างกลุ่มทดลองที่ 1 และกลุ่มทดลองที่ 2 นั่นคือกลุ่มทดลองที่ 1 ที่มีค่าเฉลี่ยสูงสุดแตกต่างจากอีก 2 กลุ่ม ส่วนกลุ่มทดลองที่ 2 และกลุ่มควบคุมมีค่าเฉลี่ยไม่แตกต่างกัน

การลงรหัสตัวแปรดัมมี่ (Dummy Variable Coding)

เราจะวิเคราะห์ข้อมูลเดียวกันนี้โดยใช้การวิเคราะห์การถดถอยหลังจากเราได้ลงรหัสดัมมี่กับตัวแปรอิสระแล้ว ในการลงรหัสดัมมี่นั้นจะต้องพิจารณาถึงกลุ่มอ้างอิง (ในการวิจัยเชิงทดลอง กลุ่มควบคุมมักจะเป็นกลุ่มอ้างอิง) เราจะได้ตัวแปรใหม่ 2 ตัวสำหรับการลงรหัสดัมมี่ และตัวแปรทั้ง 2 ตัวนี้จะแทนกลุ่มแต่ละกลุ่มของตัวแปรเดิมยกเว้นกลุ่มอ้างอิง ซึ่งตัวแปรใหม่จะตั้งชื่อให้ว่า Group_1 เพื่อใช้แทนกลุ่มทดลองที่ 1 นั่นคือตัวแปร Group_1 นี้จะมีค่าเป็น 1 เมื่อกลุ่มตัวอย่างอยู่ในกลุ่มทดลองที่ 1 และมีค่าเป็น 0 เมื่อกลุ่มตัวอย่างไม่อยู่ในกลุ่มทดลองที่ 1 และตัวแปร Group_2 เพื่อใช้แทนกลุ่มทดลองที่ 2 นั่นคือตัวแปร Group_2 นี้จะมีค่าเป็น 1 เมื่อกลุ่มตัวอย่างอยู่ในกลุ่มทดลองที่ 2 และมีค่าเป็น 0 เมื่อกลุ่มตัวอย่างไม่อยู่ในกลุ่มทดลองที่ 2
นั่นคือหลักในการลงรหัสดัมมี่นั้น จะต้องสร้างจำนวนตัวแปรเท่ากับ k - 1 เมื่อ k คือจำนวนกลุ่มของตัวแปร ในที่นี้มี 3 กลุ่ม ดังนั้นจะสร้างตัวแปรดัมมี่ได้ 2 ตัวแทน 2 กลุ่ม ส่วนที่เหลืออีก 1 กลุ่มก็คือกลุ่มอ้างอิง
จากข้อมูลในตาราง 1 สามารถสร้างตัวแปรใหม่ได้ 2 ตัวคือ group_1 และ group_2 ดังตาราง 5

ตาราง 5 ผลคะแนนจากการทดลองกับตัวแปรที่ลงรหัสดัมมี่

groupscoreGroup_1Group_2
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
10
8
13
9
10
13
10
9
11
8
13
15
10
12
11
12
11
15
16
11
8
10
9
9
6
6
9
13
10
9
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1

ข้อมูลในตาราง 5 พร้อมที่จะนำเข้าเพื่อวิเคราะห์การถดถอย ถ้า group_1 และ group_2 นำเข้าเป็นตัวแปรพยากรณ์ และ score จะเป็นตัวแปรเกณฑ์ การวิเคราะห์การถดถอยจะให้ผลตารางวิเคราะห์ความแปรปรวนและสัมประสิทธิ์การถดถอย กับสถิติอื่น ๆ ที่เกี่ยวข้อง ซึ่งจะแสดงอยู่ในตาราง 6 และ 7 ตามลำดับ

ตาราง 6 ผลการวิเคราะห์ความแปรปรวนจากการวิเคราะห์การถดถอยของผลการทดลองที่มีการลงรหัสตัวแปรดัมมี่

แหล่งความแปรปรวนSum of squaresdfMean squareFSig.
Between groups
Within groups
total
71.267
104.200
175.467
2
27
29
35.633
3.859
9.2330.001

ตาราง 7 ประมาณค่าสถิติต่าง ๆ จากการวิเคราะห์การถดถอยของผลการทดลองที่มีการลงรหัสตัวแปรดัมมี่

ตัวแปรSlope (b)Std error of slopeStandardized slope (beta)tSig.
Constant
Group_1
Group_2
10.100
2.500
-1.200
0.621
0.879
0.879

0.487
-0.234
16.258
2.846
-1.366
< 0.001
0.008
0.183

ตารางการวิเคราะห์ความแปรปรวนจะแสดงผลของระดับนัยสำคัญ หมายความว่าเราจะปฏิเสธ H0 (H0 : ค่าเฉลี่ยทุกกลุ่มไม่แตกต่างกัน) ซึ่งเหมือนกับผลในตาราง 3 เราไม่สามารถบอกได้ว่าแตกต่างกันอย่างไร แต่บอกเพียงว่ามีค่าเฉลี่ยอย่างน้อย 1 คู่ที่แตกต่างกันอย่างมีนัยสำคัญ สังเกตว่าค่า F และระดับนัยสำคัญของ F ในการวิเคราะห์การถดถอย (ตาราง 6) และตาราง ANOVA (ตาราง 3) จะมีค่าเหมือนกัน
เพื่อความเข้าใจในธรรมชาติของความแตกต่าง เราจำเป็นต้องตรวจสอบที่สัมประสิทธิ์การถดถอย หรือความชัน ความเกี่ยวข้องกับตัวแปรอิสระแต่ละตัว ในกระบวนการนี้จะเหมือนกับการแปลความหมายด้วยการเปรียบเทียบพหุคูณที่นิยมใช้หลังจากวิเคราะห์ ANOVA แล้วมีนัยสำคัญ ค่า t-test และความชัน จะบ่งชี้ถึงความแตกต่างระหว่างค่าเฉลี่ยในแต่ละกลุ่มกับกลุ่มอ้างอิง (ในตัวอย่างนี้คือกลุ่มควบคุม) สัมประสิทธิ์การถดถอยสำหรับ group_1 มีนัยสำคัญทางสถิติแต่สัมประสิทธิ์การถดถอยสำหรับ group_2 ไม่มีนัยสำคัญทางสถิติ ดังนั้น ค่าเฉลี่ยของกลุ่มควบคุมกับกลุ่มทดลองที่ 1 (group_1) แตกต่างกันอย่างมีนัยสำคัญทางสถิติ แต่ค่าเฉลี่ยของกลุ่มควบคุมกับกลุ่มทดลองที่ 2 (group_2) ไม่แตกต่างกัน สัญลักษณ์ของความชันเป็นข้อมูลบอกเกี่ยวกับธรรมชาติของความแตกต่างระหว่างค่าเฉลี่ย ถ้าความชันมีค่าบวก ในที่นี้ก็คือตัวแปร group_1 หมายความว่ากลุ่มทดลองที่ 1 มีค่าเฉลี่ยสูงกว่ากลุ่มอ้างอิง (กลุ่มควบคุม) ในทางกลับกัน ถ้าความชันมีค่าเป็นลบ ในที่นี้ก็คือตัวแปร group_2 หมายความว่ากลุ่มทดลองที่ 2 มีค่าเฉลี่ยต่ำกว่ากลุ่มอ้างอิง (กลุ่มควบคุม) การแปลความหมายนี้จะให้ผลเหมือนกับการวิเคราะห์ด้วย ANOVA ที่มีการเปรียบเทียบพหุคูณ

Effect Coding

ในตัวอย่างข้างต้นคงจะมีความชัดเจนกันแล้วในการใช้การลงรหัสดัมมี่เพื่อเปรียบเทียบความแตกต่างระหว่างกลุ่ม ในตาราง 8 จะเป็นข้อมูลอีกชุดหนึ่งที่มี 5 กลุ่ม คือกลุ่มของครูประถมศึกษา (1) ครูมัธยมศึกษา (2) อาจารย์ในวิทยาลัย (3) อาจารย์ในมหาวิทยาลัยเก่า (4) และอาจารย์ในมหาวิทยาลัยใหม่ (5) โดยมีตัวแปรตามก็คือความเครียดในการทำงาน
การวิเคราะห์ความแตกต่างระหว่างค่าเฉลี่ยของความเครียดในการทำงานในแต่ละกลุ่มสามารถทำได้โดยการใช้การลงรหัสดัมมี่ เพื่อเปรียบเทียบค่าเฉลี่ยของแต่ละกลุ่มกับค่าเฉลี่ยของกลุ่มอ้างอิง แต่ในตัวอย่างนี้เราจะเปลี่ยนไปใช้การเปรียบเทียบค่าเฉลี่ยของกลุ่มตัวอย่างแต่ละกลุ่มกับค่าเฉลี่ยรวมทุกกลุ่ม
การลงรหัสแบบ effect coding ก็จะคล้ายกับการลงรหัสดัมมี่ เพียงแต่ในกลุ่มอ้างอิงนั้น การลงรหัส dummy coding จะให้ค่าเป็น 0 ในทุก ๆ ตัวแปร แต่ในการลงรหัสแบบ effect coding จะให้ค่าเป็น -1 ในทุก ๆ ตัวแปร ตาราง 9 จะแสดงถึงวิธีการลงรหัสของตัวแปรต่าง ๆ

ตาราง 8 ข้อมูลตัวอย่างวิเคราะห์ effect coding

กลุ่มคะแนนความเครียด
1
1
1
1
1
1
1
1
1
1
71
67
67
67
79
46
76
82
55
64
2
2
2
2
2
2
2
2
2
2
30
44
58
67
92
74
56
58
51
46
3
3
3
3
3
3
3
3
3
3
33
64
54
70
56
97
66
77
76
53
4
4
4
4
4
4
4
4
4
4
24
21
57
52
52
21
66
43
32
79
5
5
5
5
5
5
5
5
5
5
35
50
41
49
71
34
70
59
46
68

ตาราง 9 การลงรหัส effect coding ของกลุ่ม 5 กลุ่มเพื่อใช้ในการวิเคราะห์การถดถอย

กลุ่มgroup_1group_2group_3group_4
1
2
3
4
5
1
0
0
0
-1
0
1
0
0
-1
0
0
1
0
-1
0
0
0
1
-1

ตาราง 10 ตารางวิเคราะห์ความแปรปรวน

แหล่งความแปรปรวนSum of squaresdfMean squareFSig.
Regression
Residual
total
3391.48
11787.40
15178.88
4
45
49
847.87
261.94
3.230.020

ตาราง 11 ประมาณค่าพารามิเตอร์เมื่อใช้การลงหรัสแบบ effect coding

ตัวแปรSlope (b)Std error of slopeStandardized slope (beta)tSig.
Constant
Group_1
Group_2
Group_3
Group_4
57.320
10.080
0.280
7.280
-12.620
2.289
4.578
4.578
4.578
4.578

0.366
0.010
0.264
-0.458
25.043
2.202
0.061
1.590
-2.757
0.000
0.033
0.951
0.119
0.008

ผลของการวิเคราะห์การถดถอยจะแสดงในตาราง 10 และตาราง 11 ในตารางวิเคราะห์ความแปรปรวน (ตาราง 10) แสดงผลทั้งหมดมีนัยสำคัญแสดงว่าค่าเฉลี่ยของแต่ละกลุ่มแตกต่างกัน ในตารางประมาณค่าพารามิเตอร์ (ตาราง 11) ค่าคงที่จะเป็นค่าเฉลี่ยรวมทั้งหมดของทุกกลุ่ม (57.3) และสัมประสิทธิ์การถดถอยจะบ่งบอกถึงความแตกต่างของค่าเฉลี่ยของแต่ละกลุ่มกับค่าเฉลี่ยรวมทุกกลุ่ม โดยเฉพาะ Group_1 และ Group_4 มีค่าเฉลี่ยแตกต่างจากค่าเฉลี่ยรวมอย่างมีนัยสำคัญทางสถิติ โดยที่ Group_1 หรือกลุ่มครูประถมศึกษามีค่าเฉลี่ยสูงที่สุด และกลุ่ม Group_4 หรือกลุ่มอาจารย์มหาวิทยาลัยเก่ามีค่าเฉลี่ยน้อยที่สุด
ผลการวิเคราะห์นี้จะไม่รวมถึงกลุ่มอาจารย์ในมหาวิทยาลัยใหม่ เพราะถูกใช้เป็นกลุ่มอ้างอิง การจะเปรียบเทียบค่าเฉลี่ยของความเครียดในการทำงานของกลุ่มนี้จะต้องทำการลงรหัสใหม่ และเปลี่ยนกลุ่มอ้างอิงเป็นกลุ่มอื่น


บรรณานุกรม
Miles, Jeremy and Shevlin, Mark. Applying Regression & Correlation. London : SAGE Publication, Ltd., 2001.

เอกสารชุดนี้จัดทำโดย : ฉัตรศิริ ปิยะพิมลสิทธิ์. กุมภาพันธ์ ๒๕๔๕