ความสัมพันธ์ในข้อมูลสองตัวแปร

การถดถอยและการคาดคะเนค่า - สมการถดถอยกับขอบเขตการใช้งาน


ในขณะที่สัมประสิทธิ์สหสัมพันธ์ที่ใช้วัดระดับความสัมพันธ์ระหว่างตัวแ ปรมีค่าไม่ขึ้นกับการกำหนดว่าตัวแปรใดเป็น x และตัวแปรใดเป็น y กล่าวคือ ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง x และ y จะเท่ากับค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง y และ x แต่ในเรื่องการถดถอยจะมีการแยกตัวแปรเป็นตัวแปรอิสระ x และตัวแปรตาม y ทั้งนี้ในบางเรื่องจะมีความชัดเจนว่าตัวแปรใดเป็นตัวแปรตาม และตัวแปรใดเป็นตัวแปรอิสระ เช่น ค่าบำรุงรักษารถยนต์แปรตามอายุการใช้งานของรถ แต่อายุการใช้งานไม่แปรตามค่าบำรุงรักษา เป็นต้น แต่ก็มีบางเรื่องที่ตัวแปรสองตัวสลับบทบาทการเป็นตัวแปรตามและตัวแปรอิสระได้ เช่น อายุของสามีและอายุของภรรยา อย่างไรก็ตาม การกำหนดตัวแปร x หรือ y สลับกัน ทำให้สมการถดถอยต่างไป สมการถดถอยที่มี y เป็นตัวแปรตามใช้คาดคะเนค่า y เมื่อกำหนดค่า x แต่จะใช้สมการเดียวกันนี้คาดคะเนค่า x เมื่อกำหนดค่า y ไม่ได้ จำเป็นต้องสร้างสมการคาดคะเนขึ้นใหม่

ตัวอย่าง

จากตัวอย่างเรื่องความถนัดทางคอมพิวเตอร์กับความสามารถทางคณิตศาสตร์ หากทราบคะแนนความถนัดทางคอมพิวเตอร์ของนิสิตคนหนึ่งและต้องการคาดคะเนคะแนนด้านคณิตศาสตร์ของเขา คะแนนด้านคอมพิวเตอร์จะเป็นตัวแปรอิสระ และคะแนนด้านคณิตศาสตร์เป็นตัวแปรตาม สัมประสิทธิ์สหสัมพันธ์ระหว่างคะแนนทดสอบสองด้านมีค่าเท่าเดิม คือ 0.9102 แต่สมการถดถอยใหม่ คือ


เมื่อ  x  เป็นคะแนนทดสอบด้านคอมพิวเตอร์ และ      เป็นค่าประมาณของคะแนนทดสอบด้านคณิตศาสตร์   เส้นถดถอยจากสมการนี้แสดงในภาพ 4

สมการถดถอยชี้ว่า คะแนนทดสอบด้านคณิตศาสตร์เพิ่มขึ้น (ลดลง) 0.86 คะแนน ต่อแต่ละคะแนนที่เพิ่มขึ้น (ลดลง) ของการทดสอบด้านคอมพิวเตอร์ และถ้านิสิตทำคะแนนคอมพิวเตอร์ได้ 18 คะแนน ก็คาดว่าคะแนนคณิตศาสตร์ของเขา คือ 40.17 (= 24.69 + 0.86 (18) ) คะแนน
ในการนำสมการถดถอยไปใช้ในสถานการณ์ชีวิตจริง ควรทราบว่าสมการถดถอยอาจเหมาะหรือเข้ากับข้อมูลที่นำมาสร้างสมการดีมาก แต่ไม่ได้หมายความว่าจะนำไปใช้คาดคะเนค่าต่าง ๆ ได้ดีมากด้วย ทั้งนี้เพราะสมการนั้นสร้างขึ้นจากข้อมูลตัวอย่างชุดหนึ่งที่รวบรวมมา ข้อมูลต่างชุดหรือการเก็บข้อมูลเพิ่มขึ้นจะให้สมการที่ต่างไปได้

โดยปกติสมการที่สร้างจากข้อมูลจำนวนมากจะมีความน่าเชื่อถือมากกว่า แต่อย่างไรก็ตามสิ่งสำคัญคือต้องมีการอนุมานสมการที่ได้จากตัวอย่าง เพื่อให้ใช้ได้กับประชากรทั่วไป เรื่องการอนุมานต้องอาศัยความรู้ทางทฤษฎีสถิติจึงจะไม่กล่าวถึงในที่นี้

การนำสมการถดถอยไปใช้คาดคะเนค่า y สำหรับค่า x ต่าง ๆ ควรหลีกเลี่ยงกรณีที่ค่า x นั้นเป็นค่าที่ออกนอกช่วงข้อมูลของ x ที่เก็บมามาก เพราะค่าคาดคะเนของ y มีโอกาสผิดพลาดได้สูง

กรณีพิเศษที่มีการใช้บ่อยคือ เมื่อตัวแปรอิสระ x เป็นเวลา ตัวแปรตาม y อาจจะได้แก่ จำนวนประชากร ราคาหุ้น ยอดขายสินค้า ตัวแปรเหล่านี้มีค่าแปรตามเวลา การคาดคะเนหรือพยากรณ์ค่า y ต้องอาศัยการวิเคราะห์ข้อมูลในอดีตที่ผ่านมา สร้างเป็นสมการที่อธิบายความสัมพันธ์ระหว่าง y และ x แล้วใช้พยากรณ์ค่า y ต่อไปในอนาคต นั่นหมายถึง ความสัมพันธ์ระหว่าง y และ x ในอนาคตต้องมีรูปแบบเหมือนกับที่ผ่านมาในอดีต จึงจะใช้สมการถดถอยนั้นคาดคะเนอนาคตได้

อีกเรื่องหนึ่งที่เกี่ยวข้องกับปัญหาการคาดคะเนค่าออกนอกช่วง คือ การแปลความหมายของค่าจุดตัดแกนตั้ง (intercept) ในสมการถดถอย โดยปกติค่าความชันในสมการถดถอยมีความสำคัญมากกว่าค่าจุดตัดแกนตั้ง (intercept) เพราะความชันบอกให้ทราบว่า ตัวแปรอิสระมีผลให้ตัวแปรตามมีค่าเปลี่ยนแปลงไปหรือไม่และอย่างไร ส่วนของค่าจุดตัดแกนตั้ง (intercept) จะเป็นค่าคาดคะเนของตัวแปรตาม y หรือค่า     เมื่อตัวแปรอิสระ x มีค่าเป็น 0 เช่น สมการแสดงความสัมพันธ์ระหว่างเงินเดือน (y) กับประสบการณ์ที่วัดเป็นจำนวนปีที่เคยทำงาน (x) จุดตัดแกนตั้ง (intercept) คือ เงินเดือนของผู้ที่ยังไม่เคยมีประสบการณ์ในการทำงาน
ตัวอย่างนี้เป็นกรณีที่สามารถแปลความหมายของค่าจุดตัดแกนตั้ง (intercept) ได้ แต่ทว่ามีอยู่บ่อยครั้งที่ค่าจุดตัดแกนตั้ง (intercept) ไม่มีความหมาย โดยเฉพาะอย่างยิ่งเมื่อค่า x = 0 อยู่ห่างจากค่า x ในข้อมูลที่นำมาวิเคราะห์มาก การแปลความหมายของจุดตัดแกนตั้ง (intercept) ก็เหมือนกับการคาดคะเนค่า y ออกนอกช่วงกลุ่มข้อมูลนั่นเอง ซึ่งทำให้ได้ความหมายที่ไม่สมเหตุสมผล เช่น ในตัวอย่างก่อนที่ได้ค่าจุดตัดแกนตั้ง (intercept) เป็นลบ แต่เป็นไปไม่ได้ที่คะแนนทดสอบจะติดลบ เป็นต้น

ตัวอย่าง

อาจารย์ผู้หนึ่งรวบรวมข้อมูลจำนวนชั่วโมงที่นิสิตทบทวนบทเรียนก่อนสอบ (x) และคะแนนที่นิสิตทำได้ในการสอบ (y) ข้อมูลและแผนภาพการกระจายเป็นดังนี้

ชั่วโมงทบทวน คะแนนสอบ
2 59
3 69
4 62
4 71
5 79
6 75
6 88
7 82
8 90


แผนภาพการกระจายชี้ให้เห็นความสัมพันธ์เชิงเส้นตรงระหว่างคะแนนสอบ กับจำนวนชั่วโมงที่ใช้ทบทวนบทเรียน สมการถดถอยที่ประมาณได้คือ

จะเห็นว่า เมื่อทบทวนบทเรียนเพิ่มขึ้น 1 ชั่วโมง คะแนนสอบจะเพิ่มขึ้น 4.97 คะแนน และถ้าคาดคะเนคะแนนสอบจากสมการถดถอย จะได้ดังนี้

ชั่วโมงทบทวน คะแนนสอบที่คาดว่าจะได้
7 84.96
8 89.93
9 94.90
10 99.87
11 104.84

เมื่อนิสิตคนหนึ่งพิจารณาผลข้างต้น อาจสรุปว่า ถ้าเขาต้องการสอบให้ได้คะแนนเต็ม 100 คะแนน ก็ต้องทบทวนบทเรียนประมาณ 10 ชั่วโมง นิสิตอีกคนหนึ่งอาจบอกว่า เขาไม่จำเป็นต้องอ่านหนังสือก่อนสอบเลย (x = 0) ก็สามารถสอบผ่านได้เพราะค่า intercept เท่ากับ 50.17 การสรุปต่าง ๆ ในลักษณะนี้ไม่ถูกต้องนัก เนื่องจากว่าสมการถดถอยสร้างขึ้นจากข้อมูลของนิสิตที่มีจำนวนชั่วโมงทบทวนอยู่ในช่วง 2 ถึง 8 ชั่วโมง


ที่มา: เอกสารประกอบการสอน มหาวิทยาลัยเกษตรศาสตร์ 2542, วิชาบูรณาการ
หมวดการศึกษาทั่วไป รหัสวิชา 999211 คณิตศาสตร์และคอมพิวเตอร์ในชีวิตประจำวัน