ความสัมพันธ์ในข้อมูลสองตัวแปร

การถดถอยและการคาดคะเนค่า - การสร้างสมการถดถอย


แน่นอนว่าโดยปกติเส้นถดถอยไม่สามารถจะลากผ่านค่าข้อมูลทุกค่าในแผนภาพการกระจาย นั่นคือ สมการถดถอยไม่สามารถใช้คาดคะเนค่าตัวแปรตาม y ทุกค่าได้ถูกต้องจากค่าตัวแปรอิสระ x อย่างไรก็ตาม เราต้องการสมการถดถอย หรือค่า a และ b ที่ทำให้คาดคะเนค่าตัวแปรตามได้ดีที่สุดหรือผิดพลาดน้อยที่สุด

การประมาณค่า a และ b จากข้อมูล (x1 , y1) , (x2 , y2) , … , (xn , yn) เพื่อให้ได้เส้นตรงที่เข้ากับข้อมูลได้ดีที่สุด มีวิธีการที่เป็นที่นิยมใช้คือ วิธีกำลังสองน้อยที่สุด (least squares method) วิธีนี้จะให้ค่าประมาณ a และ b ที่ทำให้ความแตกต่างของค่าตัวแปรตามกับค่าที่คาดคะเนได้จากสมการถดถอยมีค่าน้อยที่สุด ดังนั้น ถ้าใช้สัญลักษณ์    (อ่านว่า y hat) แทนค่าคาดคะเนของตัวแปรตาม สมการถดถอยที่จะประมาณขึ้นคือ

และต้องการให้ค่า y ต่างจาก    น้อยที่สุดที่ทุกจุดของค่าข้อมูล ในภาพ 2 แสดงให้เห็นแผนภาพการกระจายและเส้นถดถอยที่ดี และเส้นที่ไม่ดี พร้อมทั้งความแตกต่างของค่า y และค่า    ที่จุดต่าง ๆ

ภาพ  2.   แผนภาพการกระจายของจุดรอบเส้นถดถอย


ค่า intercept และความชันของเส้นถดถอยที่ประมาณด้วยวิธีกำลังสองน้อยที่สุด มีสูตรดังนี้

และสมการถดถอยที่ใช้คาดคะเนค่าของ y เมื่อทราบค่า x คือ

การประมาณสมการถดถอยหรือคำนวณค่า a และ b จะใช้เครื่องคิดเลขที่มีฟังก์ชันเฉพาะ หรือใช้คำสั่ง Regression ในโปรแกรม EXCEL ก็ได้ การใช้คอมพิวเตอร์จะสะดวกมากกว่า เพราะสามารถสร้างกราฟของแผนภาพการกระจายของข้อมูลขึ้นมาก่อน เพื่อดูว่าสมการเส้นตรงเหมาะสมกับข้อมูลหรือไม่

ตัวอย่าง

ในปัจจุบัน คอมพิวเตอร์เข้ามามีบทบาทในชีวิตเรามากขึ้น นิสิตทุกคนต้องเรียนรู้การประยุกต์ใช้งานคอมพิวเตอร์ในด้านต่าง ๆ ดังนั้นจึงมีผู้สนใจศึกษาว่า ความถนัดทางคอมพิวเตอร์ขึ้นอยู่กับความสามารถทางคณิตศาสตร์หรือไม่ ในการศึกษาเรื่องนี้ได้ให้นิสิตจำนวน 20 คน ทดลองทำแบบทดสอบ 2 ชุด ชุดหนึ่งวัดความสามารถทางคณิตศาสตร์ และอีกชุดวัดความถนัดทางคอมพิวเตอร์ คะแนนจากการทดสอบมีดังนี้

คณิตศาสตร์ (x) 28 35 42 41 44 42 36 44 39 36
คอมพิวเตอร์ (y) 4 16 20 13 22 21 15 20 19 16

คณิตศาสตร์ (x) 40 40 33 27 32 45 41 31 41 43
คอมพิวเตอร์ (y) 18 17 8 6 5 20 18 11 19 22

ภาพ  3.   แผนภาพการกระจายและเส้นถดถอยของข้อมูลคะแนนทดสอบ

แผนภาพการกระจายของคะแนนของนิสิตทั้ง 20 คนในภาพ 3 (ซ้าย) ชี้ว่าความถนัดทางคอมพิวเตอร์มีความสัมพันธ์ในทางบวกกับความสามารถทางคณิตศาสตร์ ผู้ที่เก่งคณิตศาสตร์ก็มักจะถนัดในเรื่องคอมพิวเตอร์ด้วย ลักษณะความสัมพันธ์ของคะแนนทดสอบทั้งสองด้านเป็นเส้นตรง ค่าสัมประสิทธิ์สหสัมพันธ์จากโปรแกรม EXCEL คือ 0.9102 ซึ่งเป็นความสัมพันธ์เชิงเส้นตรงในระดับสูง ฉะนั้น จึงประมาณสมการถดถอยต่อไปได้เป็น

เมื่อ x เป็นคะแนนทดสอบด้านคณิตศาสตร์ และเป็นค่าประมาณของคะแนนทดสอบด้านคอมพิวเตอร์ ภาพ 3 (ขวา) แสดงเส้นถดถอยจากสมการนี้ จะเห็นจุดเกาะกลุ่มใกล้เส้นตรงพอสมควร แสดงว่า ความสามารถทางคณิตศาสตร์ของนิสิตนำมาช่วยอธิบายได้ค่อนข้างดีว่าทำไมนิสิตจึงมีความถนัดทางคอมพิวเตอร์ต่างกัน

จากสมการถดถอยทำให้ทราบว่า คะแนนทดสอบด้านคอมพิวเตอร์เพิ่มขึ้น (ลดลง) 0.96 คะแนน ต่อแต่ละคะแนนที่เพิ่มขึ้น (ลดลง) ของการทดสอบด้านคณิตศาสตร์ และจะประมาณคะแนนทดสอบด้านคอมพิวเตอร์จากคะแนนทดสอบด้านคณิตศาสตร์ได้ เช่น นิสิตที่ทำคะแนนคณิตศาสตร์ได้ 36 คะแนน คาดว่านิสิตผู้นั้นจะได้คะแนนคอมพิวเตอร์เป็น 13.41 คะแนน (สามารถคำนวณจาก [- 21.15 + 0.96 (36) ] )


ที่มา: เอกสารประกอบการสอน มหาวิทยาลัยเกษตรศาสตร์ 2542, วิชาบูรณาการ
หมวดการศึกษาทั่วไป รหัสวิชา 999211 คณิตศาสตร์และคอมพิวเตอร์ในชีวิตประจำวัน