การถดถอยเชิงเส้นคืออะไร? ใช้อย่างไรในการเรียนรู้ของเครื่อง

เผยแพร่แล้ว: 2021-07-16

การถดถอยเชิงเส้นไม่ได้เป็นส่วนหนึ่งของสถิติใช่หรือไม่

ไม่ต้องสงสัยใช่

ในความเป็นจริงส่วนใหญ่   การเรียนรู้ของเครื่อง   อัลกอริธึม (ML) ยืมมาจากสาขาต่างๆ ส่วนใหญ่เป็นสถิติ อะไรก็ตามที่สามารถช่วยโมเดลคาดการณ์ได้ดีขึ้นในที่สุดจะกลายเป็นส่วนหนึ่งของ ML ดังนั้นจึงปลอดภัยที่จะบอกว่า การถดถอยเชิงเส้น เป็นทั้งสถิติและอัลกอริธึมการเรียนรู้ของเครื่อง

การถดถอยเชิงเส้นเป็นอัลกอริธึมที่นิยมและไม่ซับซ้อนซึ่งใช้ในวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง มันคือ   การเรียนรู้ภายใต้การดูแล   อัลกอริทึมและรูปแบบการถดถอยที่ง่ายที่สุดที่ใช้ศึกษาความสัมพันธ์ทางคณิตศาสตร์ระหว่างตัวแปร

แม่นยำยิ่งขึ้น การถดถอยเชิงเส้นใช้เพื่อกำหนดลักษณะและความแรงของความสัมพันธ์ระหว่างตัวแปรตามและชุดของตัวแปรอิสระอื่นๆ ช่วยสร้างแบบจำลองในการทำนาย เช่น การทำนายราคาหุ้นของบริษัท

ก่อนที่จะพยายามปรับแบบจำลองเชิงเส้นตรงให้พอดีกับชุดข้อมูลที่สังเกตพบ เราควรประเมินว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่ แน่นอน นี่ไม่ได้หมายความว่าตัวแปรหนึ่งทำให้เกิดตัวแปรอื่น แต่ควรมีความสัมพันธ์ที่ชัดเจนระหว่างตัวแปรเหล่านี้

ตัวอย่างเช่น เกรดที่สูงขึ้นของวิทยาลัยไม่ได้หมายถึงเงินเดือนที่สูงกว่าเสมอไป แต่อาจมีความสัมพันธ์ระหว่างตัวแปรทั้งสอง

เธอรู้รึเปล่า? คำว่า "เชิงเส้น" หมายถึงคล้ายเส้นหรือเกี่ยวข้องกับเส้น

การสร้างแผนภาพกระจายเหมาะอย่างยิ่งสำหรับการกำหนดความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปร อธิบาย (อิสระ) และ ตัวแปร ตาม หากแผนภาพกระจายไม่แสดงแนวโน้มที่เพิ่มขึ้นหรือลดลง การใช้แบบจำลองการถดถอยเชิงเส้นกับค่าที่สังเกตได้อาจไม่เป็นประโยชน์

ค่าสัมประสิทธิ์สหสัมพันธ์ ใช้ในการคำนวณว่าความสัมพันธ์ระหว่างสองตัวแปรมีความแข็งแกร่งเพียงใด โดยปกติจะแสดงด้วย r และมีค่าระหว่าง -1 ถึง 1 ค่าสัมประสิทธิ์สหสัมพันธ์เชิงบวกบ่งชี้ถึงความสัมพันธ์เชิงบวกระหว่างตัวแปร ในทำนองเดียวกัน ค่าลบแสดงถึงความสัมพันธ์เชิงลบระหว่างตัวแปร

เคล็ดลับ: ทำการวิเคราะห์การถดถอยเฉพาะเมื่อสัมประสิทธิ์สหสัมพันธ์เป็นบวกหรือลบ 0.50 หรือมากกว่า

หากคุณกำลังดูความสัมพันธ์ระหว่างเวลาเรียนกับเกรด คุณอาจเห็นความสัมพันธ์เชิงบวก ในทางกลับกัน หากคุณดูความสัมพันธ์ระหว่างเวลาบนโซเชียลมีเดียกับเกรด คุณมักจะเห็นความสัมพันธ์เชิงลบ

ในที่นี้ “เกรด” เป็นตัวแปรตาม และเวลาที่ใช้ในการศึกษาหรือบนโซเชียลมีเดียเป็นตัวแปรอิสระ นี่เป็นเพราะเกรดขึ้นอยู่กับเวลาที่คุณใช้เรียน

หากคุณสร้าง (อย่างน้อย) ความสัมพันธ์ระดับปานกลางระหว่างตัวแปรผ่านทั้งแผนภาพกระจายและสัมประสิทธิ์สหสัมพันธ์ ตัวแปรดังกล่าวจะมีรูปแบบความสัมพันธ์เชิงเส้นบางรูปแบบ

กล่าวโดยสรุป การถดถอยเชิงเส้นพยายามจำลองความสัมพันธ์ระหว่างตัวแปรสองตัวโดยใช้สมการเชิงเส้นกับข้อมูลที่สังเกตได้ เส้นถดถอยเชิงเส้นสามารถแสดงได้โดยใช้สมการของเส้นตรง:

y = mx + b

ในสมการถดถอยเชิงเส้นอย่างง่ายนี้:

  • y คือตัวแปรตามประมาณการ (หรือผลลัพธ์)
  • m คือสัมประสิทธิ์การถดถอย (หรือความชัน)
  • x เป็นตัวแปรอิสระ (หรืออินพุต)
  • b คือค่าคงที่ (หรือค่าตัดแกน y)

การค้นหาความสัมพันธ์ระหว่างตัวแปรทำให้สามารถทำนายค่าหรือผลลัพธ์ได้ กล่าวอีกนัยหนึ่ง การถดถอยเชิงเส้นทำให้สามารถทำนายค่าใหม่ตามข้อมูลที่มีอยู่ได้

ตัวอย่างจะเป็นการทำนายผลผลิตพืชผลตามปริมาณน้ำฝนที่ได้รับ ในกรณีนี้ ปริมาณน้ำฝนเป็นตัวแปรอิสระ และผลผลิต (ค่าที่คาดการณ์ไว้) เป็นตัวแปรตาม

ตัวแปรอิสระยังเรียกว่า ตัวแปรทำนาย ในทำนองเดียวกัน ตัวแปรตามยังเป็นที่รู้จักกันในนาม ตัวแปรตอบสนอง

คำศัพท์หลักในการถดถอยเชิงเส้น

การทำความเข้าใจการวิเคราะห์การถดถอยเชิงเส้นยังหมายถึงการทำความคุ้นเคยกับคำศัพท์ใหม่ๆ หากคุณเพิ่งก้าวเข้าสู่โลกแห่งสถิติหรือแมชชีนเลิร์นนิง การมีความเข้าใจที่ถูกต้องเกี่ยวกับคำศัพท์เหล่านี้จะเป็นประโยชน์

  • ตัวแปร: เป็นตัวเลข ปริมาณ หรือลักษณะใดๆ ที่สามารถนับหรือวัดได้ เรียกอีกอย่างว่ารายการข้อมูล รายได้ อายุ ความเร็ว และเพศเป็นตัวอย่าง
  • สัมประสิทธิ์: เป็นตัวเลข (โดยปกติเป็นจำนวนเต็ม) คูณด้วยตัวแปรข้างๆ ตัวอย่างเช่น ใน 7x เลข 7 คือสัมประสิทธิ์
  • ค่าผิดปกติ: สิ่งเหล่านี้เป็นจุดข้อมูลที่แตกต่างจากที่เหลืออย่างมาก
  • ความแปรปรวนร่วม: ทิศทางของความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว กล่าวคือจะคำนวณระดับที่ตัวแปรสองตัวมีความสัมพันธ์เชิงเส้นตรง
  • หลายตัวแปร: หมายถึงเกี่ยวข้องกับตัวแปรตามสองตัวหรือมากกว่าซึ่งส่งผลให้เกิดผลลัพธ์เดียว
  • ค่า คงเหลือ: ความแตกต่างระหว่างค่าที่สังเกตได้และค่าที่คาดการณ์ไว้ของตัวแปรตาม
  • ความแปรปรวน: การขาดความสม่ำเสมอหรือขอบเขตที่การกระจายถูกบีบหรือยืดออก
  • ความเป็น เส้นตรง: คุณสมบัติของความสัมพันธ์ทางคณิตศาสตร์ที่มีความสัมพันธ์อย่างใกล้ชิดกับสัดส่วนและสามารถแสดงแบบกราฟิกเป็นเส้นตรงได้
  • ฟังก์ชันเชิงเส้น: เป็นฟังก์ชันที่มีกราฟเป็นเส้นตรง
  • Collinearity: ความสัมพันธ์ระหว่างตัวแปรอิสระ ซึ่งแสดงความสัมพันธ์เชิงเส้นในแบบจำลองการถดถอย
  • ค่าเบี่ยงเบนมาตรฐาน (SD): เป็นการวัดการกระจายตัวของชุดข้อมูลที่สัมพันธ์กับค่าเฉลี่ย กล่าวอีกนัยหนึ่งคือการวัดว่าตัวเลขกระจายออกไปอย่างไร
  • ข้อผิดพลาดมาตรฐาน (SE): SD โดยประมาณของประชากรกลุ่มตัวอย่างทางสถิติ ใช้สำหรับวัดความแปรปรวน

ประเภทของการถดถอยเชิงเส้น

การถดถอยเชิงเส้นมีสองประเภท: การถดถอย เชิงเส้นอย่างง่าย และ การถดถอยเชิงเส้นพหุคูณ

วิธี การถดถอยเชิงเส้นอย่างง่าย พยายามค้นหาความสัมพันธ์ระหว่างตัวแปรอิสระตัวเดียวและตัวแปรตามที่สอดคล้องกัน ตัวแปรอิสระคืออินพุต และตัวแปรตามที่สอดคล้องกันคือเอาต์พุต

เคล็ดลับ: คุณสามารถใช้การถดถอยเชิงเส้นในภาษาการเขียนโปรแกรมและสภาพแวดล้อมต่างๆ รวมถึง Python, R, MATLAB และ Excel

วิธี การถดถอยเชิงเส้นแบบพหุคูณ พยายามค้นหาความสัมพันธ์ระหว่างตัวแปรอิสระตั้งแต่สองตัวขึ้นไปกับตัวแปรตามที่สอดคล้องกัน นอกจากนี้ยังมีกรณีพิเศษของการถดถอยเชิงเส้นพหุคูณที่เรียกว่า   การถดถอยพหุนาม

พูดง่ายๆ ก็คือ ตัวแบบการถดถอยเชิงเส้นอย่างง่ายมีตัวแปรอิสระเพียงตัวเดียว ในขณะที่ตัวแบบการถดถอยเชิงเส้นหลายตัวจะมีตัวแปรอิสระสองตัวหรือมากกว่า และใช่ มีวิธีการถดถอยแบบไม่เชิงเส้นอื่น ๆ ที่ใช้ในการวิเคราะห์ข้อมูลที่ซับซ้อนสูง

การถดถอยโลจิสติกกับการถดถอยเชิงเส้น

ในขณะที่การถดถอยเชิงเส้นทำนายตัวแปรตามอย่างต่อเนื่องสำหรับชุดของตัวแปรอิสระที่กำหนด การถดถอยโลจิสติก ทำนายตัวแปรตามหมวดหมู่

ทั้งสองเป็นวิธีการเรียนรู้ภายใต้การดูแล แต่ในขณะที่การถดถอยเชิงเส้นใช้เพื่อแก้ปัญหาการถดถอย การถดถอยโลจิสติกจะใช้ในการแก้ปัญหาการจำแนกประเภท

การถดถอยเชิงเส้นกับการถดถอยโลจิสติก

แน่นอน การถดถอยโลจิสติกสามารถแก้ปัญหาการถดถอยได้ แต่ส่วนใหญ่จะใช้สำหรับปัญหาการจำแนกประเภท ผลลัพธ์สามารถเป็น 0 หรือ 1 เท่านั้น ซึ่งมีค่าในสถานการณ์ที่คุณต้องการกำหนดความน่าจะเป็นระหว่างสองคลาสหรืออีกนัยหนึ่งคือคำนวณความน่าจะเป็นของเหตุการณ์ ตัวอย่างเช่น สามารถใช้การถดถอยโลจิสติกเพื่อคาดการณ์ว่าฝนจะตกในวันนี้หรือไม่

สมมติฐานของการถดถอยเชิงเส้น

ในขณะที่ใช้การถดถอยเชิงเส้นเพื่อสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปร เราตั้งสมมติฐานสองสามข้อ สมมติฐานเป็นเงื่อนไขที่จำเป็นซึ่งควรจะบรรลุก่อนที่เราจะใช้แบบจำลองในการทำนาย

โดยทั่วไปมีสมมติฐานสี่ข้อที่เกี่ยวข้องกับตัวแบบการถดถอยเชิงเส้น:

  • ความสัมพันธ์เชิงเส้น: มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอิสระ x และตัวแปรตาม y
  • ความเป็น อิสระ: ส่วนที่เหลือเป็นอิสระ ไม่มีความสัมพันธ์ระหว่างค่าคงเหลือที่ต่อเนื่องกันในข้อมูลอนุกรมเวลา
  • Homoscedasticity: ส่วนที่เหลือมีความแปรปรวนเท่ากันในทุกระดับ
  • ความปกติ: ส่วนที่เหลือจะถูกกระจายตามปกติ

วิธีการแก้ตัวแบบการถดถอยเชิงเส้น

ในการเรียนรู้ของเครื่องหรือศัพท์แสงสถิติ การเรียนรู้แบบจำลองการถดถอยเชิงเส้นหมายถึงการเดาค่าสัมประสิทธิ์โดยใช้ข้อมูลที่มีอยู่ สามารถใช้วิธีการต่างๆ กับตัวแบบการถดถอยเชิงเส้นเพื่อให้มีประสิทธิภาพมากขึ้น

เคล็ดลับ: ใช้ซอฟต์แวร์แมชชีนเลิร์นนิงเพื่อขจัดงานที่ซ้ำซากจำเจและคาดการณ์ได้อย่างแม่นยำ

ลองดูเทคนิคต่างๆ ที่ใช้ในการแก้ตัวแบบการถดถอยเชิงเส้นเพื่อทำความเข้าใจความแตกต่างและการแลกเปลี่ยน

การถดถอยเชิงเส้นอย่างง่าย

ดังที่กล่าวไว้ก่อนหน้านี้ มีอินพุตเดียวหรือหนึ่งตัวแปรอิสระ และหนึ่งตัวแปรตามใน การถดถอยเชิงเส้นอย่างง่าย ใช้เพื่อค้นหาความสัมพันธ์ที่ดีที่สุดระหว่างสองตัวแปร เนื่องจากอยู่ในลักษณะต่อเนื่องกัน ตัวอย่างเช่น สามารถใช้ทำนายปริมาณของน้ำหนักที่เพิ่มขึ้นตามแคลอรี่ที่บริโภคได้

สี่เหลี่ยมจัตุรัสน้อยที่สุดสามัญ

การถดถอยกำลังสองน้อยที่สุดสามัญ เป็นอีกวิธีหนึ่งในการประเมินค่าสัมประสิทธิ์เมื่อมีตัวแปรหรืออินพุตอิสระมากกว่าหนึ่งตัว เป็นวิธีการทั่วไปวิธีหนึ่งในการแก้การถดถอยเชิงเส้น และเรียกอีกอย่างว่า สมการปกติ

ขั้นตอนนี้พยายามลดผลรวมของเศษเหลือยกกำลังสองให้น้อยที่สุด จะถือว่าข้อมูลเป็นเมทริกซ์และใช้การดำเนินการพีชคณิตเชิงเส้นเพื่อกำหนดค่าที่เหมาะสมที่สุดสำหรับแต่ละสัมประสิทธิ์ แน่นอน วิธีนี้สามารถใช้ได้เฉพาะเมื่อเราเข้าถึงข้อมูลทั้งหมดได้ และควรมีหน่วยความจำเพียงพอสำหรับข้อมูลด้วย

การไล่ระดับสีโคตร

การ ไล่ระดับสี แบบไล่ระดับเป็นหนึ่งในวิธีที่ง่ายที่สุดและใช้กันทั่วไปในการแก้ปัญหาการถดถอยเชิงเส้น มีประโยชน์เมื่อมีอินพุตตั้งแต่หนึ่งรายการขึ้นไป และเกี่ยวข้องกับการปรับค่าสัมประสิทธิ์ให้เหมาะสมโดยการลดข้อผิดพลาดของแบบจำลองซ้ำๆ

การไล่ระดับสีเริ่มต้นด้วยค่าสุ่มสำหรับทุกๆ สัมประสิทธิ์ สำหรับค่าอินพุตและเอาต์พุตทุกคู่ จะคำนวณผลรวมของข้อผิดพลาดกำลังสอง ใช้สเกลแฟกเตอร์เป็นอัตราการเรียนรู้ และค่าสัมประสิทธิ์แต่ละตัวจะได้รับการอัปเดตในทิศทางเพื่อลดข้อผิดพลาด

กระบวนการนี้ทำซ้ำจนกว่าจะไม่มีการปรับปรุงเพิ่มเติมหรือบรรลุผลรวมของกำลังสองขั้นต่ำ การไล่ระดับสีจะมีประโยชน์เมื่อมีชุดข้อมูลขนาดใหญ่ที่เกี่ยวข้องกับแถวและคอลัมน์จำนวนมากที่ไม่พอดีกับหน่วยความจำ

การทำให้เป็นมาตรฐาน

การ ทำให้เป็นมาตรฐานคือวิธีการที่พยายามลดผลรวมของข้อผิดพลาดกำลังสองของแบบจำลองให้น้อยที่สุด และในขณะเดียวกันก็ลดความซับซ้อนของแบบจำลอง มันลดผลรวมของข้อผิดพลาดกำลังสองโดยใช้วิธีกำลังสองน้อยที่สุดแบบธรรมดา

การถดถอยแบบ Lasso และการถดถอย ของ สันเขา เป็นตัวอย่างสองตัวอย่างที่มีชื่อเสียงของการทำให้เป็นมาตรฐานในการถดถอยเชิงเส้น วิธีการเหล่านี้มีค่าเมื่อมีความสอดคล้องกันในตัวแปรอิสระ

วิธีการของอดัม

การประมาณค่าโมเมนต์ Adaptive Moment หรือ ADAM เป็นอัลกอริธึมการปรับให้เหมาะสมที่ใช้ใน   การเรียนรู้อย่างลึกซึ้ง เป็นอัลกอริธึมแบบวนซ้ำซึ่งทำงานได้ดีกับข้อมูลที่มีสัญญาณรบกวน ใช้งานง่าย มีประสิทธิภาพในการคำนวณ และมีความต้องการหน่วยความจำน้อยที่สุด

ADAM ผสมผสานอัลกอริธึมการไล่ระดับสีแบบเกรเดียนต์สองแบบ - การขยายพันธุ์แบบเฉลี่ยรูต (RMSprop) และ การไล่ระดับสีแบบปรับ ได้ แทนที่จะใช้ชุดข้อมูลทั้งหมดเพื่อคำนวณการไล่ระดับสี ADAM จะใช้ชุดย่อยที่เลือกแบบสุ่มเพื่อสร้างการประมาณแบบสุ่ม

ADAM เหมาะสำหรับปัญหาที่เกี่ยวข้องกับพารามิเตอร์หรือข้อมูลจำนวนมาก นอกจากนี้ ในวิธีการเพิ่มประสิทธิภาพนี้ โดยทั่วไปแล้วไฮเปอร์พารามิเตอร์ต้องการการปรับแต่งที่น้อยที่สุดและมีการตีความโดยสัญชาตญาณ

การสลายตัวของค่าเอกพจน์

การสลายตัวของ ค่าเอกพจน์ หรือ SVD เป็นเทคนิคการลดมิติที่ใช้กันทั่วไปในการถดถอยเชิงเส้น เป็นขั้นตอนก่อนการประมวลผลที่ลดจำนวนมิติสำหรับอัลกอริธึมการเรียนรู้

SVD เกี่ยวข้องกับการแยกเมทริกซ์เป็นผลคูณของเมทริกซ์อื่นๆ สามตัว เหมาะสำหรับข้อมูลมิติสูงและมีเสถียรภาพสำหรับชุดข้อมูลขนาดเล็ก เนื่องจากความเสถียร จึงเป็นหนึ่งในวิธีที่ได้รับความนิยมมากที่สุดสำหรับการแก้สมการเชิงเส้นสำหรับการถดถอยเชิงเส้น อย่างไรก็ตาม มีความอ่อนไหวต่อค่าผิดปกติและอาจไม่เสถียรกับชุดข้อมูลขนาดใหญ่

การเตรียมข้อมูลสำหรับการถดถอยเชิงเส้น

ข้อมูลในโลกแห่งความเป็นจริงส่วนใหญ่ไม่สมบูรณ์

เช่นเดียวกับโมเดลแมชชีนเลิร์นนิงอื่นๆ การเตรียมข้อมูลและการประมวลผลล่วงหน้าเป็นกระบวนการที่สำคัญในการถดถอยเชิงเส้น จะมีค่าที่หายไป ข้อผิดพลาด ค่าผิดปกติ ความไม่สอดคล้องกัน และการขาดค่าแอตทริบิวต์

ต่อไปนี้เป็นวิธีพิจารณาข้อมูลที่ไม่สมบูรณ์และสร้างแบบจำลองการคาดการณ์ที่เชื่อถือได้มากขึ้น

  • การถดถอยเชิงเส้นคิดว่าตัวทำนายและตัวแปรตอบสนองไม่มีเสียงรบกวน ด้วยเหตุนี้ การลบสัญญาณรบกวน ด้วยการดำเนินการล้างข้อมูลหลายอย่างจึงเป็นสิ่งสำคัญ ถ้าเป็นไปได้ คุณควรลบค่าผิดปกติในตัวแปรเอาต์พุต
  • หากตัวแปรอินพุตและเอาต์พุตมี การแจกแจงแบบเกาส์เซียน การ ถดถอยเชิงเส้นจะทำให้การทำนายดีขึ้น
  • หากคุณปรับขนาด ตัวแปรอินพุต ใหม่โดยใช้การทำให้เป็นมาตรฐานหรือการทำให้เป็นมาตรฐาน การถดถอยเชิงเส้นโดยทั่วไปจะทำให้การคาดการณ์ดีขึ้น
  • หากมีหลายแอตทริบิวต์ คุณต้องแปลงข้อมูลให้มี ความสัมพันธ์เชิงเส้น
  • หากตัวแปรอินพุตมีความสัมพันธ์กันสูง การถดถอยเชิงเส้นจะทำให้ข้อมูลมากเกินไป ในกรณีเช่นนี้ ให้ ลบ collinearity

ข้อดีและข้อเสียของการถดถอยเชิงเส้น

การถดถอยเชิงเส้นเป็นหนึ่งในอัลกอริธึมที่ไม่ซับซ้อนที่สุดที่เข้าใจและนำไปใช้ได้ง่ายที่สุด เป็นเครื่องมือที่ยอดเยี่ยมในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร

นี่คือ ข้อดี เด่นบางประการของการถดถอยเชิงเส้น:

  • เป็นอัลกอริธึมที่ใช้งานได้เนื่องจากความเรียบง่าย
  • แม้ว่าจะอ่อนแอต่อการสวมใส่มากเกินไป แต่ก็สามารถหลีกเลี่ยงได้โดยใช้เทคนิคการลดขนาด
  • มีการตีความที่ดี
  • มันทำงานได้ดีกับชุดข้อมูลที่แยกเชิงเส้นได้
  • ความซับซ้อนของพื้นที่อยู่ในระดับต่ำ ดังนั้นจึงเป็นอัลกอริธึมที่มีความหน่วงแฝงสูง

อย่างไรก็ตาม โดยทั่วไปไม่แนะนำให้ใช้การถดถอยเชิงเส้นสำหรับการใช้งานจริงส่วนใหญ่ เป็นเพราะมันทำให้ปัญหาในโลกแห่งความเป็นจริงง่ายขึ้นโดยสมมติว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปร

นี่คือ ข้อเสีย บางประการของการถดถอยเชิงเส้น:

  • ค่าผิดปกติอาจมีผลเสียต่อการถดถอย
  • เนื่องจากควรมีความสัมพันธ์เชิงเส้นระหว่างตัวแปรเพื่อให้พอดีกับแบบจำลองเชิงเส้น จึงถือว่ามีความสัมพันธ์แบบเส้นตรงระหว่างตัวแปร
  • จะรับรู้ว่าข้อมูลมีการกระจายตามปกติ
  • นอกจากนี้ยังดูที่ความสัมพันธ์ระหว่างค่าเฉลี่ยของตัวแปรอิสระและตัวแปรตาม
  • การถดถอยเชิงเส้นไม่ใช่คำอธิบายที่สมบูรณ์ของความสัมพันธ์ระหว่างตัวแปร
  • การมีความสัมพันธ์สูงระหว่างตัวแปรอาจส่งผลกระทบอย่างมีนัยสำคัญต่อประสิทธิภาพของแบบจำลองเชิงเส้น

สังเกตก่อน แล้วค่อยทำนาย

ในการถดถอยเชิงเส้น สิ่งสำคัญคือต้องประเมินว่าตัวแปรมีความสัมพันธ์เชิงเส้นหรือไม่ แม้ว่าบางคนจะพยายามทำนายโดยไม่ดูที่แนวโน้ม แต่เป็นการดีที่สุดที่จะตรวจสอบให้แน่ใจว่ามีความสัมพันธ์ที่แน่นแฟ้นปานกลางระหว่างตัวแปร

ดังที่ได้กล่าวไว้ก่อนหน้านี้ การดูที่แผนภาพกระจายและค่าสัมประสิทธิ์สหสัมพันธ์เป็นวิธีที่ยอดเยี่ยม และใช่ แม้ว่าสหสัมพันธ์จะสูง แต่ก็ยังดีกว่าที่จะดูพล็อตแบบกระจาย กล่าวโดยสรุป ถ้าข้อมูลเป็นแบบเส้นตรง การวิเคราะห์การถดถอยเชิงเส้นก็เป็นไปได้

ในขณะที่การถดถอยเชิงเส้นช่วยให้คุณทำนายค่าของตัวแปรตาม มีอัลกอริทึมที่จำแนกจุดข้อมูลใหม่หรือทำนายค่าโดยดูที่เพื่อนบ้าน เรียกว่าอัลกอริธึมเพื่อนบ้านที่ใกล้ที่สุด k และเป็นผู้เรียนที่ขี้เกียจ