ما هو الانحدار الخطي؟ كيف يتم استخدامه في التعلم الآلي
نشرت: 2021-07-16أليس الانحدار الخطي جزء من الإحصائيات؟
نعم بلا شك.
في الواقع ، معظم التعلم الالي يتم استعارة خوارزميات (ML) من مجالات مختلفة ، خاصة الإحصائيات. أي شيء يمكن أن يساعد النماذج على التنبؤ بشكل أفضل سيصبح في النهاية جزءًا من ML. لذلك ، من الآمن أن نقول إن الانحدار الخطي هو خوارزمية إحصائية وخوارزمية تعلم آلي.
الانحدار الخطي هو خوارزمية شائعة وغير معقدة تستخدم في علم البيانات والتعلم الآلي. انه التعلم تحت الإشراف الخوارزمية وأبسط أشكال الانحدار المستخدمة لدراسة العلاقة الرياضية بين المتغيرات.
ما هو الانحدار الخطي؟
الانحدار الخطي هو طريقة إحصائية تحاول إظهار العلاقة بين المتغيرات. يبحث في نقاط بيانات مختلفة ويرسم خط اتجاه. مثال بسيط على الانحدار الخطي هو اكتشاف أن تكلفة إصلاح قطعة من الآلات تزداد بمرور الوقت.
بتعبير أدق ، يتم استخدام الانحدار الخطي لتحديد طابع وقوة الارتباط بين متغير تابع وسلسلة من المتغيرات المستقلة الأخرى. يساعد في إنشاء نماذج لعمل تنبؤات ، مثل التنبؤ بسعر سهم الشركة.
قبل محاولة ملاءمة نموذج خطي لمجموعة البيانات المرصودة ، يجب على المرء تقييم ما إذا كانت هناك علاقة بين المتغيرات أم لا. بالطبع ، هذا لا يعني أن أحد المتغيرات يتسبب في الآخر ، ولكن يجب أن يكون هناك بعض الارتباط المرئي بينهما.
على سبيل المثال ، لا تعني الدرجات الجامعية العليا بالضرورة حزمة راتب أعلى. ولكن يمكن أن يكون هناك ارتباط بين المتغيرين.
هل كنت تعلم؟ المصطلح "خطي" يعني تشابه خط أو يتعلق بخطوط.
يعد إنشاء مخطط مبعثر مثاليًا لتحديد قوة العلاقة بين المتغيرات التوضيحية ( المستقلة ) والتابعة. إذا لم يُظهر مخطط التبعثر أي اتجاهات متزايدة أو متناقصة ، فقد لا يكون تطبيق نموذج الانحدار الخطي على القيم الملاحظة مفيدًا.
تُستخدم معاملات الارتباط لحساب مدى قوة العلاقة بين متغيرين. عادةً ما يُرمز إليها بـ r ولها قيمة بين -1 و 1. تشير قيمة معامل الارتباط الموجب إلى وجود علاقة إيجابية بين المتغيرات. وبالمثل ، تشير القيمة السالبة إلى علاقة سلبية بين المتغيرات.
نصيحة: قم بإجراء تحليل الانحدار فقط إذا كان معامل الارتباط موجبًا أو سالبًا 0.50 أو أكثر.
إذا كنت تنظر إلى العلاقة بين وقت الدراسة والدرجات ، فمن المحتمل أن ترى علاقة إيجابية. من ناحية أخرى ، إذا نظرت إلى العلاقة بين الوقت على وسائل التواصل الاجتماعي والدرجات ، فسترى على الأرجح علاقة سلبية.
هنا ، "الدرجات" هي المتغير التابع ، والوقت الذي تقضيه في الدراسة أو على وسائل التواصل الاجتماعي هو المتغير المستقل. هذا لأن الدرجات تعتمد على مقدار الوقت الذي تقضيه في الدراسة.
إذا كان بإمكانك إنشاء (على الأقل) ارتباط معتدل بين المتغيرات من خلال كل من مخطط التبعثر ومعامل الارتباط ، فإن المتغيرات المذكورة لها شكل من أشكال العلاقة الخطية.
باختصار ، يحاول الانحدار الخطي نمذجة العلاقة بين متغيرين من خلال تطبيق معادلة خطية على البيانات المرصودة. يمكن تمثيل خط الانحدار الخطي باستخدام معادلة الخط المستقيم:
ص = م س + ب
في معادلة الانحدار الخطي البسيطة هذه:
- y هو المتغير التابع المقدر (أو الناتج)
- م هو معامل الانحدار (أو المنحدر)
- x هو المتغير المستقل (أو الإدخال)
- ب هو الثابت (أو تقاطع ص)
إن إيجاد العلاقة بين المتغيرات يجعل من الممكن التنبؤ بالقيم أو النتائج. بمعنى آخر ، يتيح الانحدار الخطي التنبؤ بالقيم الجديدة بناءً على البيانات الموجودة.
مثال على ذلك هو توقع غلة المحاصيل بناءً على هطول الأمطار المتلقاة. في هذه الحالة ، يكون هطول الأمطار هو المتغير المستقل ، ويكون إنتاجية المحاصيل (القيم المتوقعة) هو المتغير التابع.
يشار إلى المتغيرات المستقلة أيضًا باسم متغيرات التوقع . وبالمثل ، تُعرف المتغيرات التابعة أيضًا باسم متغيرات الاستجابة .
المصطلحات الرئيسية في الانحدار الخطي
إن فهم تحليل الانحدار الخطي يعني أيضًا التعرف على مجموعة من المصطلحات الجديدة. إذا كنت قد دخلت للتو في عالم الإحصاء أو التعلم الآلي ، فسيكون من المفيد الحصول على فهم عادل لهذه المصطلحات.
- متغير: أي رقم أو كمية أو خاصية يمكن عدها أو قياسها. يطلق عليه أيضًا عنصر البيانات. الدخل والعمر والسرعة والجنس أمثلة.
- المُعامل: هو رقم (عادةً عدد صحيح) مضروبًا في المتغير المجاور له. على سبيل المثال ، في 7x ، الرقم 7 هو المعامل.
- القيم المتطرفة: هذه نقاط بيانات تختلف اختلافًا كبيرًا عن البقية.
- التغاير: اتجاه العلاقة الخطية بين متغيرين. بمعنى آخر ، تحسب الدرجة التي يرتبط بها متغيرين خطيًا.
- متعدد المتغيرات: يعني تضمين متغيرين تابعين أو أكثر مما يؤدي إلى نتيجة واحدة.
- المتبقي: الفرق بين القيم المرصودة والمتوقعة للمتغير التابع.
- التقلبات: نقص الاتساق أو مدى تقلص التوزيع أو تمدده.
- الخطية: خاصية العلاقة الرياضية التي ترتبط ارتباطًا وثيقًا بالتناسب ويمكن تمثيلها بيانياً كخط مستقيم.
- دالة خطية: دالة رسمها البياني عبارة عن خط مستقيم.
- العلاقة الخطية المتداخلة: الارتباط بين المتغيرات المستقلة ، بحيث تظهر علاقة خطية في نموذج الانحدار.
- الانحراف المعياري (SD): إنه مقياس لتشتت مجموعة البيانات بالنسبة إلى متوسطها. بمعنى آخر ، إنه مقياس لمدى انتشار الأرقام.
- الخطأ المعياري (SE): SD التقريبي لعينة إحصائية. يتم استخدامه لقياس التباين.
أنواع الانحدار الخطي
هناك نوعان من الانحدار الخطي: الانحدار الخطي البسيط والانحدار الخطي المتعدد .
تحاول طريقة الانحدار الخطي البسيطة إيجاد العلاقة بين متغير مستقل واحد ومتغير تابع مطابق. المتغير المستقل هو المدخل ، والمتغير التابع المقابل هو الإخراج.
نصيحة: يمكنك تنفيذ الانحدار الخطي في لغات وبيئات البرمجة المختلفة ، بما في ذلك Python و R و MATLAB و Excel.
تحاول طريقة الانحدار الخطي المتعدد إيجاد العلاقة بين متغيرين مستقلين أو أكثر والمتغير التابع المقابل. هناك أيضًا حالة خاصة من الانحدار الخطي المتعدد تسمى انحدار متعدد الحدود.
ببساطة ، يحتوي نموذج الانحدار الخطي البسيط على متغير مستقل واحد فقط ، في حين أن نموذج الانحدار الخطي المتعدد سيكون له متغيران مستقلان أو أكثر. ونعم ، هناك طرق أخرى للانحدار غير الخطي تستخدم لتحليل البيانات شديد التعقيد.
الانحدار اللوجستي مقابل الانحدار الخطي
بينما يتنبأ الانحدار الخطي بالمتغير التابع المستمر لمجموعة معينة من المتغيرات المستقلة ، يتنبأ الانحدار اللوجستي بالمتغير التابع الفئوي.
كلاهما طرق تعلم تحت الإشراف. ولكن بينما يتم استخدام الانحدار الخطي لحل مشاكل الانحدار ، يتم استخدام الانحدار اللوجستي لحل مشاكل التصنيف.
بالطبع ، يمكن أن يحل الانحدار اللوجستي مشاكل الانحدار ، لكنه يستخدم بشكل أساسي لمشاكل التصنيف. يمكن أن يكون ناتجها 0 أو 1. إنها قيمة في المواقف التي تحتاج فيها إلى تحديد الاحتمالات بين فئتين أو ، بعبارة أخرى ، حساب احتمال وقوع حدث. على سبيل المثال ، يمكن استخدام الانحدار اللوجستي للتنبؤ بما إذا كانت ستمطر اليوم.
افتراضات الانحدار الخطي
أثناء استخدام الانحدار الخطي لنمذجة العلاقة بين المتغيرات ، نقوم ببعض الافتراضات. الافتراضات هي شروط ضرورية يجب تلبيتها قبل أن نستخدم نموذجًا لعمل تنبؤات.

توجد بشكل عام أربعة افتراضات مرتبطة بنماذج الانحدار الخطي:
- العلاقة الخطية: توجد علاقة خطية بين المتغير المستقل x والمتغير التابع y .
- الاستقلال: القيم المتبقية مستقلة. لا يوجد ارتباط بين القيم المتبقية المتتالية في بيانات السلاسل الزمنية.
- اللواط: المتخلفات لها تباين متساو على جميع المستويات.
- الحالة الطبيعية: يتم توزيع المخلفات بشكل طبيعي.
طرق حل نماذج الانحدار الخطي
في تعلم الآلة أو لغة الإحصاء ، يعني تعلم نموذج الانحدار الخطي تخمين قيم المعاملات باستخدام البيانات المتاحة. يمكن تطبيق عدة طرق على نموذج الانحدار الخطي لجعله أكثر كفاءة.
نصيحة: استخدم برنامج التعلم الآلي للتخلص من المهام الرتيبة وإجراء تنبؤات دقيقة.
دعونا نلقي نظرة على التقنيات المختلفة المستخدمة لحل نماذج الانحدار الخطي لفهم الاختلافات والمفاضلات.
الانحدار الخطي البسيط
كما ذكرنا سابقًا ، هناك مدخل واحد أو متغير مستقل واحد ومتغير تابع واحد في الانحدار الخطي البسيط . يتم استخدامه لإيجاد أفضل علاقة بين متغيرين ، بالنظر إلى أنهما في طبيعة مستمرة. على سبيل المثال ، يمكن استخدامه للتنبؤ بمقدار الوزن المكتسب بناءً على السعرات الحرارية المستهلكة.
المربعات الصغرى العادية
انحدار المربعات الصغرى العادي هو طريقة أخرى لتقدير قيمة المعاملات عندما يكون هناك أكثر من متغير أو مدخل واحد مستقل. إنها واحدة من أكثر الطرق شيوعًا لحل الانحدار الخطي وتُعرف أيضًا باسم المعادلة العادية .
يحاول هذا الإجراء تقليل مجموع القيم المربعة. يتعامل مع البيانات كمصفوفة ويستخدم عمليات الجبر الخطي لتحديد القيم المثلى لكل معامل. بالطبع ، لا يمكن تطبيق هذه الطريقة إلا إذا كان لدينا وصول إلى جميع البيانات ، ويجب أيضًا أن تكون هناك ذاكرة كافية لتناسب البيانات.
نزول متدرج
يعد الانحدار المتدرج أحد أسهل الطرق وأكثرها استخدامًا لحل مشاكل الانحدار الخطي. يكون مفيدًا عندما يكون هناك مدخل واحد أو أكثر ويتضمن تحسين قيمة المعاملات عن طريق تقليل خطأ النموذج بشكل متكرر.
يبدأ الانحدار بقيم عشوائية لكل معامل. لكل زوج من قيم المدخلات والمخرجات ، يتم حساب مجموع تربيع الأخطاء. يستخدم عامل مقياس كمعدل التعلم ، ويتم تحديث كل معامل في الاتجاه لتقليل الخطأ.
تتكرر العملية حتى لا يمكن إجراء مزيد من التحسينات أو يتم تحقيق الحد الأدنى من المربعات. يكون الانحدار المتدرج مفيدًا عندما تكون هناك مجموعة بيانات كبيرة تتضمن عددًا كبيرًا من الصفوف والأعمدة التي لا تتناسب مع الذاكرة.
تنظيم
التنظيم هو طريقة تحاول تقليل مجموع الأخطاء التربيعية للنموذج ، وفي نفس الوقت تقلل من تعقيد النموذج. يقلل من مجموع الأخطاء التربيعية باستخدام طريقة المربعات الصغرى العادية.
انحدار لاسو وانحدار التلال هما المثالان المشهوران للتنظيم في الانحدار الخطي. تكون هذه الطرق ذات قيمة عندما يكون هناك علاقة خطية متداخلة في المتغيرات المستقلة.
طريقة آدم
تقدير اللحظة التكيفية ، أو ADAM ، هو خوارزمية تحسين مستخدمة في تعلم عميق. إنها خوارزمية تكرارية تعمل جيدًا على البيانات الصاخبة. إنه سهل التنفيذ ، وفعال حسابيًا ، وله الحد الأدنى من متطلبات الذاكرة.
يجمع ADAM بين خوارزميات النسب المتدرج - جذر متوسط الانتشار التربيعي (RMSprop) ونسب التدرج التكيفي . بدلاً من استخدام مجموعة البيانات بأكملها لحساب التدرج اللوني ، يستخدم ADAM مجموعات فرعية محددة عشوائيًا لإجراء تقريب عشوائي.
يعد ADAM مناسبًا للمشكلات التي تتضمن عددًا كبيرًا من المعلمات أو البيانات. أيضًا ، في طريقة التحسين هذه ، تتطلب المعلمات الفائقة عمومًا ضبطًا بسيطًا ولها تفسير بديهي.
تحلل القيمة المفرد
تحلل القيمة المفردة ، أو SVD ، هو أسلوب شائع الاستخدام لتقليل الأبعاد في الانحدار الخطي. إنها خطوة معالجة مسبقة تقلل من عدد أبعاد خوارزمية التعلم.
يتضمن SVD تحطيم المصفوفة كمنتج لثلاث مصفوفات أخرى. إنها مناسبة للبيانات عالية الأبعاد وفعالة ومستقرة لمجموعات البيانات الصغيرة. نظرًا لاستقراره ، فهو أحد أكثر الأساليب المفضلة لحل المعادلات الخطية للانحدار الخطي. ومع ذلك ، فهي عرضة للقيم المتطرفة وقد تصبح غير مستقرة مع مجموعة بيانات ضخمة.
تحضير البيانات للانحدار الخطي
بيانات العالم الحقيقي ، في معظم الحالات ، غير كاملة.
مثل أي نموذج آخر للتعلم الآلي ، يعد إعداد البيانات والمعالجة المسبقة عملية حاسمة في الانحدار الخطي. ستكون هناك قيم مفقودة وأخطاء وقيم متطرفة وتناقضات ونقص في قيم السمات.
فيما يلي بعض الطرق لحساب البيانات غير المكتملة وإنشاء نموذج تنبؤ أكثر موثوقية.
- يعتقد الانحدار الخطي أن المتنبئ ومتغيرات الاستجابة ليست صاخبة. نتيجة لهذا ، فإن إزالة الضوضاء من خلال العديد من عمليات مسح البيانات أمر بالغ الأهمية. إذا أمكن ، يجب عليك إزالة القيم المتطرفة في متغير الإخراج.
- إذا كانت متغيرات الإدخال والإخراج لها توزيع غاوسي ، فإن الانحدار الخطي سيصنع تنبؤات أفضل.
- إذا قمت بإعادة قياس متغيرات الإدخال باستخدام التسوية أو التوحيد القياسي ، فسيقوم الانحدار الخطي عمومًا بعمل تنبؤات أفضل.
- إذا كان هناك العديد من السمات ، فأنت بحاجة إلى تحويل البيانات إلى علاقة خطية .
- إذا كانت متغيرات الإدخال مترابطة بشكل كبير ، فإن الانحدار الخطي سوف يفرط في البيانات. في مثل هذه الحالات ، قم بإزالة العلاقة الخطية المتداخلة .
مزايا وعيوب الانحدار الخطي
الانحدار الخطي هو أحد الخوارزميات الأكثر تعقيدًا للفهم والأبسط في التنفيذ. إنها أداة رائعة لتحليل العلاقات بين المتغيرات.
فيما يلي بعض المزايا البارزة للانحدار الخطي:
- إنها خوارزمية الانتقال بسبب بساطتها.
- على الرغم من أنها عرضة للإفراط في التجهيز ، إلا أنه يمكن تجنبه بمساعدة تقنيات تقليل الأبعاد.
- لديها تفسير جيد.
- يعمل بشكل جيد على مجموعات البيانات القابلة للفصل خطيًا.
- التعقيد المكاني منخفض ؛ لذلك ، فهي خوارزمية عالية زمن الانتقال.
ومع ذلك ، لا يُنصح عمومًا باستخدام الانحدار الخطي لمعظم التطبيقات العملية. ذلك لأنه يبالغ في تبسيط مشاكل العالم الحقيقي بافتراض علاقة خطية بين المتغيرات.
فيما يلي بعض عيوب الانحدار الخطي:
- يمكن أن يكون للقيم المتطرفة آثار سلبية على الانحدار
- نظرًا لأنه يجب أن تكون هناك علاقة خطية بين المتغيرات لتناسب نموذجًا خطيًا ، فإنها تفترض وجود علاقة خط مستقيم بين المتغيرات
- تدرك أن البيانات يتم توزيعها بشكل طبيعي
- كما يبحث في العلاقة بين متوسط المتغيرات المستقلة والتابعة
- الانحدار الخطي ليس وصفًا كاملاً للعلاقات بين المتغيرات
- يمكن أن يؤثر وجود ارتباط كبير بين المتغيرات بشكل كبير على أداء النموذج الخطي
لاحظ أولاً ، ثم توقع
في الانحدار الخطي ، من المهم تقييم ما إذا كانت المتغيرات لها علاقة خطية. على الرغم من أن بعض الأشخاص يحاولون التنبؤ دون النظر إلى الاتجاه ، فمن الأفضل التأكد من وجود ارتباط قوي إلى حد ما بين المتغيرات.
كما ذكرنا سابقًا ، يعد النظر إلى مخطط التبعثر ومعامل الارتباط طريقتين ممتازتين. ونعم ، حتى لو كان الارتباط مرتفعًا ، فلا يزال من الأفضل إلقاء نظرة على مخطط التبعثر. باختصار ، إذا كانت البيانات خطية بصريًا ، فإن تحليل الانحدار الخطي يكون ممكنًا.
بينما يتيح لك الانحدار الخطي التنبؤ بقيمة متغير تابع ، هناك خوارزمية تصنف نقاط بيانات جديدة أو تتنبأ بقيمها من خلال النظر إلى جيرانها. إنها تسمى خوارزمية k-الأقرب للجيران ، وهي متعلم كسول.