ما هي بيانات التدريب؟ كيف يتم استخدامه في التعلم الآلي
نشرت: 2021-07-30تعد نماذج التعلم الآلي جيدة مثل البيانات التي تم تدريبهم عليها.
بدون بيانات تدريب عالية الجودة ، حتى الأكثر كفاءة التعلم الالي ستفشل الخوارزميات في الأداء.
تبدأ الحاجة إلى بيانات عالية الجودة ودقيقة وكاملة وذات صلة في وقت مبكر من عملية التدريب. فقط إذا تم تغذية الخوارزمية ببيانات تدريب جيدة ، يمكنها بسهولة التقاط الميزات والعثور على العلاقات التي تحتاجها للتنبؤ أسفل الخط.
بتعبير أدق ، تعد بيانات التدريب عالية الجودة أهم جانب من جوانب التعلم الآلي (والذكاء الاصطناعي) أكثر من أي جانب آخر. إذا قمت بتقديم خوارزميات التعلم الآلي (ML) إلى البيانات الصحيحة ، فأنت تقوم بإعدادها لتحقيق الدقة والنجاح.
ما هي بيانات التدريب؟
بيانات التدريب هي مجموعة البيانات الأولية المستخدمة لتدريب خوارزميات التعلم الآلي. تقوم النماذج بإنشاء قواعدها وتحسينها باستخدام هذه البيانات. إنها مجموعة من عينات البيانات المستخدمة لتلائم معلمات نموذج التعلم الآلي لتدريبه بالقدوة.
تُعرف بيانات التدريب أيضًا باسم مجموعة بيانات التدريب ومجموعة التعلم ومجموعة التدريب. إنه مكون أساسي في كل نموذج للتعلم الآلي ويساعدهم على عمل تنبؤات دقيقة أو أداء المهمة المطلوبة.
ببساطة ، بيانات التدريب تبني نموذج التعلم الآلي. يعلم كيف يبدو الناتج المتوقع. يحلل النموذج مجموعة البيانات بشكل متكرر لفهم خصائصها بعمق وضبط نفسها للحصول على أداء أفضل.
بمعنى أوسع ، يمكن تصنيف بيانات التدريب إلى فئتين: البيانات المصنفة والبيانات غير المسماة .
ما هي البيانات المصنفة؟
البيانات المصنفة هي مجموعة من عينات البيانات المميزة بعلامة واحدة أو أكثر من التسميات ذات المعنى. وتسمى أيضًا البيانات المشروحة ، وتحدد تسمياتها خصائص أو خصائص أو تصنيفات معينة أو كائنات متضمنة.
على سبيل المثال ، يمكن تمييز صور الفاكهة على أنها تفاح أو موز أو عنب .
يتم استخدام بيانات التدريب المسمى في التعلم تحت الإشراف. إنه يمكّن نماذج ML من معرفة الخصائص المرتبطة بتسميات محددة ، والتي يمكن استخدامها لتصنيف نقاط البيانات الأحدث. في المثال أعلاه ، يعني هذا أنه يمكن للنموذج استخدام بيانات الصورة المصنفة لفهم ميزات ثمار معينة واستخدام هذه المعلومات لتجميع الصور الجديدة.
يعد وضع العلامات أو التعليقات التوضيحية على البيانات عملية تستغرق وقتًا طويلاً حيث يحتاج البشر إلى وضع علامة على نقاط البيانات أو تصنيفها. يعد جمع البيانات المصنفة أمرًا صعبًا ومكلفًا. ليس من السهل تخزين البيانات المصنفة عند مقارنتها بالبيانات غير المسماة.
ما هي البيانات غير المسماة؟
كما هو متوقع ، فإن البيانات غير المصنفة هي عكس البيانات المصنفة. إنها بيانات أولية أو بيانات لا يتم تمييزها بأي تسميات لتحديد التصنيفات أو الخصائص أو الخصائص. يتم استخدامه في التعلم الآلي غير الخاضع للإشراف ، ويجب أن تجد نماذج ML أنماطًا أو أوجه تشابه في البيانات للوصول إلى الاستنتاجات.
بالعودة إلى المثال السابق للتفاح والموز والعنب ، في بيانات التدريب غير المسماة ، لن يتم تصنيف صور تلك الفاكهة. سيتعين على النموذج تقييم كل صورة بالنظر إلى خصائصها ، مثل اللون والشكل.
بعد تحليل عدد كبير من الصور ، سيكون النموذج قادرًا على تمييز الصور الجديدة (بيانات جديدة) في أنواع فاكهة التفاح أو الموز أو العنب . بالطبع ، لن يعرف النموذج أن الفاكهة المعينة تسمى تفاحة. بدلاً من ذلك ، يعرف الخصائص اللازمة للتعرف عليه.
هناك نماذج هجينة تستخدم مزيجًا من التعلم الآلي الخاضع للإشراف وغير الخاضع للإشراف.
كيف يتم استخدام بيانات التدريب في التعلم الآلي
على عكس خوارزميات التعلم الآلي ، تتبع خوارزميات البرمجة التقليدية مجموعة من التعليمات لقبول بيانات الإدخال وتقديم المخرجات. لا يعتمدون على البيانات التاريخية ، وكل إجراء يقومون به يعتمد على القواعد. هذا يعني أيضًا أنهم لا يتحسنون بمرور الوقت ، وهذا ليس هو الحال مع التعلم الآلي.
بالنسبة لنماذج التعلم الآلي ، تعتبر البيانات التاريخية علفًا. مثلما يعتمد البشر على التجارب السابقة لاتخاذ قرارات أفضل ، تنظر نماذج ML إلى مجموعة بيانات التدريب الخاصة بهم مع الملاحظات السابقة لعمل تنبؤات.
يمكن أن تشمل التنبؤات تصنيف الصور كما في حالة التعرف على الصور ، أو فهم سياق الجملة كما هو الحال في معالجة اللغة الطبيعية (NLP).
فكر في عالم البيانات كمدرس ، وخوارزمية التعلم الآلي كطالب ، ومجموعة بيانات التدريب على أنها مجموعة من جميع الكتب المدرسية.
يتطلع المعلم إلى أن يؤدي الطالب أداءً جيدًا في الاختبارات وأيضًا في العالم الحقيقي. في حالة خوارزميات ML ، يكون الاختبار مثل الامتحانات. تحتوي الكتب المدرسية (مجموعة بيانات التدريب) على عدة أمثلة لنوع الأسئلة التي سيتم طرحها في الاختبار.
نصيحة: تحقق من تحليلات البيانات الضخمة لمعرفة كيفية جمع البيانات الضخمة وتنظيمها وتنقيتها وتحليلها.
بالطبع ، لن يحتوي على جميع أمثلة الأسئلة التي سيتم طرحها في الاختبار ، ولن يتم طرح جميع الأمثلة المضمنة في الكتاب المدرسي في الاختبار. يمكن أن تساعد الكتب المدرسية في إعداد الطالب من خلال تعليمهم ما يمكن توقعه وكيفية الاستجابة.
لا يمكن أن يكتمل أي كتاب مدرسي بالكامل. مع مرور الوقت ، سيتغير نوع الأسئلة المطروحة ، وبالتالي ، يجب تغيير المعلومات الواردة في الكتب المدرسية. في حالة خوارزميات ML ، يجب تحديث مجموعة التدريب بشكل دوري لتشمل معلومات جديدة.
باختصار ، بيانات التدريب عبارة عن كتاب مدرسي يساعد علماء البيانات على إعطاء خوارزميات تعلم الآلة فكرة عما يمكن توقعه. على الرغم من أن مجموعة بيانات التدريب لا تحتوي على جميع الأمثلة الممكنة ، إلا أنها ستجعل الخوارزميات قادرة على إجراء تنبؤات.
بيانات التدريب مقابل بيانات الاختبار مقابل بيانات التحقق
تُستخدم بيانات التدريب في تدريب النموذج ، أو بمعنى آخر ، إنها البيانات المستخدمة لتناسب النموذج. على العكس من ذلك ، يتم استخدام بيانات الاختبار لتقييم أداء أو دقة النموذج. إنها عينة من البيانات المستخدمة لإجراء تقييم غير متحيز للنموذج النهائي الملائم لبيانات التدريب.
مجموعة بيانات التدريب هي مجموعة بيانات أولية تعلم نماذج ML لتحديد الأنماط المرغوبة أو أداء مهمة معينة. تُستخدم مجموعة بيانات الاختبار لتقييم مدى فعالية التدريب أو مدى دقة النموذج.
بمجرد أن يتم تدريب خوارزمية ML على مجموعة بيانات معينة وإذا قمت باختبارها على نفس مجموعة البيانات ، فمن المرجح أن تتمتع بدقة عالية لأن النموذج يعرف ما يمكن توقعه. إذا كانت مجموعة بيانات التدريب تحتوي على جميع القيم المحتملة التي قد يواجهها النموذج في المستقبل ، فكلها جيدة وجيدة.
لكن هذا ليس هو الحال أبدًا. لا يمكن أن تكون مجموعة بيانات التدريب شاملة أبدًا ولا يمكنها تعليم كل شيء قد يواجهه النموذج في العالم الحقيقي. لذلك ، يتم استخدام مجموعة بيانات الاختبار ، التي تحتوي على نقاط بيانات غير مرئية ، لتقييم دقة النموذج.
ثم هناك بيانات التحقق . هذه مجموعة بيانات تستخدم للتقييم المتكرر أثناء مرحلة التدريب. على الرغم من أن النموذج يرى مجموعة البيانات هذه من حين لآخر ، إلا أنه لا يتعلم منها. يشار إلى مجموعة التحقق أيضًا باسم مجموعة التطوير أو مجموعة التطوير. يساعد على حماية النماذج من فرط التجهيز ونقص الملاءمة.
على الرغم من أن بيانات التحقق منفصلة عن بيانات التدريب ، فقد يحتفظ علماء البيانات بجزء من بيانات التدريب للتحقق من صحتها. ولكن بالطبع ، هذا يعني تلقائيًا أنه تم الاحتفاظ ببيانات التحقق من الصحة بعيدًا أثناء التدريب.
نصيحة: إذا كان لديك كمية محدودة من البيانات ، فيمكن استخدام تقنية تسمى التحقق المتقاطع لتقدير أداء النموذج. تتضمن هذه الطريقة التقسيم العشوائي لبيانات التدريب إلى مجموعات فرعية متعددة والاحتفاظ بواحدة للتقييم.
يستخدم الكثيرون المصطلحين "بيانات الاختبار" و "بيانات التحقق" بالتبادل. يتمثل الاختلاف الرئيسي بين الاثنين في استخدام بيانات التحقق للتحقق من صحة النموذج أثناء التدريب ، بينما يتم استخدام مجموعة الاختبار لاختبار النموذج بعد اكتمال التدريب.
تمنح مجموعة بيانات التحقق النموذج المذاق الأول للبيانات غير المرئية. ومع ذلك ، لا يقوم جميع علماء البيانات بإجراء فحص أولي باستخدام بيانات التحقق من الصحة. قد يتخطون هذا الجزء ويذهبون مباشرة إلى اختبار البيانات.
ما هو الإنسان في الحلقة؟
يشير مصطلح "الإنسان في الحلقة " إلى الأشخاص المشاركين في جمع وإعداد بيانات التدريب.

يتم جمع البيانات الأولية من مصادر متعددة ، بما في ذلك أجهزة إنترنت الأشياء ومنصات الوسائط الاجتماعية والمواقع الإلكترونية وتعليقات العملاء. بمجرد جمعها ، سيحدد الأفراد المشاركون في العملية السمات الحاسمة للبيانات التي تعد مؤشرات جيدة للنتيجة التي تريد أن يتنبأ بها النموذج.
يتم إعداد البيانات بتنظيفها ، واحتساب القيم المفقودة ، وإزالة القيم المتطرفة ، ووضع علامات على نقاط البيانات ، وتحميلها في أماكن مناسبة لتدريب خوارزميات ML. ستكون هناك أيضًا عدة جولات من عمليات فحص الجودة ؛ كما تعلم ، يمكن أن تؤثر التسميات غير الصحيحة بشكل كبير على دقة النموذج.
ما الذي يجعل بيانات التدريب جيدة؟
تُترجم البيانات عالية الجودة إلى نماذج دقيقة للتعلم الآلي.
يمكن أن تؤثر البيانات منخفضة الجودة بشكل كبير على دقة النماذج ، مما قد يؤدي إلى خسائر مالية فادحة. يكاد يكون الأمر أشبه بإعطاء الطالب كتابًا دراسيًا يحتوي على معلومات خاطئة وتوقع منه التفوق في الامتحان.
فيما يلي السمات الأربع الأساسية لبيانات تدريب الجودة.
ذو صلة
يجب أن تكون البيانات ذات صلة بالمهمة المطروحة. على سبيل المثال ، إذا كنت ترغب في تدريب أ رؤية الكمبيوتر خوارزمية للمركبات ذاتية القيادة ، فربما لن تحتاج إلى صور للفواكه والخضروات. بدلاً من ذلك ، ستحتاج إلى مجموعة بيانات تدريبية تحتوي على صور للطرق والأرصفة والمشاة والمركبات.
وكيل
يجب أن تحتوي بيانات تدريب الذكاء الاصطناعي على نقاط البيانات أو الميزات التي تم تصميم التطبيق للتنبؤ بها أو تصنيفها. بالطبع ، لا يمكن أن تكون مجموعة البيانات مطلقة أبدًا ، ولكن يجب أن تحتوي على الأقل على السمات التي من المفترض أن يتعرف عليها تطبيق الذكاء الاصطناعي.
على سبيل المثال ، إذا كان المقصود من النموذج التعرف على الوجوه داخل الصور ، فيجب تغذيته ببيانات متنوعة تحتوي على وجوه أشخاص من أعراق مختلفة. سيؤدي ذلك إلى تقليل مشكلة التحيز في الذكاء الاصطناعي ، ولن يكون النموذج متحيزًا ضد عرق أو جنس أو فئة عمرية معينة.
زي مُوحد
يجب أن يكون لجميع البيانات نفس السمة ويجب أن تأتي من نفس المصدر.
افترض أن مشروع التعلم الآلي الخاص بك يهدف إلى التنبؤ بمعدل التغيير من خلال النظر إلى معلومات العميل. لذلك ، سيكون لديك قاعدة بيانات لمعلومات العملاء تتضمن اسم العميل ، والعنوان ، وعدد الطلبات ، وتكرار الطلب ، وغيرها من المعلومات ذات الصلة. هذه بيانات تاريخية ويمكن استخدامها كبيانات تدريب.
لا يمكن أن يحتوي جزء واحد من البيانات على معلومات إضافية ، مثل العمر أو الجنس. سيؤدي ذلك إلى جعل بيانات التدريب غير كاملة والنموذج غير دقيق. باختصار ، يعد التوحيد جانبًا مهمًا لبيانات التدريب عالية الجودة.
شاملة
مرة أخرى ، لا يمكن أن تكون بيانات التدريب مطلقة أبدًا. ولكن يجب أن تكون مجموعة بيانات كبيرة تمثل غالبية حالات استخدام النموذج. يجب أن تحتوي بيانات التدريب على أمثلة كافية تسمح للنموذج بالتعلم بشكل مناسب. يجب أن تحتوي على عينات بيانات من العالم الحقيقي لأنها ستساعد في تدريب النموذج لفهم ما يمكن توقعه.
إذا كنت تفكر في بيانات التدريب كقيم موضوعة في أعداد كبيرة من الصفوف والأعمدة ، فأسف ، فأنت مخطئ. يمكن أن يكون أي نوع بيانات مثل النص أو الصور أو الصوت أو مقاطع الفيديو.
ما الذي يؤثر على جودة بيانات التدريب؟
البشر مخلوقات اجتماعية للغاية ، ولكن هناك بعض التحيزات التي ربما اخترناها كأطفال وتتطلب جهدًا واعيًا مستمرًا للتخلص منها. على الرغم من أن هذه التحيزات غير مواتية ، إلا أنها قد تؤثر على إبداعاتنا ، ولا تختلف تطبيقات التعلم الآلي.
بالنسبة لنماذج ML ، فإن بيانات التدريب هي الكتاب الوحيد الذي يقرؤونه. سيعتمد أداؤهم أو دقتهم على مدى شمولية الكتاب وملاءمته وتمثيله.
ومع ذلك ، هناك ثلاثة عوامل تؤثر على جودة بيانات التدريب:
الأشخاص: الأشخاص الذين يقومون بتدريب النموذج لهم تأثير كبير على دقته أو أدائه. إذا كانوا متحيزين ، فسيؤثر ذلك بشكل طبيعي على كيفية وضع علامة على البيانات ، وفي النهاية ، على كيفية عمل نموذج ML.
العمليات: يجب أن تخضع عملية توسيم البيانات لفحوصات صارمة لمراقبة الجودة. سيؤدي ذلك إلى زيادة جودة بيانات التدريب بشكل كبير.
الأدوات: يمكن أن تؤدي الأدوات غير المتوافقة أو القديمة إلى تدهور جودة البيانات. يمكن أن يؤدي استخدام برنامج قوي لوضع العلامات على البيانات إلى تقليل التكلفة والوقت المرتبطين بالعملية.
من أين تحصل على بيانات التدريب
هناك عدة طرق للحصول على بيانات التدريب. يمكن أن يختلف اختيارك للمصادر اعتمادًا على حجم مشروع التعلم الآلي الخاص بك والميزانية والوقت المتاح. فيما يلي المصادر الثلاثة الأساسية لجمع البيانات.
بيانات التدريب مفتوحة المصدر
يعتمد معظم مطوري تعلم الآلة الهواة والشركات الصغيرة التي لا تستطيع تحمل تكاليف جمع البيانات أو وضع العلامات على بيانات تدريب مفتوحة المصدر. إنه اختيار سهل لأنه تم جمعه بالفعل ومجانيًا. ومع ذلك ، سيكون عليك على الأرجح تعديل مجموعات البيانات هذه أو إعادة شرحها لتلائم احتياجاتك التدريبية. تعد ImageNet و Kaggle و Google Dataset Search بعض الأمثلة على مجموعات البيانات مفتوحة المصدر.
الإنترنت وإنترنت الأشياء
تجمع معظم الشركات متوسطة الحجم البيانات باستخدام الإنترنت وأجهزة إنترنت الأشياء. تساعد الكاميرات وأجهزة الاستشعار والأجهزة الذكية الأخرى في جمع البيانات الأولية ، والتي سيتم تنظيفها والتعليق عليها لاحقًا. سيتم تصميم طريقة جمع البيانات هذه خصيصًا وفقًا لمتطلبات مشروع التعلم الآلي الخاص بك ، على عكس مجموعات البيانات مفتوحة المصدر. ومع ذلك ، فإن تنظيف البيانات وتوحيدها ووضع العلامات عليها عملية تستغرق وقتًا طويلاً وتستهلك الكثير من الموارد.
بيانات التدريب الاصطناعي
كما يوحي الاسم ، يتم إنشاء بيانات التدريب الاصطناعي بشكل مصطنع باستخدام نماذج التعلم الآلي. تسمى أيضًا البيانات التركيبية ، وهي خيار ممتاز إذا كنت تحتاج إلى بيانات تدريب جيدة النوعية مع ميزات محددة لتدريب خوارزمية. بالطبع ، ستتطلب هذه الطريقة كميات كبيرة من الموارد الحسابية ووقتًا كافيًا.
ما مقدار بيانات التدريب الكافية؟
لا توجد إجابة محددة لمقدار بيانات التدريب التي تعد بيانات تدريب كافية. يعتمد ذلك على الخوارزمية التي تقوم بتدريبها - نتيجتها المتوقعة ، والتطبيق ، والتعقيد ، والعديد من العوامل الأخرى.
لنفترض أنك تريد تدريب مصنف نصوص يصنف الجمل بناءً على ظهور المصطلحين "قطة" و "كلب" ومرادفاتهما مثل "قطة" أو "قطة" أو "هرة" أو "جرو" أو "هزلي" . قد لا يتطلب هذا مجموعة بيانات كبيرة حيث لا يوجد سوى عدد قليل من المصطلحات للمطابقة والفرز.
ولكن ، إذا كان هذا مصنفًا للصور يصنف الصور على أنها "قطط" و "كلاب" ، فإن عدد نقاط البيانات المطلوبة في مجموعة بيانات التدريب سوف يرتفع بشكل كبير. باختصار ، تلعب العديد من العوامل دورًا في تحديد بيانات التدريب التي تعد بيانات تدريب كافية.
ستتغير كمية البيانات المطلوبة اعتمادًا على الخوارزمية المستخدمة.
للسياق ، يتطلب التعلم العميق ، وهو مجموعة فرعية من التعلم الآلي ، الملايين من نقاط البيانات لتدريب الشبكات العصبية الاصطناعية (ANNs). في المقابل ، لا تتطلب خوارزميات التعلم الآلي سوى آلاف نقاط البيانات. لكن بالطبع ، هذا تعميم بعيد المنال لأن كمية البيانات المطلوبة تختلف باختلاف التطبيق.
كلما دربت النموذج ، كلما أصبح أكثر دقة. لذلك من الأفضل دائمًا الحصول على كمية كبيرة من البيانات كبيانات تدريبية.
القمامة في الداخل ، والقمامة خارج
تعتبر عبارة "إدخال القمامة ، وإخراجها" واحدة من أقدم العبارات وأكثرها استخدامًا في علم البيانات. حتى مع نمو معدل توليد البيانات بشكل كبير ، فإنه لا يزال صحيحًا.
المفتاح هو تغذية البيانات التمثيلية عالية الجودة لخوارزميات التعلم الآلي. يمكن أن يؤدي القيام بذلك إلى تحسين دقة النماذج بشكل كبير. تعد بيانات التدريب عالية الجودة ضرورية أيضًا لإنشاء تطبيقات غير متحيزة للتعلم الآلي.
هل تساءلت يومًا عن أي أجهزة كمبيوتر تتمتع بذكاء شبيه بالإنسان ستكون قادرة على القيام به؟ يُعرف الكمبيوتر المكافئ للذكاء البشري بالذكاء العام الاصطناعي ، وما زلنا في انتظار ما إذا كان سيكون أعظم أو أخطر اختراع على الإطلاق.