ما هي المعالجة المسبقة للبيانات؟ 4 خطوات حاسمة للقيام بذلك بشكل صحيح
نشرت: 2021-08-06تكون بيانات العالم الحقيقي في معظم الحالات غير مكتملة وصاخبة وغير متسقة.
مع توليد البيانات المتزايد بشكل أسي والعدد المتزايد من مصادر البيانات غير المتجانسة ، فإن احتمال جمع البيانات الشاذة أو غير الصحيحة مرتفع للغاية.
لكن البيانات عالية الجودة فقط هي التي يمكن أن تؤدي إلى نماذج دقيقة ، وفي النهاية ، تنبؤات دقيقة. وبالتالي ، من الضروري معالجة البيانات للحصول على أفضل جودة ممكنة. تسمى هذه الخطوة في معالجة البيانات المعالجة المسبقة للبيانات ، وهي إحدى الخطوات الأساسية في علم البيانات ، التعلم الآلي والذكاء الاصطناعي.
ما هي معالجة البيانات؟
المعالجة المسبقة للبيانات هي عملية تحويل البيانات الأولية إلى تنسيق مفيد ومفهوم. عادةً ما تحتوي البيانات الواقعية أو الأولية على تنسيق غير متسق وأخطاء بشرية ويمكن أن تكون أيضًا غير كاملة. تحل المعالجة المسبقة للبيانات مثل هذه المشكلات وتجعل مجموعات البيانات أكثر اكتمالًا وكفاءة لإجراء تحليل البيانات.
إنها عملية حاسمة يمكن أن تؤثر على نجاح مشاريع التنقيب عن البيانات والتعلم الآلي. إنه يجعل اكتشاف المعرفة من مجموعات البيانات أسرع ويمكن أن يؤثر في النهاية على أداء نماذج التعلم الآلي.
45٪
من وقت عالم البيانات الذي يقضيه في مهام إعداد البيانات.
المصدر: داتانامي
بمعنى آخر ، تقوم المعالجة المسبقة للبيانات بتحويل البيانات إلى شكل يمكن لأجهزة الكمبيوتر العمل عليه بسهولة. إنه يجعل تحليل البيانات أو التصور أسهل ويزيد من دقة وسرعة خوارزميات التعلم الآلي التي تتدرب على البيانات.
لماذا المعالجة المسبقة للبيانات مطلوبة؟
كما تعلم ، قاعدة البيانات هي مجموعة من نقاط البيانات. تسمى نقاط البيانات أيضًا الملاحظات وعينات البيانات والأحداث والسجلات.
يتم وصف كل عينة باستخدام خصائص مختلفة ، تُعرف أيضًا باسم الميزات أو السمات . تعتبر المعالجة المسبقة للبيانات ضرورية لبناء نماذج فعالة بهذه الميزات.
يمكن أن تنشأ مشاكل عديدة أثناء جمع البيانات. قد تضطر إلى تجميع البيانات من مصادر بيانات مختلفة ، مما يؤدي إلى عدم تطابق تنسيقات البيانات ، مثل عدد صحيح وعائم.
نصيحة: استخدم إمكانات التشغيل الآلي لـ برنامج التعلم الآلي ونقول وداعا لتلك المهام الشاقة.
إذا كنت تقوم بتجميع البيانات من مجموعتين أو أكثر من مجموعات البيانات المستقلة ، فقد يحتوي حقل الجنس على قيمتين مختلفتين للرجال: رجل ورجل. وبالمثل ، إذا كنت تقوم بتجميع البيانات من عشر مجموعات بيانات مختلفة ، فقد يكون الحقل الموجود في ثمانية منها مفقودًا في الباقيين.
من خلال المعالجة المسبقة للبيانات ، نجعل من السهل تفسيرها واستخدامها. تعمل هذه العملية على التخلص من التناقضات أو التكرارات في البيانات ، والتي يمكن أن تؤثر سلبًا على دقة النموذج. تضمن المعالجة المسبقة للبيانات أيضًا عدم وجود أي قيم غير صحيحة أو مفقودة بسبب خطأ بشري أو أخطاء. باختصار ، فإن استخدام تقنيات المعالجة المسبقة للبيانات يجعل قاعدة البيانات أكثر اكتمالاً ودقة.
خصائص بيانات الجودة
بالنسبة لخوارزميات التعلم الآلي ، لا شيء أكثر أهمية من الجودة بيانات التدريب. يعتمد أداؤها أو دقتها على مدى ملاءمة البيانات وتمثيلها وشمولها.
قبل النظر في كيفية معالجة البيانات مسبقًا ، دعنا نلقي نظرة على بعض العوامل التي تساهم في جودة البيانات.
- الدقة: كما يوحي الاسم ، تعني الدقة أن المعلومات صحيحة. يمكن أن تؤثر المعلومات القديمة والأخطاء المطبعية والتكرار على دقة مجموعة البيانات.
- الاتساق: يجب ألا تحتوي البيانات على أي تناقضات. قد تمنحك البيانات غير المتسقة إجابات مختلفة عن نفس السؤال.
- الاكتمال: يجب ألا تحتوي مجموعة البيانات على حقول غير مكتملة أو أن تفتقر إلى الحقول الفارغة. تسمح هذه الخاصية لعلماء البيانات بإجراء تحليلات دقيقة حيث يمكنهم الوصول إلى صورة كاملة للموقف الذي تصفه البيانات.
- الصلاحية: تعتبر مجموعة البيانات صالحة إذا ظهرت عينات البيانات بالتنسيق الصحيح ، وضمن نطاق محدد ، وكانت من النوع الصحيح. يصعب تنظيم وتحليل مجموعات البيانات غير الصالحة.
- حسن التوقيت: يجب جمع البيانات بمجرد وقوع الحدث الذي تمثله. مع مرور الوقت ، تصبح كل مجموعة بيانات أقل دقة وفائدة لأنها لا تمثل الواقع الحالي. لذلك ، تعد أهمية البيانات وأهميتها من الخصائص الهامة لجودة البيانات.
المراحل الأربع للمعالجة المسبقة للبيانات
بالنسبة لنماذج التعلم الآلي ، تعتبر البيانات علفًا.
يمكن أن تؤدي مجموعة التدريب غير المكتملة إلى عواقب غير مقصودة مثل التحيز ، مما يؤدي إلى ميزة غير عادلة أو ضرر لمجموعة معينة من الناس. يمكن أن تؤثر البيانات غير المكتملة أو غير المتسقة سلبًا على نتائج مشاريع التنقيب عن البيانات أيضًا. لحل مثل هذه المشاكل ، يتم استخدام عملية المعالجة المسبقة للبيانات.
هناك أربع مراحل لمعالجة البيانات: التنظيف ، والتكامل ، والحد ، والتحويل.
1. تنظيف البيانات
تنظيف البيانات أو تنظيفها هي عملية تنظيف مجموعات البيانات من خلال احتساب القيم المفقودة ، وإزالة القيم المتطرفة ، وتصحيح نقاط البيانات غير المتسقة ، وتنعيم البيانات المشوشة. في الأساس ، الدافع وراء تنظيف البيانات هو تقديم عينات كاملة ودقيقة لنماذج التعلم الآلي.
التقنيات المستخدمة في تنظيف البيانات خاصة بتفضيلات عالم البيانات والمشكلة التي يحاولون حلها. فيما يلي نظرة سريعة على المشكلات التي تم حلها أثناء تنظيف البيانات والتقنيات المستخدمة.
قيم مفقودة
مشكلة قيم البيانات المفقودة شائعة جدًا. قد يحدث ذلك أثناء جمع البيانات أو بسبب بعض القواعد المحددة للتحقق من صحة البيانات. في مثل هذه الحالات ، تحتاج إلى جمع عينات بيانات إضافية أو البحث عن مجموعات بيانات إضافية.
يمكن أن تنشأ مشكلة القيم المفقودة أيضًا عند ربط مجموعتين أو أكثر من مجموعات البيانات لتكوين مجموعة بيانات أكبر. إذا لم تكن جميع الحقول موجودة في مجموعتي البيانات ، فمن الأفضل حذف هذه الحقول قبل الدمج.
فيما يلي بعض الطرق لحساب البيانات المفقودة:
- املأ القيم المفقودة يدويًا. يمكن أن يكون هذا نهجًا مملاً ويستغرق وقتًا طويلاً ولا يوصى به لمجموعات البيانات الكبيرة.
- استخدم قيمة قياسية لاستبدال قيمة البيانات المفقودة. يمكنك استخدام ثابت عالمي مثل "غير معروف" أو "غير متاح" لاستبدال القيمة المفقودة. على الرغم من أنه نهج مباشر ، إلا أنه ليس مضمونًا.
- املأ القيمة الناقصة بالقيمة الأكثر احتمالًا. للتنبؤ بالقيمة المحتملة ، يمكنك استخدام خوارزميات مثل الانحدار اللوجستي أو أشجار القرار.
- استخدم اتجاه مركزي لاستبدال القيمة المفقودة. الاتجاه المركزي هو ميل القيمة إلى التجمع حول وسطها أو وضعها أو متوسطها.
إذا كانت 50 بالمائة من القيم لأي من الصفوف أو الأعمدة في قاعدة البيانات مفقودة ، فمن الأفضل حذف الصف أو العمود بأكمله ما لم يكن من الممكن ملء القيم باستخدام أي من الطرق المذكورة أعلاه.
بيانات صاخبة
كمية كبيرة من البيانات التي لا معنى لها تسمى الضوضاء . بتعبير أدق ، هو التباين العشوائي في متغير مُقاس أو البيانات التي تحتوي على قيم سمات غير صحيحة. تتضمن الضوضاء مكررة أو شبه مكررة من نقاط البيانات ، أو أجزاء البيانات التي لا قيمة لها لعملية بحث معينة ، أو حقول المعلومات غير المرغوب فيها.
على سبيل المثال ، إذا كنت بحاجة إلى توقع ما إذا كان الشخص قادرًا على القيادة ، فإن المعلومات المتعلقة بلون شعره أو طوله أو وزنه ستكون غير ذات صلة.
يمكن التعامل مع الخارج على أنه ضوضاء ، على الرغم من أن البعض يعتبره نقطة بيانات صالحة. افترض أنك تقوم بتدريب خوارزمية لاكتشاف السلاحف في الصور. قد تحتوي مجموعة بيانات الصورة على صور للسلاحف مصنفة بشكل خاطئ على أنها سلاحف. يمكن اعتبار هذا ضوضاء.
ومع ذلك ، يمكن أن تكون هناك صورة سلحفاة تشبه السلحفاة أكثر من كونها سلحفاة. يمكن اعتبار هذه العينة متقطعة وليس بالضرورة ضوضاء. هذا لأننا نريد تعليم الخوارزمية جميع الطرق الممكنة لاكتشاف السلاحف ، وبالتالي ، فإن الانحراف عن المجموعة ضروري.
للقيم الرقمية ، يمكنك استخدام مخطط مبعثر أو مخطط مربع لتعريف القيم المتطرفة.
فيما يلي بعض الطرق المستخدمة لحل مشكلة الضوضاء:
- الانحدار: يمكن أن يساعد تحليل الانحدار في تحديد المتغيرات التي لها تأثير. سيمكنك هذا من العمل مع الميزات الأساسية فقط بدلاً من تحليل كميات كبيرة من البيانات. يمكن استخدام كل من الانحدار الخطي والانحدار الخطي المتعدد لتسهيل البيانات.
- Binning: يمكن استخدام طرق Binning لمجموعة من البيانات التي تم فرزها. يقومون بتسوية قيمة تم فرزها من خلال النظر إلى القيم المحيطة بها. ثم يتم تقسيم القيم التي تم فرزها إلى "صناديق" ، مما يعني فرز البيانات إلى أجزاء أصغر من نفس الحجم. توجد تقنيات مختلفة للتجميع ، بما في ذلك التنعيم بوسائل الحاوية والتسوية بواسطة متوسطات bin.
- التجميع: يمكن استخدام خوارزميات التجميع مثل تجميع الوسائل k لتجميع البيانات واكتشاف القيم المتطرفة في العملية.
2. تكامل البيانات
نظرًا لأنه يتم جمع البيانات من مصادر مختلفة ، فإن تكامل البيانات يعد جزءًا مهمًا من إعداد البيانات. قد يؤدي التكامل إلى عدة نقاط بيانات غير متسقة ومتكررة ، مما يؤدي في النهاية إلى نماذج ذات دقة أقل.

فيما يلي بعض الطرق لدمج البيانات:
- توحيد البيانات: يتم تجميع البيانات فعليًا معًا وتخزينها في مكان واحد. يؤدي وجود جميع البيانات في مكان واحد إلى زيادة الكفاءة والإنتاجية. تتضمن هذه الخطوة عادةً استخدام برنامج مستودع البيانات.
- افتراضية البيانات: في هذا النهج ، توفر الواجهة عرضًا موحدًا في الوقت الفعلي للبيانات من مصادر متعددة. بمعنى آخر ، يمكن عرض البيانات من وجهة نظر واحدة.
- نشر البيانات: يتضمن نسخ البيانات من موقع إلى آخر بمساعدة تطبيقات محددة. يمكن أن تكون هذه العملية متزامنة أو غير متزامنة وعادة ما تكون مدفوعة بالأحداث.
3. تقليل البيانات
كما يوحي الاسم ، يتم استخدام تقليل البيانات لتقليل كمية البيانات وبالتالي تقليل التكاليف المرتبطة باستخراج البيانات أو تحليل البيانات.
يقدم تمثيلًا مكثفًا لمجموعة البيانات. على الرغم من أن هذه الخطوة تقلل الحجم ، إلا أنها تحافظ على سلامة البيانات الأصلية. تعد خطوة المعالجة المسبقة للبيانات هذه حاسمة بشكل خاص عند العمل مع البيانات الضخمة لأن كمية البيانات المعنية ستكون هائلة.
فيما يلي بعض التقنيات المستخدمة لتقليل البيانات.
تخفيض الأبعاد
يقلل تقليل الأبعاد ، المعروف أيضًا باسم تقليل الأبعاد ، من عدد الميزات أو متغيرات الإدخال في مجموعة البيانات.
يُطلق على عدد الميزات أو متغيرات الإدخال لمجموعة البيانات أبعادها. كلما زاد عدد الميزات ، زادت صعوبة تصور مجموعة بيانات التدريب وإنشاء نموذج تنبؤي.
في بعض الحالات ، تكون معظم هذه الصفات مترابطة ، وبالتالي فهي زائدة عن الحاجة ؛ لذلك ، يمكن استخدام خوارزميات تقليل الأبعاد لتقليل عدد المتغيرات العشوائية والحصول على مجموعة من المتغيرات الرئيسية.
هناك قسمان لتقليل الأبعاد: اختيار الميزة واستخراج الميزة.
في اختيار الميزة ، نحاول العثور على مجموعة فرعية من مجموعة الميزات الأصلية. يتيح لنا ذلك الحصول على مجموعة فرعية أصغر يمكن استخدامها لتصور المشكلة باستخدام نمذجة البيانات. من ناحية أخرى ، يقلل استخراج الميزات البيانات الموجودة في مساحة عالية الأبعاد إلى مساحة ذات أبعاد أقل ، أو بمعنى آخر ، مساحة ذات عدد أقل من الأبعاد.
فيما يلي بعض الطرق لأداء تقليل الأبعاد:
- تحليل المكون الأساسي (PCA): تقنية إحصائية تُستخدم لاستخراج مجموعة جديدة من المتغيرات من مجموعة كبيرة من المتغيرات. تسمى المتغيرات المستخرجة حديثًا المكونات الأساسية. تعمل هذه الطريقة فقط مع المعالم ذات القيم العددية.
- مرشح الارتباط العالي: تقنية تستخدم للعثور على سمات شديدة الارتباط وإزالتها ؛ خلاف ذلك ، يمكن أن يؤدي زوج من المتغيرات شديدة الارتباط إلى زيادة العلاقة الخطية المتعددة في مجموعة البيانات.
- نسبة القيم المفقودة: تزيل هذه الطريقة السمات التي تحتوي على قيم مفقودة أكثر من حد معين.
- مرشح التباين المنخفض: يتضمن إزالة السمات التي تمت تسويتها التي لها تباين أقل من قيمة الحد حيث أن التغييرات الطفيفة في البيانات تترجم إلى معلومات أقل.
- الغابة العشوائية: تُستخدم هذه التقنية لتقييم أهمية كل ميزة في مجموعة البيانات ، مما يسمح لنا بالاحتفاظ فقط بأهم الميزات.
تشمل تقنيات تقليل الأبعاد الأخرى تحليل العوامل ، وتحليل المكونات المستقلة ، والتحليل التمييزي الخطي (LDA).
اختيار مجموعة فرعية الميزة
اختيار مجموعة الميزات الفرعية هو عملية اختيار مجموعة فرعية من الميزات أو السمات التي تساهم أكثر أو الأكثر أهمية.
افترض أنك تحاول التنبؤ بما إذا كان الطالب سينجح أو يفشل من خلال النظر في البيانات التاريخية لطلاب مشابهين. لديك مجموعة بيانات بأربع ميزات: عدد القوائم ، وإجمالي العلامات ، وساعات الدراسة ، والأنشطة اللامنهجية.
في هذه الحالة ، لا تؤثر أرقام القوائم على أداء الطلاب ويمكن التخلص منها. ستحتوي المجموعة الفرعية الجديدة على ثلاث ميزات فقط وستكون أكثر كفاءة من المجموعة الأصلية.
يمكن أن يساعد نهج تقليل البيانات هذا في إنشاء نماذج تعلم آلي أسرع وأكثر فعالية من حيث التكلفة. يمكن أيضًا اختيار مجموعة السمات الفرعية في خطوة تحويل البيانات.
تخفيض العد
تقليل العدد هو عملية استبدال البيانات الأصلية بنموذج أصغر من تمثيل البيانات. هناك طريقتان للقيام بذلك: الأساليب البارامترية وغير المعلمية.
تستخدم الطرق البارامترية نماذج لتمثيل البيانات. يتم استخدام أساليب اللوغاريتم الخطي والانحدار لإنشاء مثل هذه النماذج. في المقابل ، تخزن الطرق غير المعلمية تمثيلات بيانات مخفضة باستخدام التجميع ، والمدرج التكراري ، وتجميع مكعب البيانات ، وأخذ عينات البيانات.
4. تحويل البيانات
تحويل البيانات هو عملية تحويل البيانات من تنسيق إلى آخر. في جوهرها ، يتضمن طرقًا لتحويل البيانات إلى تنسيقات مناسبة يمكن للكمبيوتر التعلم منها بكفاءة.
على سبيل المثال ، يمكن أن تكون وحدات السرعة ميلًا في الساعة أو مترًا في الثانية أو كيلومترًا في الساعة. لذلك قد تخزن مجموعة البيانات قيم سرعة السيارة في وحدات مختلفة على هذا النحو. قبل تغذية هذه البيانات إلى خوارزمية ، نحتاج إلى تحويل البيانات إلى نفس الوحدة.
فيما يلي بعض الاستراتيجيات لتحويل البيانات.
التنعيم
يستخدم هذا النهج الإحصائي لإزالة الضوضاء من البيانات بمساعدة الخوارزميات. يساعد في إبراز أهم الميزات في مجموعة البيانات والتنبؤ بالأنماط. يتضمن أيضًا إزالة القيم المتطرفة من مجموعة البيانات لجعل الأنماط أكثر وضوحًا.
تجميع
يشير التجميع إلى تجميع البيانات من مصادر متعددة وتقديمها بتنسيق موحد لاستخراج البيانات أو تحليلها. يعد تجميع البيانات من مصادر مختلفة لزيادة عدد نقاط البيانات أمرًا ضروريًا حيث عندها فقط سيكون لدى نموذج ML أمثلة كافية للتعلم منها.
التكتم
يتضمن التكتم تحويل البيانات المستمرة إلى مجموعات من فترات زمنية أصغر. على سبيل المثال ، من الأفضل وضع الأشخاص في فئات مثل "المراهق" أو "الشباب البالغ" أو "منتصف العمر" أو "الأكبر سنًا" بدلاً من استخدام قيم العمر المستمر.
تعميم
يتضمن التعميم تحويل ميزات البيانات منخفضة المستوى إلى ميزات بيانات عالية المستوى. على سبيل المثال ، يمكن تعميم السمات الفئوية مثل عنوان المنزل على تعريفات ذات مستوى أعلى مثل المدينة أو الولاية.
تطبيع
يشير التطبيع إلى عملية تحويل جميع متغيرات البيانات إلى نطاق معين. بمعنى آخر ، يتم استخدامه لقياس قيم السمة بحيث تقع ضمن نطاق أصغر ، على سبيل المثال ، من 0 إلى 1. المقياس العشري والتطبيع الأدنى والحد الأقصى وتطبيع الدرجة z هي بعض طرق تسوية البيانات.
بناء الميزات
يتضمن إنشاء الميزات إنشاء ميزات جديدة من مجموعة الميزات المحددة. تعمل هذه الطريقة على تبسيط مجموعة البيانات الأصلية وتسهيل تحليل البيانات أو استخراجها أو تصورها.
جيل مفهوم التسلسل الهرمي
يتيح لك إنشاء التسلسل الهرمي للمفهوم إنشاء تسلسل هرمي بين الميزات ، على الرغم من عدم تحديده. على سبيل المثال ، إذا كانت لديك مجموعة بيانات لعنوان المنزل تحتوي على بيانات حول الشارع والمدينة والولاية والبلد ، فيمكن استخدام هذه الطريقة لتنظيم البيانات في أشكال هرمية.
بيانات دقيقة ونتائج دقيقة
خوارزميات التعلم الآلي مثل الأطفال. لديهم القليل أو لا يفهمون ما هو إيجابي أو غير موات. مثل كيف يبدأ الأطفال في تكرار اللغة البذيئة التي تم التقاطها من البالغين ، تؤثر البيانات غير الدقيقة أو غير المتسقة بسهولة على نماذج ML. المفتاح هو تزويدهم ببيانات دقيقة وعالية الجودة ، والتي تعتبر المعالجة المسبقة للبيانات فيها خطوة أساسية.
عادة ما يتم التحدث عن خوارزميات التعلم الآلي على أنها عمال شاقون. لكن هناك خوارزمية غالبًا ما يتم تصنيفها على أنها كسولة. يطلق عليه خوارزمية k-الأقرب للجوار وهي خوارزمية تصنيف ممتازة.