تحليل البيانات الاستكشافية: التأثير على علم البيانات
نشرت: 2022-05-25عالم الرياضيات الأمريكي جون توكي طور في الأصل تحليل البيانات الاستكشافية (EDA) في السبعينيات. لا تزال تقنيات EDA حتى يومنا هذا طريقة مستخدمة على نطاق واسع في عملية اكتشاف البيانات. إلى جانب النمذجة الرسمية أو اختبار الفرضيات ، تفتح أكاديمية الإمارات الدبلوماسية بابًا واسعًا لفهم متغيرات مجموعة البيانات وعلاقاتها بشكل أفضل. كما أنه يساعد في تحديد ما إذا كانت التقنية الإحصائية التي تم أخذها في الاعتبار لتحليل البيانات مناسبة أم لا.
ما هو تحليل البيانات الاستكشافية؟
يستخدم علماء البيانات تحليل البيانات الاستكشافية (EDA) على نطاق واسع أثناء تحليل مجموعات البيانات والتحقيق فيها ، وتلخيص الخصائص الرئيسية للبيانات لطريقة التصور. يساعد عالم البيانات على اكتشاف أنماط البيانات ، وتحديد الحالات الشاذة ، واختبار الفرضيات ، و / أو الافتراضات.
لذلك بطريقة بسيطة ، يمكن تعريفها على أنها طريقة تساعد عالم البيانات على تحديد أفضل الطرق للتعامل مع مصدر البيانات المحدد للحصول على الإجابة المطلوبة كهدف.
ما مدى أهمية تحليل البيانات الاستكشافية في علم البيانات
الغرض الأساسي من EDA هو المساعدة في إلقاء نظرة عميقة على مجموعة البيانات قبل وضع أي افتراضات ، وتحديد الأخطاء الواضحة ، واكتساب فهم أفضل للأنماط داخل مجموعة البيانات ، واكتشاف القيم المتطرفة و / أو الأحداث الشاذة ، وأخيراً وليس آخراً ، اكتشف العلاقات المثيرة بين المتغيرات.
تحليل البيانات الاستكشافية مهم للغاية لتحليل البيانات في مجال علوم البيانات. أولاً ، يتم استخدام EDA لضمان أن النتائج التي ينتجها علماء البيانات صحيحة وقابلة للتطبيق على أي أهداف مرغوبة. ثانيًا ، تساعد أكاديمية الإمارات الدبلوماسية أصحاب المصلحة على التأكد من أنهم يطرحون دائمًا الأسئلة الصحيحة. كما أنه يساعد في الإجابة عن الأسئلة المتعلقة بالانحرافات المعيارية والمتغيرات الفئوية وفترات الثقة. أخيرًا ، بمجرد اكتمال EDA واستخلاص الأفكار ، يمكن بعد ذلك استخدام ميزاتها لتحليل البيانات أو النمذجة الأكثر تعقيدًا ، بما في ذلك التعلم الآلي.
أنواع تحليل البيانات الاستكشافية
حسنًا ، هناك أربعة أنواع أساسية من EDA:
أحادي المتغير غير رسومية:
أحادي المتغير غير رسومية هو أبسط شكل من أشكال تحليل البيانات. هنا يتكون من متغير واحد فقط. كونه متغيرًا واحدًا ، فإنه لا يتعامل مع الأسباب أو العلاقات. بدلاً من ذلك ، فإن الغرض الأساسي من التحليل أحادي المتغير هو وصف البيانات والعثور على الأنماط بداخلها.
رسومية أحادية المتغير
لا يمكن للأساليب غير الرسومية تقديم صورة كاملة للبيانات. لذلك فإن الأساليب الرسومية مطلوبة هنا. الأنواع الشائعة للرسومات أحادية المتغير هي:
- مخططات الجذعية والأوراق: تُظهر جميع قيم البيانات وشكل التوزيع.
- رسم بياني مخطط شريطي: حيث يمثل كل شريط التكرار (العدد) أو النسبة (العدد / العدد الإجمالي) للحالات لنطاق من القيم.
- مخططات الصندوق: تصور بيانياً الملخص المكون من خمسة أرقام للحد الأدنى والربيع الأول والمتوسط والربيع الثالث والحد الأقصى.
متعدد المتغيرات غير رسومية
تنشأ البيانات متعددة المتغيرات من أكثر من متغير واحد. بشكل عام ، تُظهر تقنيات EDA متعددة المتغيرات غير الرسومية العلاقة بين متغيرين أو أكثر من متغيرات البيانات من خلال الجدولة المتقاطعة أو الإحصائيات.

رسومية متعددة المتغيرات
تستخدم البيانات متعددة المتغيرات الرسومات أثناء عرض العلاقات بين مجموعتين أو أكثر من مجموعة البيانات. الرسم الأكثر استخدامًا هو مخطط شريطي مجمع أو مخطط شريطي حيث تمثل كل مجموعة مستوى واحدًا من أحد المتغيرات وكل شريط داخل مجموعة يمثل مستويات المتغير الآخر.
تشمل الأنواع الشائعة الأخرى للرسومات متعددة المتغيرات ما يلي:
- مخطط مبعثر: يُستخدم لرسم نقاط البيانات على محور أفقي وعمودي لإظهار مدى تأثر متغير بآخر.
- مخطط متعدد المتغيرات: هو تمثيل رسومي للعلاقات بين العوامل والاستجابة.
- تشغيل الرسم البياني: هو رسم بياني خطي للبيانات المرسومة بمرور الوقت.
- المخطط الفقاعي: هو تصور بيانات يعرض دوائر متعددة (فقاعات) في مخطط ثنائي الأبعاد.
- خريطة الحرارة: هي تمثيل رسومي للبيانات حيث يتم تصوير القيم حسب اللون.
أدوات تحليل البيانات الاستكشافية
هناك العديد من الأدوات المتاحة لتحليل البيانات الاستكشافية. ومن أشهرها R و Python و SAS. ومع ذلك ، لكل منها نقاط قوتها وضعفها ، لذا فإن اختيار الأداة المناسبة للوظيفة أمر ضروري.
R هي أداة ممتازة لتصور البيانات. يحتوي على مجموعة متنوعة من المؤامرات والرسوم البيانية التي يمكن استخدامها لاستكشاف البيانات. كما أن لديها الكثير من الوظائف الإحصائية التي يمكن استخدامها لإجراء تحليلات أكثر تقدمًا.
Python هي أداة رائعة أخرى لـ EDA. يحتوي على العديد من نفس ميزات R ، ولكنه أيضًا أكثر سهولة في الاستخدام. نتيجة لذلك ، تعد Python اختيارًا ممتازًا للمبتدئين الذين يرغبون في البدء في تحليل البيانات.
SAS عبارة عن حزمة برامج إحصائية قوية يمكن استخدامها في EDA. تعتبر SAS أغلى من R و Python ، لكنها تستحق الاستثمار إذا كنت بحاجة إلى إجراء حسابات أكثر تعقيدًا.
QuestionPro وتحليل البيانات الاستكشافية
يمكنك دائمًا الحصول على بياناتك من مصدر بيانات مختلف ، ويمكن أن يساعدك برنامج QuestionPro بالتأكيد في جمع بيانات الاستطلاع من قنوات متعددة. ولكن ماذا يحدث عندما تريد تجاوز البيانات التي تم جمعها بالفعل؟ هذا هو المكان الذي يأتي فيه تحليل البيانات الاستكشافية.
تسهل أدوات التحليل المضمنة في QuestionPro من بدء استخدام EDA. يمكنك مشاهدة إحصائيات موجزة لبياناتك بسرعة وإنشاء تصورات تفاعلية والمزيد. ولأن QuestionPro تتكامل مع R ، يمكنك استخدام جميع الأدوات الإحصائية القوية التي تقدمها R.
لذلك إذا كنت مستعدًا لنقل تحليل البيانات إلى المستوى التالي ، فإن QuestionPro هي إحدى الأدوات المثالية.
استنتاج
أخيرًا ، يمكننا القول أن تحليل البيانات الاستكشافية هو منهجية مثبتة يمكن أن تساعد علماء البيانات على فهم مجموعات البيانات المعقدة. باستخدام التصورات والأساليب الأخرى ، يمكنك الكشف عن الأنماط والعلاقات التي ربما لم تجدها بطريقة أخرى.
لذلك ، تعد أكاديمية الإمارات الدبلوماسية جزءًا أساسيًا من أي تحليل للبيانات ، ونأمل أن يكون هذا المقال قد أعطاك مقدمة رائعة للموضوع.
اكتشف المزيد حول QuestionPro والمعلومات حول تحليل البيانات الاستكشافية من خلال الاشتراك في Questionpro.com
المؤلفون: مصدق شيخ وابهيشيك باشوري