كيفية القيام بتحليل البيانات الاستكشافية (EDA) في R (مع أمثلة)
نشرت: 2022-11-11تعلم كل ما تحتاج لمعرفته حول تحليل البيانات الاستكشافية ، وهي عملية حاسمة تستخدم لاكتشاف الاتجاهات والأنماط وتلخيص مجموعات البيانات بمساعدة الملخصات الإحصائية والتمثيلات الرسومية.
مثل أي مشروع ، يعد مشروع علم البيانات عملية طويلة تتطلب وقتًا وتنظيمًا جيدًا واحترامًا صارمًا لعدة خطوات. يعد تحليل البيانات الاستكشافية (EDA) من أهم الخطوات في هذه العملية.
لذلك ، في هذه المقالة ، سننظر بإيجاز في ماهية تحليل البيانات الاستكشافية وكيف يمكنك إجراؤه باستخدام R!
ما هو تحليل البيانات الاستكشافية؟
يفحص تحليل البيانات الاستكشافية خصائص مجموعة البيانات ويدرسها قبل تقديمها إلى تطبيق ما ، سواء أكان ذلك متعلقًا بالأعمال التجارية أو الإحصاء أو التعلم الآلي.

عادة ما يتم هذا الملخص لطبيعة المعلومات وخصوصياتها الرئيسية من خلال الأساليب المرئية ، مثل التمثيلات الرسومية والجداول. يتم تنفيذ هذه الممارسة مسبقًا بدقة لتقييم إمكانات هذه البيانات ، والتي ستتلقى علاجًا أكثر تعقيدًا في المستقبل.
لذلك ، تسمح جمعية الإمارات للغوص بما يلي:
- صياغة فرضيات لاستخدام هذه المعلومات ؛
- استكشاف التفاصيل المخفية في هيكل البيانات ؛
- تحديد القيم المفقودة أو القيم المتطرفة أو السلوكيات غير الطبيعية ؛
- اكتشاف الاتجاهات والمتغيرات ذات الصلة ككل ؛
- تجاهل المتغيرات غير ذات الصلة أو المتغيرات المرتبطة بالآخرين ؛
- تحديد النمذجة الرسمية لاستخدامها.
ما هو الفرق بين تحليل البيانات الوصفية والاستكشافية؟
هناك نوعان من تحليل البيانات ، التحليل الوصفي ، وتحليل البيانات الاستكشافية ، والتي تسير جنبًا إلى جنب ، على الرغم من وجود أهداف مختلفة.
بينما يركز الأول على وصف سلوك المتغيرات ، على سبيل المثال ، المتوسط ، الوسيط ، الوضع ، إلخ.
يهدف التحليل الاستكشافي إلى تحديد العلاقات بين المتغيرات واستخراج الرؤى الأولية وتوجيه النمذجة إلى نماذج التعلم الآلي الأكثر شيوعًا: التصنيف والانحدار والتكتل.
بشكل مشترك ، قد يتعامل كلاهما مع التمثيل البياني ؛ ومع ذلك ، فإن التحليل الاستكشافي فقط هو الذي يسعى إلى تقديم رؤى قابلة للتنفيذ ، أي الرؤى التي تحفز على اتخاذ إجراء من قبل صانع القرار.
أخيرًا ، بينما يسعى تحليل البيانات الاستكشافية إلى حل المشكلات وتقديم الحلول التي ستوجه خطوات النمذجة ، فإن التحليل الوصفي ، كما يوحي اسمه ، يهدف فقط إلى إنتاج وصف مفصل لمجموعة البيانات المعنية.
التحليل الوصفي | تحليل البيانات استكشافية |
يحلل السلوك | يحلل السلوك والعلاقة |
يقدم ملخصًا | يؤدي إلى المواصفات والإجراءات |
ينظم البيانات في جداول ورسوم بيانية | ينظم البيانات في جداول ورسوم بيانية |
ليس لديها قوة تفسيرية كبيرة | لديه قوة تفسيرية كبيرة |
بعض الحالات العملية لاستخدامات أكاديمية الإمارات الدبلوماسية
# 1. التسويق الرقمي
تطور التسويق الرقمي من عملية إبداعية إلى عملية تعتمد على البيانات. تستخدم مؤسسات التسويق تحليل البيانات الاستكشافية لتحديد نتائج الحملات أو الجهود وتوجيه استثمارات المستهلك وقرارات الاستهداف.
تسمح الدراسات الديموغرافية وتجزئة العملاء والتقنيات الأخرى للمسوقين باستخدام كميات كبيرة من بيانات الشراء والاستطلاع وبيانات اللوحة من المستهلكين لفهم التسويق الاستراتيجي والتواصل معه.
تسمح تحليلات الويب الاستكشافية للمسوقين بجمع معلومات على مستوى الجلسة حول التفاعلات على موقع الويب. Google Analytics هو مثال على أداة تحليلات مجانية وشائعة يستخدمها المسوقون لهذا الغرض.
تتضمن الأساليب الاستكشافية المستخدمة بشكل متكرر في التسويق نمذجة مزيج التسويق ، وتحليلات التسعير والترويج ، وتحسين المبيعات ، وتحليل العملاء الاستكشافي ، على سبيل المثال ، التجزئة.
# 2. تحليل المحفظة الاستكشافية
التطبيق الشائع لتحليل البيانات الاستكشافية هو تحليل المحفظة الاستكشافي. لدى البنك أو وكالة الإقراض مجموعة حسابات متفاوتة القيمة والمخاطر.
قد تختلف الحسابات اعتمادًا على الحالة الاجتماعية لصاحبها (غني ، وطبقة متوسطة ، وفقراء ، وما إلى ذلك) ، والموقع الجغرافي ، وصافي الثروة ، والعديد من العوامل الأخرى. يجب أن يوازن المقرض بين عائد القرض ومخاطر التخلف عن السداد لكل قرض. يصبح السؤال بعد ذلك كيفية تقييم الحافظة ككل.
قد يكون القرض الأقل خطورة للأثرياء للغاية ، لكن هناك عددًا محدودًا جدًا من الأثرياء. من ناحية أخرى ، يمكن للعديد من الفقراء الإقراض ، لكنهم في خطر أكبر.
يمكن أن يجمع حل تحليل البيانات الاستكشافية بين تحليل السلاسل الزمنية والعديد من المشكلات الأخرى لتحديد وقت إقراض هذه الشرائح المختلفة من المقترضين أو معدل الإقراض. يتم تحميل الفائدة على أعضاء قطاع المحفظة لتغطية الخسائر بين أعضاء هذا القطاع.
# 3. تحليل المخاطر الاستكشافية
يتم تطوير النماذج التنبؤية في البنوك لتوفير اليقين بشأن درجات المخاطر للعملاء الأفراد. تم تصميم درجات الائتمان للتنبؤ بالسلوك الجانح للفرد وتستخدم على نطاق واسع لتقييم الجدارة الائتمانية لكل مقدم طلب.
بالإضافة إلى ذلك ، يتم إجراء تحليل المخاطر في العالم العلمي وصناعة التأمين. كما أنها تستخدم على نطاق واسع في المؤسسات المالية مثل شركات بوابات الدفع عبر الإنترنت لتحليل ما إذا كانت المعاملة حقيقية أم احتيالية.
لهذا الغرض ، يستخدمون سجل معاملات العميل. يتم استخدامه بشكل أكثر شيوعًا في عمليات شراء بطاقات الائتمان ؛ عندما يكون هناك ارتفاع مفاجئ في حجم معاملات العميل ، يتلقى العميل مكالمة تأكيد إذا كان قد بدأ المعاملة. كما أنه يساعد على تقليل الخسائر بسبب مثل هذه الظروف.
تحليل البيانات الاستكشافية مع R.
أول ما تحتاجه لأداء EDA مع R هو تنزيل R base و R Studio (IDE) ، متبوعًا بتثبيت وتحميل الحزم التالية:
#Installing Packages install.packages("dplyr") install.packages("ggplot2") install.packages("magrittr") install.packages("tsibble") install.packages("forecast") install.packages("skimr") #Loading Packages library(dplyr) library(ggplot2) library(magrittr) library(tsibble) library(forecast) library(skimr)
في هذا البرنامج التعليمي ، سنستخدم مجموعة بيانات اقتصادية تأتي مدمجة مع R وتوفر بيانات المؤشرات الاقتصادية السنوية للاقتصاد الأمريكي ، ونغير اسمها إلى econ من أجل التبسيط:

econ <- ggplot2::economics

لإجراء التحليل الوصفي ، سنستخدم حزمة skimr
، التي تحسب هذه الإحصائيات بطريقة بسيطة ومعروضة جيدًا:
#Descriptive Analysis skimr::skim(econ)

يمكنك أيضًا استخدام دالة summary
للتحليل الوصفي:

يُظهر التحليل الوصفي هنا 547 صفاً و 6 أعمدة في مجموعة البيانات. الحد الأدنى للقيمة هو 1967-07-01 ، والحد الأقصى هو يوم 2015-04-01. وبالمثل ، فإنه يظهر أيضًا متوسط القيمة والانحراف المعياري.
الآن لديك فكرة أساسية عما يوجد داخل مجموعة بيانات الاقتصاد. دعنا نرسم مدرج تكراري للمتغير uempmed
لإلقاء نظرة أفضل على البيانات:
#Histogram of Unemployment econ %>% ggplot2::ggplot() + ggplot2::aes(x = uempmed) + ggplot2::geom_histogram() + labs(x = "Unemployment", title = "Monthly Unemployment Rate in US between 1967 to 2015")

يوضح توزيع الرسم البياني أن له ذيلًا ممدودًا على اليمين ؛ وهذا يعني أنه من المحتمل وجود بعض الملاحظات حول هذا المتغير بقيم "متطرفة". السؤال الذي يطرح نفسه: في أي فترة حدثت هذه القيم ، وما هو اتجاه المتغير؟
الطريقة الأكثر مباشرة لتحديد اتجاه المتغير هي من خلال الرسم البياني الخطي. أدناه نقوم بإنشاء رسم بياني خطي وإضافة خط تجانس:
#Line Graph of Unemployment econ %>% ggplot2::autoplot(uempmed) + ggplot2::geom_smooth()

باستخدام هذا الرسم البياني ، يمكننا تحديد أنه في الفترة الأخيرة ، في الملاحظات الأخيرة من عام 2010 ، هناك اتجاه لزيادة البطالة ، متجاوزًا التاريخ الذي لوحظ في العقود السابقة.
نقطة أخرى مهمة ، خاصة في سياقات النمذجة الاقتصادية القياسية ، هي ثبات السلسلة ؛ أي ، هل المتوسط والتباين ثابتان بمرور الوقت؟
عندما تكون هذه الافتراضات غير صحيحة في متغير ، نقول أن السلسلة لها جذر وحدة (غير ثابت) بحيث تولد الصدمات التي يعاني منها المتغير تأثيرًا دائمًا.
يبدو أن هذا هو الحال بالنسبة للمتغير المعني ، مدة البطالة. لقد رأينا أن تقلبات المتغير قد تغيرت بشكل كبير ، مما كان له آثار قوية تتعلق بالنظريات الاقتصادية التي تتعامل مع الدورات. ولكن ، بعيدًا عن النظرية ، كيف نتحقق عمليًا مما إذا كان المتغير ثابتًا؟
تحتوي حزمة التوقعات على وظيفة ممتازة تسمح بتطبيق الاختبارات ، مثل ADF و KPSS وغيرها ، والتي تُرجع بالفعل عدد الاختلافات اللازمة للسلسلة لتكون ثابتة:
#Using ADF test for checking stationarity forecast::ndiffs( x = econ$uempmed, test = "adf")

هنا تُظهر القيمة p الأكبر من 0.05 أن البيانات غير ثابتة.
هناك مسألة أخرى مهمة في السلاسل الزمنية وهي تحديد الارتباطات المحتملة (العلاقة الخطية) بين القيم المتأخرة للسلسلة. تساعد مخططات ارتباط ACF و PACF في التعرف عليه.
نظرًا لأن السلسلة لا تحتوي على موسمية ولكن لها اتجاه معين ، فإن الارتباطات التلقائية الأولية تميل إلى أن تكون كبيرة وإيجابية لأن الملاحظات في الوقت المناسب قريبة أيضًا من حيث القيمة.
وبالتالي ، تميل وظيفة الارتباط التلقائي (ACF) لسلسلة زمنية متجهة إلى الحصول على قيم موجبة تنخفض ببطء مع زيادة التأخيرات.
#Residuals of Unemployment checkresiduals(econ$uempmed) pacf(econ$uempmed)


استنتاج
عندما نضع أيدينا على بيانات نظيفة إلى حد ما ، أي أنه تم تنظيفها بالفعل ، فإننا نميل على الفور إلى الغوص في مرحلة بناء النموذج لاستخلاص النتائج الأولى. عليك مقاومة هذا الإغراء والبدء في إجراء تحليل استكشافي للبيانات ، وهو أمر بسيط ولكنه يساعدنا على استخلاص رؤى قوية في البيانات.
يمكنك أيضًا استكشاف بعض أفضل الموارد لتعلم الإحصائيات الخاصة بعلوم البيانات.