การวิเคราะห์ข้อมูลเชิงสำรวจ: ผลกระทบต่อวิทยาศาสตร์ข้อมูล

เผยแพร่แล้ว: 2022-05-25

นักคณิตศาสตร์ชาวอเมริกัน John Tukey เดิมทีพัฒนาการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ในปี 1970 จนถึงทุกวันนี้ เทคนิค EDA ยังคงเป็นวิธีการที่ใช้กันอย่างแพร่หลายในกระบวนการค้นหาข้อมูล นอกเหนือจากการสร้างแบบจำลองอย่างเป็นทางการหรือการทดสอบสมมติฐานแล้ว EDA ยังเปิดประตูกว้างสำหรับความเข้าใจที่ดีขึ้นของตัวแปรชุดข้อมูลและความสัมพันธ์ นอกจากนี้ยังช่วยในการกำหนดว่าเทคนิคทางสถิติที่ได้รับการพิจารณาสำหรับการวิเคราะห์ข้อมูลมีความเหมาะสมหรือไม่

การวิเคราะห์ข้อมูลเชิงสำรวจคืออะไร?

Exploratory Data Analysis (EDA) ถูกใช้อย่างกว้างขวางโดย Data Scientists ในขณะที่วิเคราะห์และตรวจสอบชุดข้อมูล โดยสรุปลักษณะสำคัญของข้อมูลด้วยวิธีการแสดงภาพ ช่วยให้นักวิทยาศาสตร์ข้อมูลค้นพบรูปแบบข้อมูล ตรวจพบความผิดปกติ การทดสอบสมมติฐาน และหรือการตั้งสมมติฐาน

ด้วยวิธีง่ายๆ จึงสามารถกำหนดเป็นวิธีการที่ช่วยให้ Data Scientist กำหนดวิธีที่ดีที่สุดในการจัดการแหล่งข้อมูลที่กำหนดเพื่อให้ได้คำตอบที่ต้องการเป็นเป้าหมาย

การวิเคราะห์ข้อมูลเชิงสำรวจมีความสำคัญเพียงใด วิทยาศาสตร์ข้อมูล

จุดประสงค์หลักของ EDA คือการช่วยให้มองลึกเข้าไปในชุดข้อมูลก่อนที่จะตั้งสมมติฐาน ระบุข้อผิดพลาดที่เห็นได้ชัด ทำความเข้าใจรูปแบบภายในชุดข้อมูลให้ดีขึ้น หาค่าผิดปกติและ/หรือเหตุการณ์ผิดปกติ และสุดท้ายแต่ไม่ท้ายสุด ค้นหาความสัมพันธ์ที่น่าตื่นเต้นระหว่างตัวแปร

การวิเคราะห์ข้อมูลเชิงสำรวจมีความสำคัญอย่างยิ่งต่อการวิเคราะห์ข้อมูลในด้านวิทยาศาสตร์ข้อมูล ขั้นแรก ใช้ EDA เพื่อให้แน่ใจว่าผลลัพธ์ที่นักวิทยาศาสตร์ของ Data สร้างขึ้นนั้นถูกต้องและใช้ได้กับเป้าหมายที่ต้องการ ประการที่สอง EDA ช่วยผู้มีส่วนได้ส่วนเสียเพื่อให้แน่ใจว่าพวกเขาถามคำถามที่ถูกต้องเสมอ นอกจากนี้ยังช่วยตอบคำถามเกี่ยวกับส่วนเบี่ยงเบนมาตรฐาน ตัวแปรตามหมวดหมู่ และช่วงความเชื่อมั่น สุดท้าย เมื่อ EDA เสร็จสมบูรณ์และดึงข้อมูลเชิงลึกแล้ว ฟีเจอร์ต่างๆ ของ EDA สามารถใช้สำหรับการวิเคราะห์ข้อมูลหรือการสร้างแบบจำลองที่ซับซ้อนยิ่งขึ้น รวมถึงการเรียนรู้ด้วยเครื่อง

ประเภทการวิเคราะห์ข้อมูลเชิงสำรวจ

EDA มีสี่ประเภทหลัก:

  • ตัวแปรที่ไม่ใช่แบบกราฟิก:

Univariate Non Graphical เป็นรูปแบบการวิเคราะห์ข้อมูลที่ง่ายที่สุด ที่นี่ประกอบด้วยตัวแปรเพียงตัวเดียว เป็นตัวแปรเดียวไม่เกี่ยวข้องกับสาเหตุหรือความสัมพันธ์ วัตถุประสงค์หลักของการวิเคราะห์แบบไม่แปรผันคือการอธิบายข้อมูลและค้นหารูปแบบภายใน

  • กราฟิกแบบไม่มีตัวแปร

วิธีการที่ไม่ใช่แบบกราฟิกไม่สามารถให้ภาพที่สมบูรณ์ของข้อมูลได้ ต้องใช้วิธีการแบบกราฟิกที่นี่ ประเภททั่วไปของกราฟิกแบบไม่แปรผันคือ:

  1. แผนภาพต้นและใบ: แสดงค่าข้อมูลทั้งหมดและรูปร่างของการแจกแจง
  2. ฮิสโตแกรมกราฟแท่ง: ซึ่งแต่ละแท่งแสดงถึงความถี่ (จำนวน) หรือสัดส่วน (จำนวน/จำนวนทั้งหมด) ของกรณีสำหรับช่วงของค่า
  3. แผนภาพกล่อง: กราฟแสดงสรุปตัวเลขห้าตัวของค่าต่ำสุด ควอร์ไทล์ที่หนึ่ง ค่ามัธยฐาน ควอร์ไทล์ที่สาม และค่าสูงสุด
  • ตัวแปรหลายตัวที่ไม่ใช่กราฟิก

ข้อมูลหลายตัวแปรเกิดจากตัวแปรมากกว่าหนึ่งตัว โดยทั่วไป เทคนิค EDA แบบหลายตัวแปรที่ไม่ใช่แบบกราฟิกจะแสดงความสัมพันธ์ระหว่างตัวแปรข้อมูลตั้งแต่สองตัวขึ้นไปผ่านตารางไขว้หรือสถิติ

  • กราฟิกหลายตัวแปร

ข้อมูลหลายตัวแปรใช้กราฟิกในขณะที่แสดงความสัมพันธ์ระหว่างชุดข้อมูลตั้งแต่สองชุดขึ้นไป กราฟิกที่ใช้มากที่สุดคือแผนภาพแท่งหรือแผนภูมิแท่งที่จัดกลุ่มไว้ โดยแต่ละกลุ่มจะเป็นตัวแทนของตัวแปรหนึ่งระดับ และแต่ละแถบภายในกลุ่มแสดงถึงระดับของตัวแปรอื่น

กราฟิกหลายตัวแปรทั่วไปประเภทอื่นๆ ได้แก่:

  • พล็อตกระจาย: ใช้เพื่อพล็อตจุดข้อมูลบนแกนนอนและแกนตั้งเพื่อแสดงว่าตัวแปรหนึ่งได้รับผลกระทบจากตัวแปรอื่นมากน้อยเพียงใด
  • แผนภูมิหลายตัวแปร: เป็นภาพกราฟิกของความสัมพันธ์ระหว่างปัจจัยและการตอบสนอง
  • เรียกใช้แผนภูมิ: เป็นกราฟเส้นของข้อมูลที่พล็อตตามช่วงเวลา
  • แผนภูมิฟอง: เป็นการแสดงภาพข้อมูลที่แสดงวงกลมหลายวง (ฟองสบู่) ในโครงแบบสองมิติ
  • แผนที่ความร้อน: เป็นการแสดงข้อมูลแบบกราฟิกโดยแสดงค่าด้วยสี

เครื่องมือวิเคราะห์ข้อมูลเชิงสำรวจ

มีเครื่องมือมากมายสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ สิ่งที่ได้รับความนิยมมากที่สุด ได้แก่ R, Python และ SAS อย่างไรก็ตาม แต่ละอย่างมีจุดแข็งและจุดอ่อน ดังนั้นการเลือกเครื่องมือที่เหมาะสมสำหรับงานจึงเป็นสิ่งสำคัญ

R เป็นเครื่องมือที่ยอดเยี่ยมสำหรับการแสดงข้อมูลเป็นภาพ มีพล็อตและแผนภูมิมากมายที่สามารถใช้สำรวจข้อมูลได้ นอกจากนี้ยังมีฟังก์ชันทางสถิติอีกมากมายที่สามารถใช้ทำการวิเคราะห์ขั้นสูงได้

Python เป็นอีกหนึ่งเครื่องมือที่ยอดเยี่ยมสำหรับ EDA มันมีคุณสมบัติหลายอย่างเช่นเดียวกับ R แต่ก็ใช้งานง่ายกว่าเช่นกัน ด้วยเหตุนี้ Python จึงเป็นตัวเลือกที่ยอดเยี่ยมสำหรับผู้เริ่มต้นที่ต้องการเริ่มต้นการวิเคราะห์ข้อมูล

SAS เป็นแพ็คเกจซอฟต์แวร์ทางสถิติที่ทรงพลังที่สามารถใช้สำหรับ EDA ได้ SAS นั้นแพงกว่า R และ Python แต่ก็คุ้มค่าที่จะลงทุน หากคุณต้องการทำการคำนวณที่ซับซ้อนกว่านี้

QuestionPro และ การวิเคราะห์ข้อมูลเชิงสำรวจ

คุณสามารถมีข้อมูลของคุณจากแหล่งข้อมูลอื่นได้เสมอ และ QuestionPro สามารถช่วยคุณรวบรวมข้อมูลการสำรวจจากช่องทางต่างๆ ได้อย่างแน่นอน แต่จะเกิดอะไรขึ้นเมื่อคุณต้องการไปไกลกว่าข้อมูลที่รวบรวมไว้แล้ว? นั่นคือที่มาของการวิเคราะห์ข้อมูลเชิงสำรวจ

เครื่องมือวิเคราะห์ในตัวของ QuestionPro ช่วยให้เริ่มต้นใช้งาน EDA ได้ง่าย คุณสามารถดูสถิติสรุปสำหรับข้อมูลของคุณ สร้างการแสดงภาพแบบโต้ตอบ และอื่นๆ ได้อย่างรวดเร็ว และเนื่องจาก QuestionPro ทำงานร่วมกับ R คุณจึงสามารถใช้เครื่องมือทางสถิติที่มีประสิทธิภาพทั้งหมดที่ R นำเสนอ

ดังนั้นหากคุณพร้อมที่จะนำการวิเคราะห์ข้อมูลของคุณไปสู่ระดับต่อไป QuestionPro เป็นหนึ่งในเครื่องมือที่สมบูรณ์แบบ

บทสรุป

สุดท้ายนี้ เราสามารถพูดได้ว่าการวิเคราะห์ข้อมูลเชิงสำรวจเป็นวิธีการที่ได้รับการพิสูจน์แล้วว่าสามารถช่วยให้ Data Scientists เข้าใจชุดข้อมูลที่ซับซ้อนได้ ด้วยการใช้การแสดงภาพและวิธีการอื่นๆ คุณสามารถค้นพบรูปแบบและความสัมพันธ์ที่คุณอาจไม่พบอย่างอื่น

ดังนั้น EDA จึงเป็นส่วนสำคัญของการวิเคราะห์ข้อมูล และเราหวังว่าบทความนี้จะให้คำแนะนำที่ดีแก่คุณเกี่ยวกับหัวข้อนี้

ค้นหาข้อมูลเพิ่มเติมเกี่ยวกับ QuestionPro และข้อมูลเกี่ยวกับ Exploratory Data Analysis โดยลงทะเบียนที่ Questionpro.com

ผู้เขียน: Musaddiq Shaikh & Abhishek Pachauri