การประมวลผลข้อมูลล่วงหน้าคืออะไร? 4 ขั้นตอนสำคัญในการทำให้ถูกต้อง

เผยแพร่แล้ว: 2021-08-06

ข้อมูลในโลกแห่งความเป็นจริงส่วนใหญ่ไม่สมบูรณ์ มีเสียงดัง และไม่สอดคล้องกัน

ด้วยการสร้างข้อมูลที่เพิ่มขึ้นแบบทวีคูณและจำนวนแหล่งข้อมูลที่แตกต่างกันที่เพิ่มขึ้น ความน่าจะเป็นในการรวบรวมข้อมูลที่ผิดปกติหรือไม่ถูกต้องจึงค่อนข้างสูง

แต่เฉพาะข้อมูลคุณภาพสูงเท่านั้นที่สามารถนำไปสู่แบบจำลองที่แม่นยำและการทำนายที่แม่นยำในท้ายที่สุด ดังนั้น การประมวลผลข้อมูลเพื่อคุณภาพที่ดีที่สุดจึงเป็นสิ่งสำคัญ ขั้นตอนการประมวลผลข้อมูลนี้เรียกว่าการ ประมวลผลข้อมูลล่วงหน้า และเป็นหนึ่งในขั้นตอนสำคัญในวิทยาศาสตร์ข้อมูล   การเรียนรู้ของเครื่องและปัญญาประดิษฐ์

การประมวลผลข้อมูลล่วงหน้าคืออะไร?

การประมวลผลข้อมูลล่วงหน้า เป็นกระบวนการในการแปลงข้อมูลดิบให้อยู่ในรูปแบบที่มีประโยชน์และเข้าใจได้ ข้อมูลจริงหรือข้อมูลดิบมักมีการจัดรูปแบบที่ไม่สอดคล้องกัน มีข้อผิดพลาดจากมนุษย์ และอาจไม่สมบูรณ์ได้เช่นกัน การประมวลผลข้อมูลล่วงหน้าช่วยแก้ปัญหาดังกล่าวและทำให้ชุดข้อมูลสมบูรณ์และมีประสิทธิภาพมากขึ้นในการวิเคราะห์ข้อมูล

เป็นกระบวนการสำคัญที่อาจส่งผลต่อความสำเร็จของการทำเหมืองข้อมูลและโครงการการเรียนรู้ของเครื่อง ทำให้การค้นพบความรู้จากชุดข้อมูลเร็วขึ้นและอาจส่งผลต่อประสิทธิภาพของโมเดลการเรียนรู้ของเครื่องในท้ายที่สุด

45%

ของนักวิทยาศาสตร์ข้อมูลใช้เวลาไปกับการเตรียมข้อมูล

ที่มา: Datanami

กล่าวอีกนัยหนึ่ง การประมวลผลข้อมูลล่วงหน้ากำลังแปลงข้อมูลให้อยู่ในรูปแบบที่คอมพิวเตอร์สามารถทำงานได้อย่างง่ายดาย ทำให้การวิเคราะห์ข้อมูลหรือการแสดงภาพง่ายขึ้น และเพิ่มความแม่นยำและความเร็วของอัลกอริธึมการเรียนรู้ของเครื่องที่ฝึกกับข้อมูล

เหตุใดจึงต้องมีการประมวลผลข้อมูลล่วงหน้า

อย่างที่คุณทราบ ฐานข้อมูลคือชุดของจุดข้อมูล จุดข้อมูลเรียกอีกอย่างว่าการสังเกต ตัวอย่างข้อมูล เหตุการณ์ และบันทึก

แต่ละตัวอย่างมีการอธิบายโดยใช้คุณลักษณะที่แตกต่างกัน หรือที่เรียกว่า คุณลักษณะ หรือ คุณลักษณะ การประมวลผลข้อมูลล่วงหน้ามีความสำคัญต่อการสร้างแบบจำลองอย่างมีประสิทธิภาพด้วยคุณสมบัติเหล่านี้

ปัญหามากมายอาจเกิดขึ้นขณะรวบรวมข้อมูล คุณอาจต้องรวบรวมข้อมูลจากแหล่งข้อมูลต่างๆ นำไปสู่รูปแบบข้อมูลที่ไม่ตรงกัน เช่น จำนวนเต็มและทศนิยม

เคล็ดลับ: ใช้ความสามารถอัตโนมัติของ   ซอฟต์แวร์การเรียนรู้ของเครื่อง   และบอกลางานที่น่าเบื่อเหล่านั้น

หากคุณกำลังรวมข้อมูลจากชุดข้อมูลอิสระสองชุดขึ้นไป ฟิลด์เพศอาจมีค่าที่แตกต่างกันสองค่าสำหรับผู้ชาย: ชายและชาย ในทำนองเดียวกัน หากคุณกำลังรวมข้อมูลจากชุดข้อมูลที่แตกต่างกันสิบชุด ฟิลด์ที่มีอยู่ในแปดชุดอาจหายไปในสองชุดที่เหลือ

การประมวลผลข้อมูลล่วงหน้าช่วยให้ตีความและใช้งานได้ง่ายขึ้น กระบวนการนี้ช่วยขจัดความไม่สอดคล้องกันหรือข้อมูลซ้ำซ้อน ซึ่งอาจส่งผลในทางลบต่อความถูกต้องของแบบจำลอง การประมวลผลข้อมูลล่วงหน้ายังช่วยให้แน่ใจว่าไม่มีค่าที่ไม่ถูกต้องหรือขาดหายไปอันเนื่องมาจากความผิดพลาดของมนุษย์หรือข้อบกพร่อง กล่าวโดยย่อ การใช้เทคนิคการประมวลผลข้อมูลล่วงหน้าทำให้ฐานข้อมูลสมบูรณ์และแม่นยำยิ่งขึ้น

ลักษณะของข้อมูลคุณภาพ

สำหรับอัลกอริธึมการเรียนรู้ของเครื่อง ไม่มีอะไรสำคัญไปกว่าคุณภาพ   ข้อมูลการฝึกอบรม ประสิทธิภาพหรือความถูกต้องขึ้นอยู่กับความเกี่ยวข้อง ตัวแทน และความครอบคลุมของข้อมูล

ก่อนที่จะดูว่าข้อมูลถูกประมวลผลล่วงหน้าอย่างไร มาดูปัจจัยบางประการที่ส่งผลต่อคุณภาพของข้อมูล

  • ความแม่นยำ: ตามชื่อที่แนะนำ ความแม่นยำหมายความว่าข้อมูลถูกต้อง ข้อมูลที่ล้าสมัย การพิมพ์ผิด และความซ้ำซ้อนอาจส่งผลต่อความถูกต้องของชุดข้อมูล
  • ความ สม่ำเสมอ: ข้อมูลไม่ควรมีความขัดแย้ง ข้อมูลที่ไม่สอดคล้องกันอาจให้คำตอบที่แตกต่างกันสำหรับคำถามเดียวกัน
  • ความ สมบูรณ์: ชุดข้อมูลไม่ควรมีฟิลด์ที่ไม่สมบูรณ์หรือไม่มีฟิลด์ว่าง คุณลักษณะนี้ช่วยให้นักวิทยาศาสตร์ข้อมูลทำการวิเคราะห์ได้อย่างแม่นยำ เนื่องจากสามารถเข้าถึงภาพรวมของสถานการณ์ที่ข้อมูลอธิบายได้
  • ความถูกต้อง: ชุดข้อมูลจะถือว่าใช้ได้หากตัวอย่างข้อมูลปรากฏในรูปแบบที่ถูกต้อง อยู่ในช่วงที่กำหนด และเป็นประเภทที่ถูกต้อง ชุดข้อมูลที่ไม่ถูกต้องนั้นยากที่จะจัดระเบียบและวิเคราะห์
  • ความ ทันเวลา: ข้อมูลควรถูกเก็บรวบรวมทันทีที่เกิดเหตุการณ์ขึ้น เมื่อเวลาผ่านไป ชุดข้อมูลทุกชุดจะมีความแม่นยำและมีประโยชน์น้อยลง เนื่องจากไม่ได้แสดงถึงความเป็นจริงในปัจจุบัน ดังนั้น ความเฉพาะเจาะจงและความเกี่ยวข้องของข้อมูลจึงเป็นคุณลักษณะด้านคุณภาพข้อมูลที่สำคัญ

สี่ขั้นตอนของการประมวลผลข้อมูลล่วงหน้า

สำหรับโมเดลแมชชีนเลิร์นนิง ข้อมูลคืออาหารสัตว์

ชุดฝึกอบรมที่ไม่สมบูรณ์สามารถนำไปสู่ผลลัพธ์ที่ไม่ได้ตั้งใจ เช่น ความลำเอียง นำไปสู่ความได้เปรียบหรือเสียเปรียบที่ไม่เป็นธรรมสำหรับคนกลุ่มใดกลุ่มหนึ่ง ข้อมูลที่ไม่สมบูรณ์หรือไม่สอดคล้องกันอาจส่งผลเสียต่อผลลัพธ์ของโครงการขุดข้อมูลเช่นกัน ในการแก้ไขปัญหาดังกล่าว จะใช้กระบวนการประมวลผลข้อมูลล่วงหน้า

การประมวลผลข้อมูลมีสี่ขั้นตอน: การล้าง การผสาน การลดลง และการแปลง

1. การล้างข้อมูล

การล้างข้อมูล หรือการล้างข้อมูลเป็นกระบวนการล้างชุดข้อมูลโดยการบัญชีสำหรับค่าที่หายไป การลบค่าผิดปกติ การแก้ไขจุดข้อมูลที่ไม่สอดคล้องกัน และทำให้ข้อมูลที่มีเสียงดังราบรื่น โดยพื้นฐานแล้ว แรงจูงใจเบื้องหลังการล้างข้อมูลคือการนำเสนอตัวอย่างที่สมบูรณ์และแม่นยำสำหรับโมเดลการเรียนรู้ของเครื่อง

เทคนิคที่ใช้ในการล้างข้อมูลมีความเฉพาะเจาะจงกับความชอบของนักวิทยาศาสตร์ข้อมูลและปัญหาที่พวกเขาพยายามแก้ไข ต่อไปนี้คือภาพรวมคร่าวๆ ของปัญหาที่แก้ไขได้ระหว่างการล้างข้อมูลและเทคนิคที่เกี่ยวข้อง

ไม่มีค่า

ปัญหาค่าข้อมูลที่ขาดหายไปเป็นเรื่องปกติธรรมดา อาจเกิดขึ้นในระหว่างการรวบรวมข้อมูลหรือเนื่องจากกฎการตรวจสอบข้อมูลบางอย่าง ในกรณีดังกล่าว คุณต้องรวบรวมตัวอย่างข้อมูลเพิ่มเติมหรือค้นหาชุดข้อมูลเพิ่มเติม

ปัญหาของค่าที่หายไปอาจเกิดขึ้นเมื่อคุณเชื่อมต่อชุดข้อมูลตั้งแต่สองชุดขึ้นไปเพื่อสร้างชุดข้อมูลที่ใหญ่ขึ้น หากไม่มีฟิลด์ทั้งหมดอยู่ในชุดข้อมูลทั้งสอง จะเป็นการดีกว่าที่จะลบฟิลด์ดังกล่าวก่อนที่จะรวม

ต่อไปนี้คือวิธีบางส่วนในการบัญชีสำหรับข้อมูลที่ขาดหายไป:

  • กรอกค่าที่หายไปด้วยตนเอง วิธีนี้อาจเป็นวิธีที่น่าเบื่อและใช้เวลานาน และไม่แนะนำสำหรับชุดข้อมูลขนาดใหญ่
  • ใช้ประโยชน์จากค่ามาตรฐานเพื่อแทนที่ค่าข้อมูลที่ขาดหายไป คุณสามารถใช้ค่าคงที่ส่วนกลาง เช่น "ไม่ทราบ" หรือ "N/A" เพื่อแทนที่ค่าที่ขาดหายไป แม้ว่าจะเป็นวิธีที่ตรงไปตรงมา แต่ก็ไม่สามารถเข้าใจผิดได้
  • เติมค่าที่หายไปด้วยค่าที่น่าจะเป็นมากที่สุด ในการทำนายค่าที่น่าจะเป็น คุณสามารถใช้อัลกอริทึมเช่น   การถดถอยโลจิสติก   หรือต้นไม้ตัดสินใจ
  • ใช้แนวโน้มกลางเพื่อแทนที่ค่าที่ขาดหายไป แนวโน้มจากส่วนกลางคือแนวโน้มของค่าที่จะจัดกลุ่มรอบค่าเฉลี่ย โหมด หรือค่ามัธยฐาน

หากค่า 50 เปอร์เซ็นต์สำหรับแถวหรือคอลัมน์ใดๆ ในฐานข้อมูลหายไป จะเป็นการดีกว่าที่จะลบทั้งแถวหรือคอลัมน์ เว้นแต่จะสามารถเติมค่าโดยใช้วิธีการใดๆ ข้างต้น

ข้อมูลที่มีเสียงดัง

ข้อมูลที่ไม่มีความหมายจำนวนมากเรียกว่า สัญญาณรบกวน แม่นยำกว่านั้นคือความแปรปรวนแบบสุ่มในตัวแปรที่วัดได้หรือข้อมูลที่มีค่าแอตทริบิวต์ที่ไม่ถูกต้อง สัญญาณรบกวนรวมถึงจุดข้อมูลซ้ำหรือกึ่งซ้ำ ส่วนข้อมูลที่ไม่มีค่าสำหรับกระบวนการวิจัยเฉพาะ หรือช่องข้อมูลที่ไม่ต้องการ

ตัวอย่างเช่น หากคุณต้องการคาดการณ์ว่าบุคคลนั้นสามารถขับรถได้หรือไม่ ข้อมูลเกี่ยวกับสีผม ส่วนสูง หรือน้ำหนักของพวกเขาจะไม่เกี่ยวข้อง

ค่าผิดปกติสามารถใช้เป็นสัญญาณรบกวนได้ แม้ว่าบางคนจะมองว่าเป็นจุดข้อมูลที่ถูกต้องก็ตาม สมมติว่าคุณกำลังฝึกอัลกอริทึมเพื่อตรวจจับเต่าในรูปภาพ ชุดข้อมูลรูปภาพอาจมีรูปภาพของเต่าที่ติดป้ายกำกับว่าเป็นเต่าอย่างไม่ถูกต้อง นี้ถือได้ว่าเป็นเสียงรบกวน

อย่างไรก็ตาม อาจมีรูปเต่าที่ดูเหมือนเต่ามากกว่าเต่า ตัวอย่างนั้นถือได้ว่าเป็นค่าผิดปกติและไม่จำเป็นต้องเป็นสัญญาณรบกวน เนื่องจากเราต้องการสอนอัลกอริทึมทุกวิธีที่เป็นไปได้ในการตรวจจับเต่า ดังนั้นการเบี่ยงเบนจากกลุ่มจึงเป็นสิ่งจำเป็น

สำหรับค่าตัวเลข คุณสามารถใช้พล็อตแบบกระจายหรือพล็อตกล่องเพื่อระบุค่าผิดปกติ

ต่อไปนี้เป็นวิธีการบางอย่างที่ใช้ในการแก้ปัญหาเสียงรบกวน:

  • การถดถอย: การวิเคราะห์การถดถอยสามารถช่วยกำหนดตัวแปรที่มีผลกระทบ ซึ่งจะทำให้คุณสามารถทำงานกับคุณลักษณะที่จำเป็นเท่านั้น แทนที่จะต้องวิเคราะห์ข้อมูลปริมาณมาก ทั้งการถดถอยเชิงเส้นและการถดถอยเชิงเส้นพหุคูณสามารถใช้เพื่อทำให้ข้อมูลเรียบขึ้น
  • Binning: สามารถใช้วิธีการ Binning สำหรับการรวบรวมข้อมูลที่จัดเรียง พวกเขาทำให้ค่าที่จัดเรียงเรียบขึ้นโดยดูจากค่ารอบๆ ค่าที่จัดเรียงแล้วจะถูกแบ่งออกเป็น "ช่องเก็บ" ซึ่งหมายถึงการจัดเรียงข้อมูลออกเป็นส่วนเล็กๆ ที่มีขนาดเท่ากัน มีเทคนิคต่างๆ ในการเก็บกวาด รวมถึงการทำให้เรียบโดยวิธีถังขยะและการปรับให้เรียบโดยใช้ค่ามัธยฐานของถัง
  • การทำ คลัสเตอร์: อัลกอริธึมการทำคลัสเตอร์ เช่น การทำคลัสเตอร์ k-mean สามารถใช้เพื่อจัดกลุ่มข้อมูลและตรวจหาค่าผิดปกติในกระบวนการ

2. การรวมข้อมูล

เนื่องจากข้อมูลถูกรวบรวมจากแหล่งต่างๆ การรวมข้อมูล จึงเป็นส่วนสำคัญของการเตรียมข้อมูล การผสานรวมอาจนำไปสู่จุดข้อมูลที่ไม่สอดคล้องกันและซ้ำซ้อนหลายจุด ซึ่งท้ายที่สุดจะนำไปสู่แบบจำลองที่มีความแม่นยำต่ำกว่า

ต่อไปนี้คือแนวทางบางประการในการผสานรวมข้อมูล:

  • การรวมข้อมูล: ข้อมูลถูกรวบรวมและจัดเก็บไว้ในที่เดียว การมีข้อมูลทั้งหมดในที่เดียวจะช่วยเพิ่มประสิทธิภาพและประสิทธิผล ขั้นตอนนี้มักเกี่ยวข้องกับการใช้   ซอฟต์แวร์คลังข้อมูล
  • การจำลองข้อมูลเสมือน: ในแนวทางนี้ อินเทอร์เฟซให้มุมมองข้อมูลแบบเรียลไทม์จากแหล่งที่มาต่างๆ ที่รวมเป็นหนึ่งเดียวและแบบเรียลไทม์ กล่าวอีกนัยหนึ่ง ข้อมูลสามารถดูได้จากมุมมองเดียว
  • การเผยแพร่ข้อมูล: เกี่ยวข้องกับการคัดลอกข้อมูลจากที่หนึ่งไปยังอีกที่หนึ่งโดยใช้แอปพลิเคชันเฉพาะ กระบวนการนี้สามารถซิงโครนัสหรืออะซิงโครนัสได้ และโดยปกติแล้วจะเป็นไปตามเหตุการณ์

3. การลดข้อมูล

ตามชื่อที่แนะนำ การลดข้อมูล ถูกใช้เพื่อลดปริมาณข้อมูลและด้วยเหตุนี้จึงลดต้นทุนที่เกี่ยวข้องกับการทำเหมืองข้อมูลหรือการวิเคราะห์ข้อมูล

นำเสนอการแสดงชุดข้อมูลแบบย่อ แม้ว่าขั้นตอนนี้จะช่วยลดระดับเสียง แต่ก็รักษาความสมบูรณ์ของข้อมูลต้นฉบับ ขั้นตอนการประมวลผลข้อมูลล่วงหน้านี้มีความสำคัญอย่างยิ่งเมื่อทำงานกับข้อมูลขนาดใหญ่ เนื่องจากปริมาณข้อมูลที่เกี่ยวข้องจะมหาศาล

ต่อไปนี้เป็นเทคนิคบางอย่างที่ใช้ในการลดข้อมูล

การลดมิติ

การลดมิติ หรือที่เรียกว่าการลดขนาด ช่วยลดจำนวนคุณลักษณะหรือตัวแปรอินพุตในชุดข้อมูล

จำนวนของคุณสมบัติหรือตัวแปรอินพุตของชุดข้อมูลเรียกว่ามิติข้อมูล ยิ่งจำนวนคุณสมบัติสูง ยิ่งลำบากในการแสดงภาพชุดข้อมูลการฝึกและสร้างแบบจำลองการคาดการณ์

ในบางกรณี คุณลักษณะเหล่านี้ส่วนใหญ่สัมพันธ์กัน จึงซ้ำซ้อน ดังนั้นอัลกอริธึมการลดมิติสามารถใช้เพื่อลดจำนวนตัวแปรสุ่มและรับชุดของตัวแปรหลัก

การลดขนาดมีสองส่วน: การเลือกคุณลักษณะและการแยกคุณลักษณะ

ใน การเลือกคุณลักษณะ เราพยายามค้นหาชุดย่อยของชุดคุณลักษณะดั้งเดิม ซึ่งช่วยให้เราได้เซตย่อยที่เล็กกว่าที่สามารถใช้แสดงภาพปัญหาได้โดยใช้การสร้างแบบจำลองข้อมูล ในทางกลับกัน การ ดึงข้อมูลคุณลักษณะ จะลดข้อมูลในพื้นที่ที่มีมิติสูงเป็นพื้นที่มิติที่ต่ำกว่า หรือกล่าวอีกนัยหนึ่งคือ พื้นที่ที่มีขนาดน้อยกว่า

ต่อไปนี้คือวิธีการบางอย่างในการลดขนาด:

  • การวิเคราะห์องค์ประกอบหลัก (PCA): เทคนิคทางสถิติที่ใช้ในการแยกตัวแปรชุดใหม่ออกจากตัวแปรชุดใหญ่ ตัวแปรที่แยกออกมาใหม่เรียกว่าส่วนประกอบหลัก วิธีนี้ใช้ได้กับคุณลักษณะที่มีค่าตัวเลขเท่านั้น
  • ตัวกรองสหสัมพันธ์สูง: เทคนิคที่ใช้ค้นหาคุณลักษณะที่มีความสัมพันธ์สูงและลบออก มิฉะนั้น ตัวแปรที่มีความสัมพันธ์สูงคู่หนึ่งสามารถเพิ่ม multicollinearity ในชุดข้อมูลได้
  • อัตราส่วนค่าที่ขาดหายไป: วิธีนี้จะลบแอตทริบิวต์ที่มีค่าที่ขาดหายไปมากกว่าเกณฑ์ที่ระบุ
  • ตัวกรองความแปรปรวนต่ำ: เกี่ยวข้องกับการลบแอตทริบิวต์ที่เป็นมาตรฐานซึ่งมีค่าความแปรปรวนน้อยกว่าค่าเกณฑ์เนื่องจากการเปลี่ยนแปลงเล็กน้อยในข้อมูลที่แปลเป็นข้อมูลน้อยลง
  • ฟอ เรสต์สุ่ม: เทคนิคนี้ใช้เพื่อประเมินความสำคัญของแต่ละฟีเจอร์ในชุดข้อมูล ทำให้เราเก็บเฉพาะฟีเจอร์ที่สำคัญที่สุดเท่านั้น

เทคนิคการลดขนาดอื่นๆ ได้แก่ การวิเคราะห์ปัจจัย การวิเคราะห์องค์ประกอบอิสระ และการวิเคราะห์จำแนกเชิงเส้น (LDA)

การเลือกชุดย่อยของคุณสมบัติ

การเลือก ชุดย่อยของคุณลักษณะเป็นกระบวนการในการเลือกชุดย่อยของคุณลักษณะหรือแอตทริบิวต์ที่มีส่วนร่วมมากที่สุดหรือมีความสำคัญมากที่สุด

สมมติว่าคุณกำลังพยายามคาดเดาว่านักเรียนจะผ่านหรือล้มเหลวโดยดูจากข้อมูลทางประวัติศาสตร์ของนักเรียนที่คล้ายคลึงกัน คุณมีชุดข้อมูลที่มีคุณสมบัติสี่ประการ ได้แก่ หมายเลขม้วน คะแนนรวม ชั่วโมงเรียน และกิจกรรมนอกหลักสูตร

ในกรณีนี้ เลขม้วนไม่มีผลกับประสิทธิภาพของนักเรียนและสามารถตัดออกได้ ชุดย่อยใหม่จะมีเพียงสามคุณสมบัติและจะมีประสิทธิภาพมากกว่าชุดดั้งเดิม

วิธีการลดข้อมูลนี้สามารถช่วยสร้างโมเดลแมชชีนเลิร์นนิ่งที่รวดเร็วและประหยัดต้นทุนมากขึ้น การเลือกเซ็ตย่อยของแอททริบิวยังสามารถทำได้ในขั้นตอนการแปลงข้อมูล

ลดจำนวนมาก

การลดจำนวนลง เป็นกระบวนการแทนที่ข้อมูลเดิมด้วยการแสดงข้อมูลในรูปแบบที่เล็กกว่า มีสองวิธีในการดำเนินการนี้: วิธีที่ใช้พารามิเตอร์และไม่ใช่พารามิเตอร์

เมธอด Parametric ใช้แบบจำลองสำหรับการแสดงข้อมูล วิธีการบันทึกเชิงเส้นและการถดถอยจะใช้ในการสร้างแบบจำลองดังกล่าว ในทางตรงกันข้าม เมธอดที่ไม่ใช่พารามิเตอร์ จะจัดเก็บการแสดงข้อมูลที่ลดลงโดยใช้การทำคลัสเตอร์ ฮิสโตแกรม การรวมคิวบ์ข้อมูล และการสุ่มตัวอย่างข้อมูล

4. การแปลงข้อมูล

การแปลงข้อมูล เป็นกระบวนการแปลงข้อมูลจากรูปแบบหนึ่งเป็นอีกรูปแบบหนึ่ง โดยพื้นฐานแล้วมันเกี่ยวข้องกับวิธีการแปลงข้อมูลให้เป็นรูปแบบที่เหมาะสมที่คอมพิวเตอร์สามารถเรียนรู้ได้อย่างมีประสิทธิภาพ

ตัวอย่างเช่น หน่วยความเร็วอาจเป็นไมล์ต่อชั่วโมง เมตรต่อวินาที หรือกิโลเมตรต่อชั่วโมง ดังนั้นชุดข้อมูลอาจเก็บค่าความเร็วของรถยนต์ไว้ในหน่วยต่างๆ เช่นนี้ ก่อนป้อนข้อมูลนี้ไปยังอัลกอริทึม เราต้องแปลงข้อมูลให้เป็นหน่วยเดียวกัน

ต่อไปนี้เป็นกลยุทธ์บางประการสำหรับการแปลงข้อมูล

ปรับให้เรียบ

วิธีการทางสถิตินี้ใช้เพื่อขจัดสัญญาณรบกวนออกจากข้อมูลโดยใช้อัลกอริทึม ช่วยเน้นคุณลักษณะที่มีค่าที่สุดในชุดข้อมูลและคาดการณ์รูปแบบ นอกจากนี้ยังเกี่ยวข้องกับการกำจัดค่าผิดปกติออกจากชุดข้อมูลเพื่อทำให้รูปแบบมองเห็นได้ชัดเจนยิ่งขึ้น

การรวม

การรวมหมายถึงการรวมข้อมูลจากหลายแหล่งและนำเสนอในรูปแบบรวมสำหรับการทำเหมืองข้อมูลหรือการวิเคราะห์ การรวมข้อมูลจากแหล่งต่างๆ เพื่อเพิ่มจำนวนจุดข้อมูลเป็นสิ่งสำคัญ เนื่องจากโมเดล ML จะมีตัวอย่างเพียงพอที่จะเรียนรู้

ดุลยพินิจ

Discretization เกี่ยวข้องกับการแปลงข้อมูลอย่างต่อเนื่องเป็นชุดของช่วงเวลาที่เล็กกว่า ตัวอย่างเช่น การจัดคนในหมวดหมู่เช่น "วัยรุ่น" "คนหนุ่มสาว" "วัยกลางคน" หรือ "อาวุโส" จะมีประสิทธิภาพมากกว่าการใช้ค่าอายุแบบต่อเนื่อง

ลักษณะทั่วไป

ลักษณะทั่วไปเกี่ยวข้องกับการแปลงคุณลักษณะข้อมูลระดับต่ำเป็นคุณลักษณะข้อมูลระดับสูง ตัวอย่างเช่น คุณลักษณะตามหมวดหมู่ เช่น ที่อยู่บ้านสามารถทำให้คำจำกัดความระดับที่สูงกว่าได้ เช่น เมืองหรือรัฐ

การทำให้เป็นมาตรฐาน

การทำให้เป็นมาตรฐานหมายถึงกระบวนการแปลงตัวแปรข้อมูลทั้งหมดเป็นช่วงที่กำหนด กล่าวอีกนัยหนึ่ง มันถูกใช้เพื่อปรับขนาดค่าของแอตทริบิวต์เพื่อให้อยู่ในช่วงที่เล็กกว่า เช่น 0 ถึง 1 การปรับมาตราส่วนทศนิยม การทำให้เป็นมาตรฐานต่ำสุด-สูงสุด และการทำให้เป็นมาตรฐานของคะแนน z เป็นวิธีการบางอย่างของการทำให้ข้อมูลเป็นมาตรฐาน

การก่อสร้างคุณลักษณะ

การสร้างคุณลักษณะเกี่ยวข้องกับการสร้างคุณลักษณะใหม่จากชุดคุณลักษณะที่กำหนด วิธีนี้ช่วยลดความซับซ้อนของชุดข้อมูลดั้งเดิม และทำให้วิเคราะห์ ขุดค้น หรือแสดงข้อมูลได้ง่ายขึ้น

การสร้างลำดับชั้นแนวคิด

การสร้างลำดับชั้นแนวคิดช่วยให้คุณสร้างลำดับชั้นระหว่างคุณลักษณะต่างๆ แม้ว่าจะไม่ได้ระบุไว้ก็ตาม ตัวอย่างเช่น หากคุณมีชุดข้อมูลของที่อยู่บ้านที่มีข้อมูลเกี่ยวกับถนน เมือง รัฐ และประเทศ คุณสามารถใช้วิธีนี้เพื่อจัดระเบียบข้อมูลในรูปแบบลำดับชั้นได้

ข้อมูลแม่นยำ ผลลัพธ์แม่นยำ

อัลกอริธึมแมชชีนเลิร์นนิงก็เหมือนเด็กๆ พวกเขามีความเข้าใจเพียงเล็กน้อยหรือไม่มีเลยว่าอะไรดีหรือไม่ดี เช่นเดียวกับวิธีที่เด็กๆ เริ่มพูดภาษาหยาบคายซ้ำๆ ที่หยิบมาจากผู้ใหญ่ ข้อมูลที่ไม่ถูกต้องหรือไม่สอดคล้องกันส่งผลต่อโมเดล ML ได้ง่าย กุญแจสำคัญคือการป้อนข้อมูลคุณภาพสูงและแม่นยำ ซึ่งการประมวลผลข้อมูลล่วงหน้าเป็นขั้นตอนที่สำคัญ

อัลกอริธึมการเรียนรู้ของเครื่องมักถูกพูดถึงว่าเป็นคนทำงานหนัก แต่มีอัลกอริทึมที่มักถูกระบุว่าขี้เกียจ เรียกว่าอัลกอริธึมเพื่อนบ้านที่ใกล้ที่สุด k และเป็นอัลกอริธึมการจำแนกประเภทที่ยอดเยี่ยม