หัวข้อวิทยาศาสตร์ข้อมูลที่คุณต้องรู้
เผยแพร่แล้ว: 2022-09-11หัวข้อและสาขาวิชาวิทยาศาสตร์ข้อมูล เป็นหัวข้อทางธุรกิจที่พบบ่อยที่สุดในปัจจุบันโดยไม่ต้องสงสัย
นักการตลาด ผู้บริหารระดับ C นักการเงิน และอื่นๆ นอกเหนือจากนักวิเคราะห์ข้อมูลและผู้เชี่ยวชาญด้านข่าวกรองธุรกิจแล้ว ต้องการพัฒนาทักษะและความรู้ด้านข้อมูล
วิทยาศาสตร์ข้อมูลและการประมวลผลข้อมูล การเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ โครงข่ายประสาทเทียม และสาขาอื่นๆ ล้วนอยู่ภายใต้โลกของข้อมูล
ในหน้านี้ เราได้รวบรวมรายการหัวข้อวิทยาศาสตร์ข้อมูลพื้นฐานและขั้นสูงเพื่อช่วยให้คุณทราบว่าคุณควรมุ่งเน้นที่ใด
นอกจากนี้ยังเป็นหัวข้อที่กำลังเป็นที่นิยมซึ่งคุณสามารถใช้เป็นแนวทางในการช่วยคุณเตรียมความพร้อมสำหรับคำถามสัมภาษณ์งานด้านวิทยาศาสตร์ข้อมูล
ต้องอ่าน: เหตุใด Data Science จึงมีความสำคัญ
1. การขุดข้อมูล
นี่เป็นเพียงตัวอย่างหนึ่งของหัวข้อวิทยาศาสตร์ข้อมูลในวงกว้าง
การทำเหมืองข้อมูลเป็นกระบวนการวนซ้ำเพื่อระบุแนวโน้มในชุดข้อมูลขนาดใหญ่ รวมถึงการเรียนรู้ด้วยเครื่อง สถิติ ระบบฐานข้อมูล ตลอดจนแนวทางและเทคนิคอื่นๆ
เป้าหมายหลักสองประการของการทำเหมืองข้อมูลคือการระบุรูปแบบในชุดข้อมูลและเพื่อสร้างแนวโน้มและความสัมพันธ์เพื่อแก้ปัญหา
ข้อมูลจำเพาะของปัญหา การค้นหาข้อมูล การวางแผนข้อมูล การสร้างแบบจำลอง การประเมิน และการนำไปใช้เป็นขั้นตอนทั่วไปของกระบวนการทำเหมืองข้อมูล
การจำแนกประเภท การคาดการณ์ กฎหมายความสัมพันธ์ การลดข้อมูล การค้นพบข้อมูล การเรียนรู้ภายใต้การดูแลและไม่ได้รับการดูแล การจัดระเบียบชุดข้อมูล การสุ่มตัวอย่างจากชุดข้อมูล การสร้างแบบจำลอง และอื่นๆ ล้วนเป็นคำที่ใช้ในการทำเหมืองข้อมูล

2. การสร้างภาพข้อมูล
การนำเสนอข้อมูลในรูปแบบกราฟิกเรียกว่า data visualization .
ช่วยให้ผู้มีอำนาจตัดสินใจทุกระดับเห็นข้อมูลและการวิเคราะห์ที่แสดงเป็นภาพ ทำให้พวกเขามองเห็นรูปแบบหรือแนวโน้มที่มีคุณค่า
หัวข้อกว้างๆ อีกหัวข้อหนึ่งคือการแสดงภาพข้อมูล ซึ่งรวมถึงการตีความและการประยุกต์ใช้รูปแบบกราฟพื้นฐาน (เช่น กราฟเส้น กราฟแท่ง แผนภาพกระจาย กราฟฮิสโตแกรม แผนภาพกล่องและมัสสุ และแผนที่ความหนาแน่น)
กราฟเหล่านี้ขาดไม่ได้ คุณต้องเรียนรู้เกี่ยวกับตัวแปรหลายมิติ เช่น การเพิ่มตัวแปรและการใช้สี มาตราส่วน รูปร่าง และภาพเคลื่อนไหว
การจัดการยังเป็นปัจจัยที่นี่ ข้อมูลควรสามารถปรับขนาด ซูม กรอง และรวมได้ การใช้การแสดงภาพขั้นสูง เช่น แผนภูมิแผนที่และแผนที่ต้นไม้ ก็เป็นความสามารถที่ต้องการเช่นกัน

3. วิธีการและเทคนิคการลดขนาด
วิธีการลดขนาดนำมาซึ่งการเปลี่ยนชุดข้อมูลขนาดใหญ่เป็นชุดข้อมูลที่มีขนาดเล็กลงซึ่งนำเสนอข้อมูลที่เทียบเท่ากันในระยะเวลาอันสั้น
กล่าวอีกนัยหนึ่งการลดขนาดเป็นชุดของการเรียนรู้ด้วยเครื่องและเทคนิคทางสถิติและวิธีการลดจำนวนตัวแปรสุ่ม
การลดขนาดสามารถทำได้โดยใช้วิธีการและเทคนิคที่หลากหลาย
ค่าที่หายไป ความแปรปรวนต่ำ ต้นไม้การตัดสินใจ ป่าสุ่ม สหสัมพันธ์สูง การวิเคราะห์ปัจจัย การวิเคราะห์องค์ประกอบหลัก และการกำจัดคุณสมบัติย้อนหลังนั้นพบได้บ่อยที่สุด
4. การจำแนกประเภท
เทคนิคการทำเหมืองข้อมูลส่วนกลางสำหรับการกำหนดหมวดหมู่ให้กับคอลเลกชันของข้อมูลคือการจำแนกประเภท
จุดมุ่งหมายคือเพื่อช่วยในการรวบรวมการวิเคราะห์ข้อมูลและการคาดการณ์ที่เชื่อถือได้
หนึ่งในเทคนิคที่สำคัญที่สุดสำหรับการวิเคราะห์ชุดข้อมูลจำนวนมากอย่างมีประสิทธิภาพคือการจำแนกประเภท
หนึ่งในวิชาวิทยาศาสตร์ข้อมูลที่ร้อนแรงที่สุดคือการจำแนกประเภท นักวิทยาศาสตร์ข้อมูลควรจะสามารถแก้ปัญหาทางธุรกิจต่างๆ ได้โดยใช้อัลกอริธึมการจำแนกประเภท
สิ่งนี้เกี่ยวข้องกับการทำความเข้าใจวิธีการระบุปัญหาการจำแนกประเภท แสดงภาพข้อมูลโดยใช้การแสดงภาพแบบไม่มีตัวแปรและแบบสองตัวแปร แยกและเตรียมข้อมูล สร้างแบบจำลองการจำแนกประเภท และประเมินแบบจำลอง และอื่นๆ แนวคิดหลักบางส่วนในที่นี้คือตัวแยกประเภทเชิงเส้นและไม่เชิงเส้น

5. การถดถอยเชิงเส้นแบบง่ายและพหุคูณ
สำหรับการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรอิสระ X และตัวแปรตาม Y ตัวแบบการถดถอยเชิงเส้นเป็นหนึ่งในโมเดลทางสถิติพื้นฐานที่สุด
เป็นรูปแบบหนึ่งของการสร้างแบบจำลองทางคณิตศาสตร์ที่ช่วยให้คุณสามารถคาดการณ์และคาดการณ์เกี่ยวกับค่าของ Y ตามค่า X ต่างๆ
ตัวแบบการถดถอยเชิงเส้นอย่างง่ายและตัวแบบการถดถอยเชิงเส้นพหุคูณเป็นรูปแบบที่สำคัญสองรูปแบบของการถดถอยเชิงเส้น
คำเช่นสัมประสิทธิ์สหสัมพันธ์ เส้นถดถอย พล็อตตกค้าง สมการถดถอยเชิงเส้น และอื่นๆ มีความสำคัญ ดูตัวอย่างการถดถอยเชิงเส้นพื้นฐานบางส่วนเพื่อเริ่มต้น
6. K-เพื่อนบ้านที่ใกล้ที่สุด
อัลกอริธึม N-nearest-neighbor เป็นอัลกอริธึมการจำแนกข้อมูลที่กำหนดว่าจุดข้อมูลจะอยู่ในกลุ่มใดกลุ่มหนึ่งจากหลายกลุ่ม ขึ้นอยู่กับระยะห่างระหว่างจุดข้อมูลกับกลุ่ม
k-NN เป็นหนึ่งในหัวข้อวิทยาศาสตร์ข้อมูลที่ดีที่สุดเนื่องจากเป็นหนึ่งในวิธีการที่ไม่ใช่พารามิเตอร์ที่สำคัญที่สุดที่ใช้สำหรับการถดถอยและการจำแนกประเภท
นักวิทยาศาสตร์ข้อมูลควรจะสามารถระบุเพื่อนบ้าน ใช้กฎการจำแนกประเภท และเลือก k เพื่อระบุทักษะบางอย่าง อัลกอริทึมการทำเหมืองข้อความและการตรวจจับความผิดปกติที่สำคัญที่สุดอย่างหนึ่งคือ K-เพื่อนบ้านที่ใกล้ที่สุด
7. อ่าวไร้เดียงสา
คำว่า "Naive Bayes" หมายถึงกลุ่มของอัลกอริธึมการจำแนกประเภทตามทฤษฎีบทเบย์
Naive Bayes เป็นเทคนิคแมชชีนเลิร์นนิงที่มีการใช้งานที่สำคัญหลายอย่าง รวมถึงการตรวจหาสแปมและการจัดประเภทเอกสาร
มีหลากหลายรูปแบบอ่าวไร้เดียงสา Multinomial Naive Bayes, Bernoulli Naive Bayes และ Binarized Multinomial Naive Bayes เป็นเรื่องธรรมดาที่สุด
8. ต้นไม้การจำแนกและการถดถอย (CART)
อัลกอริธึมแผนผังการตัดสินใจมีบทบาทสำคัญในการสร้างแบบจำลองการคาดการณ์และอัลกอริธึมการเรียนรู้ของเครื่อง
โครงสร้างการตัดสินใจเป็นเทคนิคการสร้างแบบจำลองเชิงคาดการณ์ที่ใช้ในเหมืองข้อมูล สถิติ และการเรียนรู้ของเครื่องที่สร้างแบบจำลองการจำแนกประเภทหรือการถดถอยในรูปแบบของต้นไม้
สามารถใช้ได้ทั้งข้อมูลที่เป็นหมวดหมู่และต่อเนื่อง
วิธีแผนภูมิการตัดสินใจของ CART แผนผังการจำแนก ต้นไม้การถดถอย ไดโฮโทมิเซอร์แบบโต้ตอบ C4.5 C5.5 ตอการตัดสินใจ แผนผังการตัดสินใจแบบมีเงื่อนไข M5 และข้อกำหนดและหัวข้ออื่นๆ ที่คุณควรคุ้นเคยในพื้นที่นี้
9. การถดถอยโลจิสติก
การถดถอยโลจิสติก เช่นเดียวกับการถดถอยเชิงเส้น เป็นหนึ่งในหัวข้อและสาขาวิชาวิทยาศาสตร์ข้อมูลที่เก่าแก่ที่สุด และสำรวจความสัมพันธ์ระหว่างตัวแปรที่พึ่งพาได้และตัวแปรอิสระ
อย่างไรก็ตาม เมื่อตัวแปรตามเป็นไดโคโตมัส เราจะใช้การวิเคราะห์การถดถอยโลจิสติก (ไบนารี)
ฟังก์ชันซิกมอยด์, เส้นโค้งรูปตัว S, การถดถอยโลจิสติกพหุคูณพร้อมตัวแปรอธิบายหมวดหมู่, การถดถอยโลจิสติกแบบไบนารีพหุคูณด้วยการรวมกันของตัวทำนายแบบแบ่งหมวดหมู่และแบบต่อเนื่อง และคำอื่นๆ สามารถพบได้
10.โครงข่ายประสาทเทียม
ปัจจุบัน โครงข่ายประสาทเทียมประสบความสำเร็จอย่างมากในการเรียนรู้ของเครื่อง โครงข่ายประสาทเทียม (หรือที่เรียกว่าโครงข่ายประสาทเทียม) เป็นระบบฮาร์ดแวร์และซอฟต์แวร์ที่จำลองการทำงานของเซลล์ประสาทในสมองของมนุษย์
เป้าหมายหลักของการพัฒนาระบบเซลล์ประสาทเทียมคือการพัฒนาระบบที่สามารถฝึกให้เรียนรู้รูปแบบข้อมูลและทำหน้าที่ต่างๆ เช่น การจำแนกประเภท การถดถอย การทำนาย และอื่นๆ
เทคโนโลยีการเรียนรู้เชิงลึก เช่น โครงข่ายประสาทเทียม ใช้เพื่อแก้ปัญหาการประมวลผลสัญญาณที่ซับซ้อนและปัญหาการจดจำรูปแบบ คำสำคัญที่นี่คือ perceptron, back-propagation และ Hopfield Network ซึ่งทั้งหมดมีส่วนช่วยในการกำหนดและโครงสร้างของ Neural Networks
หัวข้อวิทยาศาสตร์ข้อมูลขั้นสูง
หัวข้อข้างต้นเป็นพื้นฐานบางประการของวิทยาศาสตร์ข้อมูล นี่คือรายการหัวข้อขั้นสูงเพิ่มเติม:
- การวิเคราะห์การเลือกปฏิบัติ
- กฏสมาคม
- การวิเคราะห์คลัสเตอร์
- อนุกรมเวลา
- การคาดการณ์ตามการถดถอย
- วิธีการปรับให้เรียบ
- การประทับเวลาและการสร้างแบบจำลองทางการเงิน
- การตรวจจับการฉ้อโกง
- วิศวกรรมข้อมูล – Hadoop, MapReduce, Pregel
- GIS และข้อมูลเชิงพื้นที่
คุณชอบวิชาอะไรในสาขาวิทยาศาสตร์ข้อมูล? แสดงความคิดเห็นด้วยความคิดของคุณ