สิ่งที่คุณต้องการรู้เกี่ยวกับคำอธิบายประกอบรูปภาพในการเรียนรู้ของเครื่อง

เผยแพร่แล้ว: 2022-11-09

ระบบคอมพิวเตอร์ไม่สามารถตรวจจับ จำแนก และระบุภาพโดยเนื้อแท้ ซึ่งแตกต่างจากมนุษย์ อย่างไรก็ตาม ความก้าวหน้าทางเทคโนโลยีทำให้งานเหล่านี้เป็นไปได้ผ่านการมองเห็นด้วยคอมพิวเตอร์

ในฐานะที่เป็นส่วนหนึ่งของปัญญาประดิษฐ์สาขาต่างๆ คอมพิวเตอร์วิทัศน์อาศัยโมเดลการเรียนรู้ของเครื่องภายใต้การดูแลเพื่อดู ระบุ และประมวลผลข้อมูลจากอินพุตด้วยภาพ มันเลียนแบบปฏิกิริยาของบุคคลเมื่อมองสิ่งเร้า

โพสต์ที่เกี่ยวข้อง: Freebie PDF Editor และ Annotator ที่รับประกันคุณภาพ – UPDF

บริษัทผู้ผลิตที่มีชื่อเสียง เช่น รถยนต์ โดรน และอุปกรณ์ทางการแพทย์ ได้รวมเทคโนโลยีนี้เข้ากับผลิตภัณฑ์ของตน ในขณะที่สาขาเกิดใหม่ มูลค่าของภาคส่วนนี้ไม่ได้อยู่ในระดับปานกลาง โดยประมาณการไว้ที่ 11.7 พันล้านดอลลาร์ในปี 2564 ภาคส่วนนี้อาจมีมูลค่าถึง 21.3 พันล้านดอลลาร์สหรัฐภายในปี 2573 หากอุตสาหกรรมเติบโตในอัตรา 6.9% เริ่มต้นปีนี้

หากคุณอยากรู้เกี่ยวกับเรื่องนี้ คุณมาถูกที่แล้ว อ่านเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับคำอธิบายประกอบรูปภาพ โดยเริ่มจากคำถามที่ชัดเจนที่สุด

คำอธิบายประกอบภาพคืออะไร?

คำอธิบายประกอบรูปภาพหมายถึงกระบวนการที่รวมการติดป้ายกำกับรูปภาพที่มักจะเริ่มต้นด้วยอินพุตของมนุษย์และแพลตฟอร์มเครื่องมือคำอธิบายประกอบรูปภาพ เครื่องมือนี้อำนวยความสะดวกในการเพิ่มข้อมูลลงในภาพดิจิทัล ซึ่งจะถูกประมวลผลโดยอัลกอริทึมการเรียนรู้ด้วยเครื่องที่ทำงานในการเรียนรู้เชิงลึก

กระบวนการนี้สร้างข้อมูลเมตา โดยบอกเครื่องว่ามีอ็อบเจ็กต์ใดบ้าง การติดฉลากยังรวมถึงการให้ข้อมูลว่าสิ่งต่าง ๆ ในภาพมีความเกี่ยวข้องกันอย่างไร คำอธิบายประกอบรูปภาพเป็นงานที่สำคัญที่สุดในการเตรียมโมเดลการเรียนรู้ด้วยเครื่องสำหรับคอมพิวเตอร์วิทัศน์ พูดง่ายๆ ก็คือ มันทำให้เครื่องดูและประมวลผลภาพได้

มันทำงานอย่างไร?

การเรียนรู้เชิงลึกมักทำงานบนโครงข่ายประสาทเทียมหรือ ANN โมเดลนี้ทำงานคล้ายกับเส้นประสาทในสมองของมนุษย์ ทำให้เครื่องจักรสามารถปรับและปรับเปลี่ยนเอาต์พุตได้เหมือนมนุษย์ ส่วนย่อยของ CNN (Convolution Neural Networks) มักใช้ในการแก้ปัญหาที่เกี่ยวข้องกับการมองเห็นด้วยคอมพิวเตอร์

ด้วยข้อมูลคุณภาพสูงและแพลตฟอร์มที่เหมาะสมในการฝึก โมเดลสามารถระบุและจำแนกคุณสมบัติและวัตถุ จากนั้นจึงสร้างคำอธิบายตามวิธีการสอน

นั่นคือความสำคัญของโครงข่ายประสาทเทียม (ANN) ในการสร้างรากฐานสำหรับโมเดลการเรียนรู้ของเครื่องและแพลตฟอร์มปัญญาประดิษฐ์อื่นๆ

คำอธิบายประกอบภาพประเภทต่างๆ

วิศวกรแมชชีนเลิร์นนิงและสมาชิกในทีมใช้คำอธิบายประกอบประเภทต่างๆ สำหรับโครงการเฉพาะ ด้านล่างนี้เป็นวิธีการทั่วไปในการติดฉลากภาพดิจิทัล:

1. คำอธิบายประกอบกล่องขอบเขต

ผู้ใส่คำอธิบายประกอบจะวาดกล่องรอบๆ อ็อบเจ็กต์ที่ต้องการติดป้ายกำกับภายในรูปภาพที่ระบุ มักใช้เพื่อฝึกอัลกอริทึมให้รู้จักสิ่งต่างๆ เช่น รถยนต์ คน สัตว์ พืช และอื่นๆ อีกมากมาย

การติดฉลากอาจรวมถึงวัตถุเป้าหมายเพียงชิ้นเดียว เช่นเดียวกับยานยนต์ทุกคันในภาพ บางครั้งอาจประกอบด้วยหลายรายการหรือทั้งหมดในรูปภาพ ตัวอย่างเช่น นอกจากการจดจำรถยนต์แล้ว วิธีการประมวลผลอาจรวมถึงวัตถุอื่นๆ ในภาพด้วย เมื่อใช้โมเดลข้างต้น นอกจากรถยนต์แล้ว ทีมงานยังสามารถติดป้ายป้ายถนน ป้ายจราจร คนเดินเท้า และอื่นๆ

คำอธิบายประกอบของ bounding box ขั้นสูงรวมถึงการติดฉลากทรงลูกบาศก์หรือ 3D ซึ่งแสดงความลึกหรือระยะทางโดยประมาณของวัตถุเป้าหมายจากกันและกัน

2. คำอธิบายประกอบรูปหลายเหลี่ยม

ในคำอธิบายประกอบ ขอบเขตของวัตถุต้องได้รับการระบุเพื่อให้อัลกอริธึมสามารถติดป้ายกำกับรายการได้แม่นยำยิ่งขึ้น น่าเสียดายที่วัตถุเป้าหมายที่มีรูปร่างผิดปกติอาจเป็นเรื่องยากที่จะวางในกล่องที่มีขอบ คำอธิบายประกอบรูปหลายเหลี่ยมเป็นวิธีแก้ปัญหาที่ดี เนื่องจากช่วยให้สามารถนำเสนอขอบทั้งหมดของรายการได้อย่างถูกต้อง

สามารถใช้คำอธิบายประกอบรูปหลายเหลี่ยมในแอปพลิเคชันการจดจำใบหน้า และอื่นๆ อีกมากมาย คล้ายกับที่แอปพลิเคชันโซเชียลมีเดียของคุณทำเมื่อคุณอัปโหลดรูปภาพและเลือกแท็กเพื่อนของคุณโดยอัตโนมัติ

3. การจัดประเภทรูปภาพ

Image classification

คำอธิบายประกอบประเภทนี้อาศัยอัลกอริทึมในการระบุและจัดประเภทรูปภาพอย่างเหมาะสม เครื่องได้รับการตั้งโปรแกรมให้เชื่อมโยงวัตถุหนึ่งชิ้นและติดป้ายกำกับในลักษณะเดียวกันในวิธีนี้

ประเภทนี้มีประโยชน์เมื่อมองหาแอพพลิเคชั่นที่จัดหมวดหมู่สิ่งของต่าง ๆ ได้อย่างถูกต้อง เช่น ชนิดของสิ่งมีชีวิต การจำแนกรูปภาพยังสามารถใช้เพื่อระบุความผิดปกติภายในร่างกายมนุษย์ เช่นเดียวกับระบบการถ่ายภาพทางการแพทย์ กุญแจสู่ความสำเร็จในการจัดประเภทรูปภาพคือการป้อนข้อมูลคุณภาพสูงลงในโมเดลและฝึกฝนให้จัดหมวดหมู่รูปภาพได้อย่างมีประสิทธิภาพมากขึ้น

4. คำอธิบายประกอบ Polylines

วิธีการใส่คำอธิบายประกอบนี้หมายถึงการติดป้ายกำกับบนรูปภาพที่มีเส้นตรงและโค้ง วิธีการใส่คำอธิบายประกอบนี้ช่วยกำหนดขอบเขตและตรวจจับเส้นถนนและทางเท้า ทำให้มีประโยชน์ในการใช้งานด้านการจราจรและยานยนต์อัตโนมัติ อัลกอริธึมแมชชีนเลิร์นนิงภายใต้โมเดลนี้สามารถฝึกหุ่นยนต์ให้วางหรือบรรจุสิ่งของได้เป็นระเบียบเรียบร้อยในสายการผลิต

5. การแบ่งส่วนความหมาย

แทนที่จะโฟกัสที่วัตถุ ทีมงานสามารถติดป้ายกำกับภาพถ่ายดิจิทัลโดยใช้พิกเซล นั่นเป็นเหตุผลที่เรียกอีกอย่างว่าการสร้างเม็ดสีภาพ

ในกระบวนการฝึกอบรม ML นี้ ทีมคำอธิบายประกอบจะได้รับป้ายกำกับเซ็กเมนต์แทนชื่ออ็อบเจ็กต์และแท็ก แต่ละเซ็กเมนต์ถูกกำหนดสีเฉพาะ และควรให้ผู้ใส่คำอธิบายประกอบวาดรอบๆ ระบุพิกเซล และวางแท็กหรือป้ายกำกับที่เหมาะสม

แอปพลิเคชันอุตสาหกรรมคำอธิบายประกอบรูปภาพ

คอมพิวเตอร์วิทัศน์ถูกนำไปใช้ในอุตสาหกรรมต่างๆ ทั่วโลก ตลาดแบ่งออกเป็นฮาร์ดแวร์ ซอฟต์แวร์ และบริการ ในกลุ่มย่อยเหล่านี้ ฮาร์ดแวร์คาดว่าจะได้รับส่วนแบ่งรายได้ของภาคย่อยเหล่านี้ ในขณะที่ผู้ผลิตสร้างผลิตภัณฑ์ขั้นสูงขึ้น ผู้ใส่คำอธิบายประกอบสามารถเพิ่มความแม่นยำในการมองเห็นด้วยคอมพิวเตอร์เพื่อรองรับฟังก์ชันทางอุตสาหกรรมมากขึ้น เช่น:

การจดจำใบหน้า
ยานยนต์ไร้คนขับ
อากาศยานไร้คนขับหรือโดรน
ผลิตหุ่นยนต์
แอปพลิเคชั่นความปลอดภัยทางไซเบอร์
ระบบรักษาความปลอดภัยและเฝ้าระวัง
ระบบภาพสุขภาพ
อีคอมเมิร์ซและการแบ่งส่วนลูกค้ารายย่อย

รายการนี้ไม่ครบถ้วนสมบูรณ์เนื่องจากการใช้คอมพิวเตอร์วิทัศน์ยังคงขยายตัวอย่างต่อเนื่อง

บทสรุป

การนำคอมพิวเตอร์วิทัศน์มาใช้ในฟังก์ชันต่างๆ เช่น แอปพลิเคชันความปลอดภัยทางไซเบอร์และระบบภาพด้านการดูแลสุขภาพทำให้เกิดการลงทุนจำนวนมาก ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องทำให้ถูกต้องในครั้งแรก

โปรเจ็กต์คำอธิบายประกอบด้วยรูปภาพมีความสำคัญอย่างยิ่งในโครงการวิชันซิสเต็มคอมพิวเตอร์ เนื่องจากเป็นการฝึกโมเดลการเรียนรู้ของเครื่อง ชุดข้อมูลการฝึกอบรมควรมีความถูกต้องและมีคุณภาพสูงสำหรับโมเดล ML ที่ประสบความสำเร็จ ที่สำคัญกว่านั้น ทีมงานโครงการต้องรู้จักเครื่องมือและวิธีการใส่คำอธิบายประกอบที่เหมาะสมเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

อ้างอิง

1. https://www.techtarget.com/searchenterpriseai/definition/convolutional-neural-network

2. https://www.techopedia.com/definition/5967/artificial-neural-network-ann

3. https://www.geeksforgeeks.org/how-to-draw-bounding-boxes-on-an-image-in-pytorch/?ref=gcse

4. https://www.cnet.com/tech/tech-industry/facial-recognition-is-getting-better-at-making-matches-around-face-masks/