คอมพิวเตอร์วิทัศน์: เครื่องจักรตีความโลกแห่งภาพอย่างไร

เผยแพร่แล้ว: 2021-05-05

คอมพิวเตอร์วิทัศน์เป็นสาขาของปัญญาประดิษฐ์ที่ทำให้เครื่องจักรสามารถ "มองเห็น" ได้

มนุษย์มีของประทานแห่งการมองเห็น และอวัยวะที่ทำให้เป็นไปได้นั้นซับซ้อน แม้ว่าจะเทียบไม่ได้กับการมองเห็นทางไกลของนกอินทรีหรือดวงตาของผีเสื้อขวดสีน้ำเงิน ซึ่งสามารถมองเห็นได้ในสเปกตรัม UV แต่ก็ยังคงทำงานได้ดีเยี่ยม

ส่วนหนึ่งของการเห็นคือการเข้าใจสิ่งที่คุณเห็น มิฉะนั้นจะเป็นเพียงการรับแสงที่สะท้อนจากวัตถุที่อยู่ตรงหน้าคุณ นี่คือสิ่งที่จะเกิดขึ้นถ้าคุณมีตาคู่หนึ่งแต่ไม่มีเยื่อหุ้มสมองมองเห็นภายในกลีบท้ายทอย (ส่วนหนึ่งของสมองที่รับผิดชอบการประมวลผลภาพ)

สำหรับคอมพิวเตอร์ กล้องคือดวงตา และการมองเห็นด้วยคอมพิวเตอร์ทำหน้าที่เป็นกลีบท้ายทอยและประมวลผลจำนวนพิกเซลนับพันบนภาพ กล่าวโดยย่อ คอมพิวเตอร์วิทัศน์ช่วยให้เครื่องจักรสามารถเข้าใจสิ่งที่พวกเขาเห็นได้

คอมพิวเตอร์วิทัศน์มีความสำคัญต่อนวัตกรรมทางเทคโนโลยีหลายอย่าง รวมถึงรถยนต์ที่ขับด้วยตนเอง การจดจำใบหน้า และความเป็นจริงเสริม จำนวนข้อมูลภาพที่เพิ่มขึ้นที่เราสร้างขึ้นเป็นสาเหตุหนึ่งที่ทำให้ฟิลด์นี้ของ   ปัญญาประดิษฐ์   กำลังเติบโตอย่างทวีคูณ การเพิ่มขึ้นนี้ยังทำให้นักวิทยาศาสตร์ข้อมูลสามารถฝึกอัลกอริทึมได้ง่ายขึ้น

พูดง่ายๆ สองภารกิจหลักของการมองเห็นด้วยคอมพิวเตอร์คือการระบุวัตถุของภาพและทำความเข้าใจถึงความหมายโดยรวม

มนุษย์ใช้การรับรู้เสมือนจริง ซึ่งเป็นผลจากวิวัฒนาการนับล้านปี เด็กวัย 5 ขวบสามารถตั้งชื่อรายการที่วางบนโต๊ะได้อย่างง่ายดาย และเข้าใจว่าการจัดวางทั้งหมดเป็นโต๊ะอาหาร สำหรับเครื่องจักร มันเป็นงานที่หนักหน่วง และนี่คือสิ่งที่คอมพิวเตอร์วิทัศน์กำลังพยายามแก้ไข

48.6 พันล้านดอลลาร์

คาดว่าจะเป็นมูลค่าของตลาดคอมพิวเตอร์วิทัศน์ภายในปี 2565

ที่มา: BitRefine

ปัญญาประดิษฐ์ทั่วไป ถ้าเป็นไปได้ จะไม่สามารถทำได้หากไม่มีคอมพิวเตอร์วิทัศน์ นั่นเป็นเพราะการระบุและตอบสนองต่อวัตถุรอบตัวอย่างแม่นยำเป็นหนึ่งในลักษณะเด่นของความฉลาดของเรา กล่าวอีกนัยหนึ่ง ในการสอนเครื่องจักรให้คิด คุณต้องให้ความสามารถในการมองเห็นแก่พวกเขา

นอกจากจำนวนภาพถ่ายและวิดีโอดิจิทัลที่เพิ่มขึ้นอย่างทวีคูณแล้ว ความก้าวหน้าในการเรียนรู้เชิงลึกและโครงข่ายประสาทเทียมยังมีส่วนช่วยในความรุ่งโรจน์ในปัจจุบันของการมองเห็นด้วยคอมพิวเตอร์

ประวัติโดยย่อของคอมพิวเตอร์วิทัศน์

การทดลองครั้งแรกในด้านการมองเห็นด้วยคอมพิวเตอร์เริ่มขึ้นในปี 1950 ด้วยความช่วยเหลือของเครือข่ายประสาทเทียมรูปแบบแรกๆ ใช้เพื่อตรวจจับขอบของวัตถุ และสามารถจัดเรียงวัตถุธรรมดาๆ เช่น วงกลมและสี่เหลี่ยม

คอมพิวเตอร์วิทัศน์ถูกมองว่าเป็นบันไดสู่ปัญญาประดิษฐ์ เนื่องจากการเลียนแบบระบบการมองเห็นของมนุษย์เป็นข้อกำหนดเบื้องต้นสำหรับการบรรลุสติปัญญาของมนุษย์ ดังนั้นในทศวรรษที่ 1960 มหาวิทยาลัยที่สำรวจ AI จึงมีส่วนเกี่ยวข้องกับการมองเห็นคอมพิวเตอร์ด้วย

ในปีพ.ศ. 2506 แลร์รี โรเบิร์ตส์ ซึ่งเป็นบิดาผู้ก่อตั้งอินเทอร์เน็ต ได้บรรยายถึงกระบวนการในการรับข้อมูล 3 มิติเกี่ยวกับวัตถุที่เป็นของแข็งจากภาพถ่าย 2 มิติ วิทยานิพนธ์ของเขาเรื่อง "Machine Perception of Three-Dimensional Solids" ยังคงเป็นที่ยอมรับว่าเป็นหนึ่งในงานพื้นฐานของสาขาคอมพิวเตอร์วิทัศน์

ต่อมาในปี 1966 Marvin Minsky หนึ่งในบรรพบุรุษผู้ก่อตั้ง AI เชื่อว่าการมองเห็นคอมพิวเตอร์สามารถทำได้ด้วยโครงการภาคฤดูร้อน แต่เราทุกคนรู้ว่าเกิดอะไรขึ้น กรอไปข้างหน้าสู่ยุค 70 เทคโนโลยีการมองเห็นด้วยคอมพิวเตอร์ถูกนำมาใช้สำหรับการใช้งานเชิงพาณิชย์ เช่น การรู้จำอักขระด้วยแสง (OCR) ซึ่งสามารถระบุข้อความที่เขียนด้วยลายมือหรือตัวอักษรที่พิมพ์ในภาพได้

อินเทอร์เน็ตซึ่งกลายเป็นกระแสหลักในช่วงทศวรรษ 1990 มีบทบาทสำคัญในการพัฒนาอย่างรวดเร็วของ Computer Vision ชุดรูปภาพขนาดใหญ่เข้าถึงได้ง่าย ซึ่งทำให้การฝึกอบรมอัลกอริทึมง่ายขึ้น

พลังการประมวลผลที่มีราคาถูกและมีอยู่มากมายยังช่วยเพิ่มความสะดวกในการฝึกอัลกอริธึมอีกด้วย นี่เป็นจุดที่ปฏิสัมพันธ์ระหว่างคอมพิวเตอร์กราฟิกและการมองเห็นของคอมพิวเตอร์เพิ่มขึ้น

ต่อไปนี้คือเหตุการณ์สำคัญบางประการในการมองเห็นด้วยคอมพิวเตอร์ซึ่งทำให้เป็นเทคโนโลยีที่แข็งแกร่งอย่างที่เป็นอยู่ในปัจจุบัน

พ.ศ. 2502: เครื่องสแกนภาพดิจิทัลเครื่องแรกถูกคิดค้นขึ้นเพื่อแปลงภาพเป็นตารางตัวเลข

ค.ศ. 1963: Larry Roberts บรรยายถึงกระบวนการรับข้อมูล 3 มิติของวัตถุที่เป็นของแข็งจากภาพ 2 มิติ

1966: Marvin Minsky สั่งให้นักศึกษาระดับบัณฑิตศึกษาติดกล้องเข้ากับคอมพิวเตอร์และอธิบายสิ่งที่เห็น

1980: คุนิฮิโกะ ฟุกุชิมะ ก่อตั้ง   นีโอคอนนิตรอน ถือว่าเป็นสารตั้งต้นของโครงข่ายประสาทเทียมสมัยใหม่ (CNN)

2001: Paul Viola และ Michael Jones นักวิจัยสองคนที่ MIT ได้สร้างเฟรมเวิร์กการตรวจจับใบหน้าแรกที่ทำงานแบบเรียลไทม์

2552: Google เริ่มโครงการรถยนต์ไร้คนขับ

2010: Google เปิดตัว Google Goggles แอปจดจำรูปภาพที่มีประโยชน์สำหรับการค้นหาตามรูปภาพที่ถ่ายโดยอุปกรณ์มือถือ ในปีเดียวกันนั้น Facebook เริ่มใช้การจดจำใบหน้าเพื่อแท็กผู้คนบนภาพถ่ายอย่างมีประสิทธิภาพ

2011: เทคโนโลยีการจดจำใบหน้าถูกนำมาใช้เพื่อยืนยัน   อัตลักษณ์ของอุซามะห์ บิน ลาเดน   หลังจากที่เขาถูกฆ่าตาย

2012: Google Brain สร้างโครงข่ายประสาทเทียมที่ประกอบด้วยโปรเซสเซอร์คอมพิวเตอร์ 16,000 ตัว ซึ่งสามารถจดจำรูปภาพของแมวได้โดยใช้อัลกอริธึมการเรียนรู้เชิงลึก ในปีเดียวกันนั้น AlexNet ซึ่งเป็นเครือข่ายประสาทเทียมได้รับข้อผิดพลาด 5 อันดับแรกที่ 15.3% ใน ImageNet 2012 Challenge

2014: Tesla เปิดตัว Autopilot ในรถยนต์ไฟฟ้ารุ่น S ระบบขับเคลื่อนอัตโนมัติไม่เพียงแต่ทำงานแบบออฟไลน์ แต่ยังจอดได้อย่างแม่นยำอีกด้วย

2015: Google เปิดตัว   TensorFlow ซึ่งเป็นไลบรารีซอฟต์แวร์โอเพ่นซอร์สและฟรีสำหรับการเรียนรู้ของเครื่อง ในปีเดียวกัน Google ได้เปิดตัว FaceNet สำหรับการจดจำใบหน้า

2016: เปิดตัว Pokemon GO เกมมือถือที่ใช้ AR ที่มีชื่อเสียง

2017: Apple เปิดตัว iPhone X พร้อมคุณสมบัติจดจำใบหน้า

2019: HighCourt แห่งสหราชอาณาจักรอนุญาตให้ใช้เทคโนโลยีจดจำใบหน้าอัตโนมัติเพื่อค้นหาผู้คนในฝูงชน

คอมพิวเตอร์วิทัศน์ทำงานอย่างไร

คอมพิวเตอร์วิทัศน์เริ่มต้นจากจุดเล็กๆ และจบลงที่ใหญ่

เป็นไปตามเทคนิคการประมวลผลแบบหลายชั้น ซึ่งเริ่มต้นด้วยการระบุและวิเคราะห์คุณลักษณะระดับต่ำ เช่น พิกเซลและสี ค่อยๆ วิเคราะห์คุณลักษณะระดับสูง เช่น เส้นและวัตถุ

สมมติว่าคุณเห็นภาพคนวิ่ง แม้ว่าจะเป็นภาพนิ่ง แต่โดยส่วนใหญ่แล้ว คุณจะสามารถเข้าใจบริบทได้ ผู้คนกำลังวิ่งหนีจากบางสิ่ง วิ่งเข้าหาบางสิ่ง หรือวิ่งตามสบาย นี่เป็นตัวอย่างทั่วไปของการประมวลผลแบบขนานที่เกิดขึ้นแบบเรียลไทม์

เป็นเรื่องง่ายสำหรับเราที่จะเข้าใจอารมณ์และบริบทของภาพ คอมพิวเตอร์ยังคงเรียนรู้การค้าขาย แต่ความเร็วของพวกเขานั้นน่าประทับใจสำหรับหน่วยงานที่ไม่ใช่ชีวภาพ

เคยสงสัยหรือไม่ว่าคอมพิวเตอร์สามารถให้ข้อมูลที่ถูกต้องสำหรับบางอย่างเช่นการพยากรณ์อากาศได้อย่างไร นั่นคือจุดที่คอมพิวเตอร์วิทัศน์ทำงานในรูปแบบของการประมวลผลแบบขนาน กล่าวคือ การทำงานกับแหล่งข้อมูลที่ซับซ้อนหลายแหล่งในคราวเดียว

สำหรับเครื่องจักร รูปภาพเป็นเพียงคอลเล็กชันของพิกเซล ต่างจากมนุษย์ พวกเขาไม่เข้าใจความหมายทางความหมายของรูปภาพ และสามารถตรวจจับได้เฉพาะพิกเซลเท่านั้น เป้าหมายของการมองเห็นด้วยคอมพิวเตอร์คือการย่อ ช่องว่างทางความหมาย นั้น

เมื่อรังสีของแสงกระทบกับเรตินาของดวงตา เซลล์พิเศษที่เรียกว่าเซลล์รับแสงจะเปลี่ยนแสงเป็นสัญญาณไฟฟ้า สัญญาณไฟฟ้าเหล่านี้จะถูกส่งไปยังสมองผ่านเส้นประสาทตา จากนั้นสมองจะแปลงสัญญาณเหล่านี้เป็นภาพที่เราเห็น

กระบวนการนี้ดำเนินไปจนกระทั่งสัญญาณไฟฟ้าที่ส่งไปถึงสมองดูเหมือนตรงไปตรงมา วิธีการที่สมองประมวลผลสัญญาณเหล่านี้และแปลงเป็นภาพนั้นยังไม่เป็นที่เข้าใจอย่างถ่องแท้ แม่นยำกว่านั้น สมองคือกล่องดำ คอมพิวเตอร์วิทัศน์ก็เช่นกัน

มีโครงข่ายประสาทและอื่น ๆ   การเรียนรู้ของเครื่อง   อัลกอริธึมที่พยายาม เลียนแบบ สมองของมนุษย์ พวกเขาทำให้การมองเห็นด้วยคอมพิวเตอร์เป็นไปได้และช่วยให้เข้าใจว่าภาพนั้นเกี่ยวกับอะไร แม้แต่ในกรณีของอัลกอริธึม นักวิจัย ML ก็ยังไม่ทราบถึงวิธีการทำงานของมันอย่างเต็มที่ อย่างไรก็ตาม เนื่องจากผลลัพธ์สามารถวัดได้ เราจึงสามารถตัดสินความถูกต้องของแต่ละอัลกอริทึมได้

คอมพิวเตอร์วิทัศน์เป็นกระบวนการที่สามารถอธิบายได้ เช่นเดียวกับการมองเห็นของมนุษย์ แต่ไม่มีใครแน่ใจว่าโครงข่ายประสาทเทียมทำงานอย่างไรเพื่อทำความเข้าใจภาพ หรือใกล้เคียงกับวิธีที่มนุษย์ประมวลผลข้อมูลภาพจากระยะไกลหรือไม่

กล่าวง่ายๆ ว่าการมองเห็นด้วยคอมพิวเตอร์เป็นเรื่องของการจดจำรูปแบบ ใช้เทคนิคแมชชีนเลิร์นนิง เช่น   การเรียนรู้แบบไม่มีผู้ดูแล อัลกอริทึมได้รับการฝึกฝนให้รู้จักรูปแบบในข้อมูลภาพ หากคุณกำลังคิดถึงจำนวนภาพที่ต้องการ อย่างน้อยที่สุดก็หลายล้านหรือหลายพันภาพ

สมมติว่าคุณต้องการให้อัลกอริทึมระบุสุนัขในภาพ หากคุณกำลังติดตามเทคนิคการเรียนรู้แบบไม่มีผู้ดูแล คุณไม่จำเป็นต้องติดป้ายกำกับรูปภาพใดๆ ว่าเป็นสุนัข แต่หลังจากวิเคราะห์ภาพนับพันหรือล้านภาพ เครื่องจะเรียนรู้ลักษณะเฉพาะของสุนัข

กล่าวโดยย่อ คอมพิวเตอร์สามารถรับรู้คุณลักษณะเฉพาะที่ทำให้สัตว์ (หรือวัตถุ) เป็นสุนัขได้ ก็ยังไม่รู้ว่าสัตว์ตัวนั้นเรียกว่า "สุนัข" แต่จะมีข้อมูลและประสบการณ์เพียงพอที่จะระบุว่ารูปภาพที่ไม่มีป้ายกำกับมีสุนัขหรือไม่

หากคุณต้องการให้กระบวนการเรียนรู้เร็วขึ้น คุณสามารถไปที่   การเรียนรู้ภายใต้การดูแล ในการเรียนรู้ภายใต้การดูแล รูปภาพจะมีป้ายกำกับ ซึ่งทำให้งานง่ายขึ้นสำหรับอัลกอริทึม

การตรวจสอบภาพในระดับพิกเซล

เมื่อพูดถึงอัลกอริธึมที่วิเคราะห์รูปภาพ พวกเขาไม่ได้ตรวจสอบรูปภาพโดยรวมเหมือนมนุษย์ แต่พวกเขาจะดูที่แต่ละพิกเซล ซึ่งเป็นองค์ประกอบที่เล็กที่สุดที่สามารถระบุตำแหน่งได้ของภาพแรสเตอร์

เพื่อความเรียบง่าย ลองพิจารณาภาพระดับสีเทา ความสว่างของแต่ละพิกเซล เรียกว่าค่าพิกเซล แทนด้วยจำนวนเต็ม 8 บิต โดยมีค่าช่วงที่เป็นไปได้ตั้งแต่ 0 ถึง 255 ศูนย์จะถือเป็นสีดำ และ 255 เป็นสีขาว หากเรากำลังศึกษาภาพสี สิ่งต่างๆ จะซับซ้อนมากขึ้น

เมื่อเราบอกว่าอัลกอริทึมวิเคราะห์และเรียนรู้ มันคือการเรียนรู้ค่าพิกเซลเหล่านี้จริงๆ กล่าวอีกนัยหนึ่ง คอมพิวเตอร์เห็นและรับรู้ภาพตามค่าตัวเลขดังกล่าว นอกจากนี้ยังหมายความว่าอัลกอริธึมค้นหารูปแบบในภาพโดยดูจากค่าตัวเลขและเปรียบเทียบภาพในลักษณะเดียวกัน

กล่าวโดยย่อ สำหรับเครื่องจักร การทำความเข้าใจรูปภาพเป็นกระบวนการทางคณิตศาสตร์ที่เกี่ยวข้องกับอาร์เรย์ของจำนวนเต็ม

จากนั้นก็มีโครงข่ายประสาทเทียม

Convolutional Neural Network (CNN หรือ ConvNet) คือ a   การเรียนรู้อย่างลึกซึ้ง   อัลกอริธึมที่สามารถดึงคุณสมบัติจากชุดข้อมูลภาพ เป็นหมวดหมู่ของโครงข่ายประสาทเทียมและมีความสามารถที่น่าประทับใจสำหรับการจดจำภาพและการจัดหมวดหมู่ อัลกอริธึมการมองเห็นด้วยคอมพิวเตอร์เกือบทุกตัวใช้โครงข่ายประสาทเทียม

แม้ว่า CNN จะถูกประดิษฐ์ขึ้นในช่วงปี 1980 แต่ก็ไม่สามารถทำได้จนกว่าจะมีการเปิดตัวหน่วยประมวลผลกราฟิก (GPU) GPU สามารถเร่งโครงข่ายประสาทเทียมและโครงข่ายประสาทอื่น ๆ ได้อย่างมาก ในปี 2547 การใช้ GPU ของ CNN นั้นเร็วกว่าการใช้งาน CPU ที่เทียบเท่ากันถึง 20 เท่า

CNN ทำอย่างไร?

ConvNets เรียนรู้จากภาพที่ป้อนเข้าและปรับพารามิเตอร์ (น้ำหนักและอคติ) เพื่อให้การคาดการณ์ดีขึ้น CNN จัดการกับรูปภาพต่างๆ เช่น เมทริกซ์ และดึงข้อมูลเชิงพื้นที่ออกจากรูปภาพ เช่น ขอบ ความลึก และพื้นผิว ConvNets ทำได้โดยใช้   ชั้นบิด   และ   การรวมกลุ่ม

สถาปัตยกรรมของ CNN นั้นคล้ายคลึงกับรูปแบบการเชื่อมต่อของเซลล์ประสาทในสมองของเรา CNNs ถูกสร้างขึ้นโดยได้รับแรงบันดาลใจจากการจัดระเบียบของ visual cortex ซึ่งเป็นพื้นที่ของสมองที่รับและประมวลผลข้อมูลภาพ

ซีเอ็นเอ็นประกอบด้วยเซลล์ประสาทเทียมหลายชั้นที่เรียกว่าเพอร์เซ็ปตรอน ซึ่งเป็นคู่กันทางคณิตศาสตร์ของเซลล์ประสาททางชีววิทยาในสมองของเรา Perceptrons เลียนแบบการทำงานของคู่หูทางชีววิทยาอย่างคร่าว ๆ เช่นกัน

Convolutional Neural net ประกอบด้วย เลเยอร์อินพุต เลเยอร์ ที่ ซ่อนอยู่หลายเลเยอร์ และ เลเยอร์เอาต์พุต

เลเยอร์ที่ซ่อนอยู่ประกอบด้วย:

  • ชั้น Convolutional
  • เลเยอร์ฟังก์ชันการเปิดใช้งานเชิงเส้นตรง (ReLU) ที่แก้ไขแล้ว
  • เลเยอร์การทำให้เป็นมาตรฐาน
  • การรวมชั้น
  • เลเยอร์ที่เชื่อมต่ออย่างเต็มที่

นี่คือคำอธิบายง่ายๆ ว่าพวกเขาทำอะไร

เมื่อ CNN ประมวลผลรูปภาพ แต่ละชั้นจะแยกคุณลักษณะที่แตกต่างจากพิกเซลของรูปภาพ ชั้นแรกมีหน้าที่ในการตรวจจับลักษณะพื้นฐาน เช่น ขอบแนวนอนและแนวตั้ง

เมื่อคุณเจาะลึกเข้าไปในโครงข่ายประสาทเทียม เลเยอร์ต่างๆ จะเริ่มตรวจจับคุณสมบัติที่ซับซ้อน เช่น รูปร่างและมุม เลเยอร์สุดท้ายของโครงข่ายประสาทเทียมสามารถตรวจจับลักษณะเฉพาะได้ เช่น ใบหน้า อาคาร และสถานที่

เลเยอร์เอาต์พุตของโครงข่ายประสาทเทียมมีตารางที่มีข้อมูลตัวเลข ตารางนี้แสดงถึงความน่าจะเป็นที่มีการระบุวัตถุเฉพาะในภาพ

ตัวอย่างงานคอมพิวเตอร์วิทัศน์

คอมพิวเตอร์วิทัศน์เป็นสาขาวิชาวิทยาการคอมพิวเตอร์และ AI ที่ช่วยให้คอมพิวเตอร์มองเห็นได้ มีวิธีการมากมายที่คอมพิวเตอร์สามารถใช้ประโยชน์จากฟิลด์นี้ได้ ความพยายามที่จะระบุวัตถุหรือกิจกรรมในภาพเหล่านี้เรียกว่างานวิชันซิสเต็ม

ต่อไปนี้คืองานวิชันซิสเต็มทั่วไปบางส่วน

  • การตรวจจับวัตถุ: เทคนิคที่ใช้ในการตรวจจับวัตถุเฉพาะในภาพ เวอร์ชันขั้นสูงสามารถระบุวัตถุหลายชิ้นในภาพเดียวได้ เช่น อาคาร รถยนต์ ผู้คน สัญญาณไฟจราจร และอื่นๆ ในภาพของถนนที่พลุกพล่าน
  • การจัดหมวดหมู่รูปภาพ: การจัดกลุ่มรูปภาพเป็นหมวดหมู่ นอกจากนี้ยังสามารถเรียกได้ว่าเป็นกระบวนการกำหนดป้ายกำกับให้กับรูปภาพ
  • การจดจำใบหน้า: รูปแบบขั้นสูงของการจดจำวัตถุที่สามารถระบุมนุษย์ในภาพและจดจำใบหน้าได้
  • การแบ่งส่วนรูปภาพ: การแบ่งพาร์ติชันรูปภาพออกเป็นหลายส่วนเพื่อตรวจสอบแยกกัน
  • การตรวจจับรูปแบบ: กระบวนการรับรู้รูปแบบและความสม่ำเสมอในข้อมูลภาพ
  • การตรวจจับขอบ: กระบวนการตรวจจับขอบของวัตถุเพื่อระบุองค์ประกอบของภาพได้ดียิ่งขึ้น
  • การจับคู่คุณสมบัติ: ประเภทของการตรวจจับรูปแบบที่ตรงกับความคล้ายคลึงกันในรูปภาพเพื่อจัดประเภท

ซอฟต์แวร์จดจำภาพ   แอปพลิเคชันอาจใช้เทคนิคคอมพิวเตอร์วิทัศน์อย่างใดอย่างหนึ่งเหล่านี้ แอปพลิเคชันขั้นสูงเช่นรถยนต์ที่ขับด้วยตนเองจะใช้เทคนิคหลายอย่างพร้อมกัน

แอปพลิเคชั่นคอมพิวเตอร์วิทัศน์ในโลกแห่งความเป็นจริง

คอมพิวเตอร์วิทัศน์ถูกหลอมรวมเข้ากับผลิตภัณฑ์หลายอย่างที่เราใช้อยู่ในปัจจุบัน Facebook แท็กคนโดยใช้ CV โดยอัตโนมัติ Google Photos ใช้เพื่อจัดกลุ่มรูปภาพ และแอปพลิเคชันซอฟต์แวร์ เช่น Adobe Lightroom ใช้เพื่อปรับปรุงรายละเอียดของภาพที่ซูม นอกจากนี้ยังใช้อย่างกว้างขวางสำหรับการควบคุมคุณภาพในกระบวนการผลิตที่อาศัยระบบอัตโนมัติ

ต่อไปนี้คือแอปพลิเคชันคอมพิวเตอร์วิทัศน์ในโลกแห่งความเป็นจริงที่คุณอาจเคยพบเจอ

การจดจำใบหน้า

กรณีการใช้งานคอมพิวเตอร์วิทัศน์ที่ดีที่สุดกรณีหนึ่งคือในด้านของการจดจำใบหน้า มันได้รับความนิยมหลักในปี 2560 ด้วยรุ่น iPhone X ของ Apple และตอนนี้เป็นคุณสมบัติมาตรฐานในสมาร์ทโฟนส่วนใหญ่

เทคโนโลยีการจดจำใบหน้าถูกใช้เป็นคุณสมบัติการรับรองความถูกต้องหลายครั้ง มิฉะนั้นจะใช้ในการระบุตัวบุคคลเช่นในกรณีของ Facebook เป็นที่ทราบกันดีว่าหน่วยงานบังคับใช้กฎหมายใช้เทคโนโลยีการจดจำใบหน้าเพื่อระบุผู้ฝ่าฝืนกฎหมายในฟีดวิดีโอ

รถขับเอง

รถยนต์ที่ขับด้วยตนเองต้องอาศัยการมองเห็นของคอมพิวเตอร์เป็นหลักในการวิเคราะห์ภาพแบบเรียลไทม์ ช่วยให้รถยนต์ไร้คนขับสามารถเข้าใจสภาพแวดล้อมได้ อย่างไรก็ตาม เทคโนโลยีที่อยู่เบื้องหลังรถยนต์ดังกล่าวยังอยู่ในขั้นเริ่มต้น และต้องมีการพัฒนาเพิ่มเติมก่อนจึงจะสามารถนำไปใช้บนถนนที่มีการจราจรหนาแน่นได้อย่างมั่นใจ

ยานพาหนะที่ขับเคลื่อนด้วยตนเองแทบจะเป็นไปไม่ได้เลยหากไม่มีคอมพิวเตอร์วิทัศน์ เทคโนโลยีนี้ช่วยให้รถยนต์ขับเคลื่อนอัตโนมัติประมวลผลข้อมูลภาพแบบเรียลไทม์ ตัวอย่างหนึ่งของแอปพลิเคชันคือการสร้างแผนที่ 3 มิติ นอกจากการระบุและจำแนกวัตถุแล้ว คอมพิวเตอร์วิทัศน์ยังสามารถช่วยสร้างแผนที่ 3 มิติ เพื่อให้ยานพาหนะได้สัมผัสถึงสภาพแวดล้อมโดยรอบ

การตรวจจับยานพาหนะและช่องทางเดินรถเป็นอีกสองกรณีการใช้งานที่สำคัญ จากนั้นมีการตรวจจับพื้นที่ว่างซึ่งค่อนข้างมีชื่อเสียงในอาณาจักรรถยนต์ที่ขับเคลื่อนด้วยตนเอง ตามชื่อที่แนะนำ ใช้เพื่อกำหนดพื้นที่ที่ปราศจากสิ่งกีดขวางรอบรถ การตรวจจับพื้นที่ว่างมีประโยชน์เมื่อรถยนต์ขับเคลื่อนอัตโนมัติเข้าใกล้รถที่เคลื่อนที่ช้าและจำเป็นต้องเปลี่ยนเลน

ถ่ายภาพทางการแพทย์

คอมพิวเตอร์วิทัศน์ใช้ในอุตสาหกรรมการดูแลสุขภาพเพื่อทำการวินิจฉัยและติดตามความก้าวหน้าของโรคได้เร็วและแม่นยำยิ่งขึ้น การใช้การจดจำรูปแบบ แพทย์สามารถตรวจพบอาการของโรคในระยะเริ่มต้น เช่น มะเร็ง ซึ่งอาจไม่สามารถมองเห็นได้ด้วยตามนุษย์

การถ่ายภาพทางการแพทย์เป็นแอปพลิเคชั่นที่สำคัญอีกอย่างหนึ่งที่มีประโยชน์มากมาย การวิเคราะห์ภาพทางการแพทย์ช่วยลดเวลาที่แพทย์ใช้ในการวิเคราะห์ภาพ การส่องกล้อง, การถ่ายภาพรังสีเอกซ์, อัลตราซาวนด์และการถ่ายภาพด้วยคลื่นสนามแม่เหล็ก (MRI) เป็นสาขาวิชาการถ่ายภาพทางการแพทย์บางส่วนที่ใช้การมองเห็นด้วยคอมพิวเตอร์

การจับคู่ CNN กับภาพทางการแพทย์ ผู้เชี่ยวชาญทางการแพทย์สามารถสังเกตอวัยวะภายใน ตรวจหาความผิดปกติ และเข้าใจสาเหตุและผลกระทบของโรคที่เฉพาะเจาะจงได้ นอกจากนี้ยังช่วยให้แพทย์ติดตามการพัฒนาของโรคและความคืบหน้าของการรักษา

การกลั่นกรองเนื้อหา

เครือข่ายโซเชียลมีเดียเช่น Facebook ต้องตรวจสอบโพสต์ใหม่นับล้านทุกวัน เป็นไปไม่ได้ที่จะมีทีมตรวจสอบเนื้อหาที่ตรวจสอบทุกภาพหรือวิดีโอที่โพสต์ ดังนั้น ระบบคอมพิวเตอร์วิทัศน์จึงถูกนำมาใช้เพื่อทำให้กระบวนการเป็นอัตโนมัติ

350 ล้าน

รูปภาพจะถูกอัปโหลดทุกวันไปยัง Facebook

ที่มา: รายงานโซเชียล

คอมพิวเตอร์วิทัศน์สามารถช่วยแพลตฟอร์มโซเชียลมีเดียดังกล่าววิเคราะห์เนื้อหาที่อัปโหลดและตั้งค่าสถานะเนื้อหาที่ถูกแบน บริษัทยังสามารถใช้อัลกอริธึมการเรียนรู้เชิงลึกสำหรับการวิเคราะห์ข้อความเพื่อระบุและบล็อกเนื้อหาที่ไม่เหมาะสม

การเฝ้าระวัง

ฟีดวิดีโอการเฝ้าระวังเป็นหลักฐานที่มั่นคง พวกเขาสามารถช่วยค้นพบผู้ฝ่าฝืนกฎหมายและยังช่วยให้ผู้เชี่ยวชาญด้านความปลอดภัยดำเนินการก่อนที่ความกังวลเล็กน้อยจะกลายเป็นหายนะ

แทบจะเป็นไปไม่ได้เลยที่มนุษย์จะจับตาดูภาพจากกล้องวงจรปิดจากหลายแหล่ง แต่ด้วยการมองเห็นด้วยคอมพิวเตอร์ งานนี้จึงง่ายขึ้น ระบบเฝ้าระวังที่ขับเคลื่อนด้วย CV สามารถสแกนภาพสดและตรวจจับผู้ที่มีพฤติกรรมที่น่าสงสัย

การจดจำใบหน้าสามารถใช้เพื่อระบุอาชญากรที่ต้องการได้ และด้วยเหตุนี้จึงป้องกันอาชญากรรมได้ สามารถใช้เทคโนโลยีการจดจำภาพเพื่อตรวจจับบุคคลที่ถือวัตถุอันตรายในพื้นที่แออัด นอกจากนี้ยังใช้เพื่อกำหนดจำนวนที่จอดรถฟรีในห้างสรรพสินค้า

ความท้าทายในการมองเห็นคอมพิวเตอร์

การช่วยให้คอมพิวเตอร์มองเห็นมีความท้าทายมากกว่าที่เราคิด

Marvin Minsky มั่นใจว่าการมองเห็นด้วยคอมพิวเตอร์สามารถแก้ไขได้โดยการเชื่อมต่อกล้องเข้ากับคอมพิวเตอร์ แม้หลังจากการวิจัยมาหลายทศวรรษ เราก็ไม่สามารถแก้ปัญหาได้ สำหรับมนุษย์ การมองเห็นทำได้ง่ายดายมาก นั่นเป็นเหตุผลว่าทำไมการมองเห็นด้วยคอมพิวเตอร์จึงถูกมองว่าเป็นปัญหาง่ายๆ และควรได้รับการแก้ไขในช่วงฤดูร้อน

ความรู้ของเรามีจำกัด

เหตุผลหนึ่งที่เราไม่สามารถแยกแยะปัญหาการมองเห็นของคอมพิวเตอร์ได้อย่างเต็มที่ก็คือความรู้ที่จำกัดของเราในตัวเอง เราไม่มีความเข้าใจอย่างถ่องแท้ว่าระบบการมองเห็นของมนุษย์ทำงานอย่างไร แน่นอนว่าการศึกษาการมองเห็นทางชีววิทยามีความก้าวหน้าอย่างรวดเร็ว แต่ก็ยังมีหนทางอีกยาวไกล

โลกทัศน์นั้นซับซ้อน

ปัญหาที่ท้าทายในด้าน CV คือความซับซ้อนตามธรรมชาติของโลกภาพ วัตถุสามารถมองเห็นได้จากทุกมุม ภายใต้สภาวะแสงใดๆ และจากระยะทางที่แตกต่างกัน โดยทั่วไปแล้ว ระบบออพติคอลของมนุษย์สามารถดูและเข้าใจวัตถุในรูปแบบที่ไม่สิ้นสุดดังกล่าวได้ทั้งหมด แต่ความสามารถของเครื่องจักรยังค่อนข้างจำกัด

ข้อจำกัดอีกประการหนึ่งคือการขาดสามัญสำนึก แม้จะผ่านการวิจัยมาหลายปี เราก็ยังไม่ได้สร้างสามัญสำนึกขึ้นมาใหม่ในระบบ AI มนุษย์สามารถใช้สามัญสำนึกและความรู้พื้นฐานเกี่ยวกับวัตถุเฉพาะเพื่อให้เข้าใจสิ่งเหล่านั้นได้ นอกจากนี้ยังช่วยให้เราเข้าใจความสัมพันธ์ระหว่างองค์ประกอบต่างๆ ของภาพได้อย่างง่ายดาย

มนุษย์เก่งเรื่องการคาดเดา อย่างน้อยเมื่อเทียบกับคอมพิวเตอร์ การตัดสินใจที่ไม่เลวร้ายนั้นง่ายกว่าสำหรับเรา ถึงแม้ว่าเราจะไม่เคยประสบปัญหาเฉพาะเจาะจงมาก่อนก็ตาม แต่สิ่งเดียวกันนี้ไม่เป็นความจริงสำหรับเครื่องจักร หากพวกเขาพบกับสถานการณ์ที่ไม่เหมือนกับตัวอย่างการฝึก พวกเขามักจะทำตัวไร้เหตุผล

อัลกอริธึมการมองเห็นด้วยคอมพิวเตอร์จะดีขึ้นอย่างเห็นได้ชัดหากคุณฝึกมันด้วยชุดข้อมูลภาพที่ใหม่กว่า แต่โดยพื้นฐานแล้ว พวกเขากำลังพยายามจับคู่รูปแบบพิกเซล กล่าวอีกนัยหนึ่ง นอกเหนือจากความรู้เกี่ยวกับพิกเซลแล้ว พวกเขาไม่เข้าใจสิ่งที่เกิดขึ้นในภาพอย่างแน่นอน แต่การนึกถึงสิ่งมหัศจรรย์ที่ระบบขับเคลื่อนด้วย CV ทำในรถยนต์ที่ขับเคลื่อนด้วยตนเองนั้นเป็นสิ่งที่น่าทึ่ง

CV นั้นถูกผูกไว้กับฮาร์ดแวร์

ในการมองเห็นด้วยคอมพิวเตอร์ เวลาแฝงเป็นสิ่งชั่วร้าย

ในการใช้งานจริง เช่น รถยนต์ที่ขับด้วยตนเอง การประมวลผลภาพและการวิเคราะห์จะต้องเกิดขึ้นแทบจะในทันที ตัวอย่างเช่น หากรถยนต์ขับเคลื่อนอัตโนมัติที่เดินทางด้วยความเร็ว 30 ไมล์ต่อชั่วโมงตรวจพบสิ่งกีดขวางที่อยู่ห่างออกไป 100 เมตร จะมีเวลาเพียงไม่กี่วินาทีในการหยุดหรือเลี้ยวอย่างปลอดภัย

เพื่อให้รถทำงานตรงเวลา ระบบ AI จะต้องเข้าใจสภาพแวดล้อมและตัดสินใจในเสี้ยววินาที เนื่องจากระบบวิชันซิสเต็มของคอมพิวเตอร์ต้องอาศัยส่วนประกอบฮาร์ดแวร์อย่างกล้องเป็นอย่างมาก ความล่าช้าแม้เพียงเสี้ยววินาทีในการส่งข้อมูลหรือการคำนวณก็อาจทำให้เกิดอุบัติเหตุร้ายแรงได้

AI ที่แคบไม่เพียงพอ

นักวิจัย AI บางคนรู้สึกว่าการมองเห็นคอมพิวเตอร์ 20/20 สามารถทำได้ก็ต่อเมื่อเราปลดล็อกปัญญาประดิษฐ์ทั่วไป (AGI) นั่นเป็นเพราะว่าจิตสำนึกดูเหมือนจะมีบทบาทสำคัญในระบบการมองเห็นของมนุษย์ เท่าที่เราเห็นและสังเกตเราจินตนาการ จินตนาการของเราเสริมภาพที่เราเห็นและให้ความหมายที่ดีขึ้นแก่พวกเขา

นอกจากนี้ ความฉลาดทางสายตาก็ไม่สามารถแยกออกจากความฉลาดได้ ความสามารถในการประมวลผลความคิดที่ซับซ้อนช่วยเสริมความสามารถในการมองเห็นและเข้าใจสภาพแวดล้อมของเรา

นักวิจัยหลายคนระบุว่า การเรียนรู้จากรูปภาพหรือฟีดวิดีโอนับล้านที่ดาวน์โหลดจากอินเทอร์เน็ตไม่ได้ช่วยอะไรมากในการบรรลุวิสัยทัศน์ทางคอมพิวเตอร์อย่างแท้จริง แต่เอนทิตี AI จะต้องมีประสบการณ์เหมือนมนุษย์ กล่าวอีกนัยหนึ่ง   AI ที่แคบ ระดับของปัญญาประดิษฐ์ที่เรามีในปัจจุบันยังไม่เพียงพอ

กรอบเวลาที่เราจะบรรลุปัญญาทั่วไปยังคงเป็นที่ถกเถียงกันอยู่ บางคนรู้สึกว่า AGI สามารถทำได้ภายในเวลาไม่กี่ทศวรรษ คนอื่นแนะนำว่าเป็นเรื่องของศตวรรษหน้า แต่นักวิจัยส่วนใหญ่คิดว่า AGI นั้นไม่สามารถบรรลุได้และจะมีอยู่ในประเภทนิยายวิทยาศาสตร์เท่านั้น

ทำได้หรือไม่ มีวิธีอื่นอีกมากมายที่เราสามารถลองปลดล็อกการมองเห็นคอมพิวเตอร์ที่แท้จริงได้ คุณภาพการป้อนและข้อมูลที่หลากหลายเป็นวิธีหนึ่งที่ทำได้ เพื่อให้แน่ใจว่าระบบที่ใช้เทคโนโลยีการมองเห็นด้วยคอมพิวเตอร์จะหลีกเลี่ยงอคติ

การหาวิธีที่ดีกว่าในการขยายจุดแข็งของโครงข่ายประสาทเทียม การสร้าง GPU อันทรงพลังและส่วนประกอบฮาร์ดแวร์ที่จำเป็นอื่นๆ และการทำความเข้าใจระบบการมองเห็นของมนุษย์เป็นวิธีที่จะพัฒนาไปสู่การมองเห็นด้วยคอมพิวเตอร์อย่างแท้จริง

มอบวิสัยทัศน์ให้กับเครื่องจักร

อัตราข้อผิดพลาดของโมเดลการจดจำภาพลดลงอย่างมาก เรามาไกลตั้งแต่การตรวจจับตัวอักษรที่พิมพ์ไปจนถึงการระบุใบหน้ามนุษย์อย่างแม่นยำ แต่หนทางยังอีกยาวไกลและมีเหตุการณ์สำคัญใหม่ๆ มากมายให้พิชิต การบรรลุวิสัยทัศน์ทางคอมพิวเตอร์อย่างแท้จริงน่าจะเป็นกุญแจสำคัญประการหนึ่งในการสร้างหุ่นยนต์ที่มีความซับซ้อนและชาญฉลาดเหมือนมนุษย์

หากกระบวนการสามารถดำเนินการแบบดิจิทัลได้ ในที่สุดแมชชีนเลิร์นนิงก็จะกลายเป็นส่วนหนึ่งของกระบวนการนั้น หากคุณไม่มั่นใจเลย ต่อไปนี้คือสถิติการเรียนรู้ของเครื่อง 51 รายการซึ่งบอกเป็นนัยว่าเทคโนโลยีเดียวกันกำลังทำให้อุตสาหกรรมเกือบทั้งหมดตกต่ำ