رؤية الكمبيوتر: كيف تفسر الآلات العالم المرئي
نشرت: 2021-05-05الرؤية الحاسوبية هي مجال الذكاء الاصطناعي الذي يمكّن الآلات من "الرؤية".
يتمتع البشر بموهبة الرؤية ، والعضو الذي يجعل ذلك ممكنًا معقد. على الرغم من أنها لا تضاهى بالرؤية البعيدة للنسور أو عيون الفراشة الزرقاء ، والتي يمكن أن ترى في طيف الأشعة فوق البنفسجية ، إلا أنها لا تزال تقوم بعمل ممتاز.
جزء من الرؤية هو فهم ما تراه. وإلا ، فهو يتلقى الضوء المنعكس من الأشياء التي أمامك. هذا ما يحدث إذا كان لديك زوج من العيون ولكن ليس القشرة البصرية داخل الفص القذالي (الجزء من الدماغ المسؤول عن المعالجة البصرية).
بالنسبة لأجهزة الكمبيوتر ، فإن الكاميرات هي عيونهم. وتعمل الرؤية الحاسوبية بمثابة الفص القذالي وتعالج آلاف البكسلات على الصور. باختصار ، تمكن رؤية الكمبيوتر الآلات من فهم ما تراه.
ما هي رؤية الكمبيوتر؟
الرؤية الحاسوبية (CV) هي أحد مجالات الذكاء الاصطناعي التي تسعى جاهدة لتطوير تقنيات تمكن أجهزة الكمبيوتر من رؤية وفهم محتوى الصور الرقمية. بمعنى آخر ، تحاول رؤية الكمبيوتر تدريب الآلات على رؤية وفهم العالم من حولهم.
تعد رؤية الكمبيوتر أمرًا بالغ الأهمية للعديد من الابتكارات التكنولوجية ، بما في ذلك السيارات ذاتية القيادة والتعرف على الوجه والواقع المعزز. إن الكمية المتزايدة من بيانات الصورة التي ننتجها هي أحد أسباب هذا المجال الذكاء الاصطناعي ينمو باطراد. تسهل هذه الزيادة أيضًا على علماء البيانات تدريب الخوارزميات.
ببساطة ، فإن المهمتين الرئيسيتين لرؤية الكمبيوتر هما تحديد كائنات الصورة وفهم ما تعنيه ككل.
يعتبر البشر الإدراك الافتراضي ، وهو نتاج ملايين السنين من التطور ، أمرًا مفروغًا منه. يمكن للطفل البالغ من العمر 5 سنوات تسمية العناصر الموضوعة على الطاولة بسهولة وإدراك أن الإعداد بأكمله عبارة عن طاولة طعام. بالنسبة للآلات ، إنها مهمة شاقة ، وهذا ما تحاول رؤية الكمبيوتر حله.
48.6 مليار دولار
تُقدر بقيمة سوق رؤية الكمبيوتر بحلول عام 2022.
المصدر: BitRefine
لن يكون الذكاء الاصطناعي العام ، إذا كان ذلك ممكنًا ، ممكنًا بدون رؤية الكمبيوتر. ذلك لأن تحديد الأشياء من حولنا والتفاعل معها بدقة هي إحدى السمات البارزة لذكائنا. بعبارة أخرى ، لتعليم الآلات التفكير ، يجب أن تمنحهم القدرة على الرؤية.
إلى جانب النمو الهائل في عدد الصور ومقاطع الفيديو الرقمية المتاحة ، تساهم التطورات في التعلم العميق والشبكات العصبية الاصطناعية أيضًا في المجد الحالي للرؤية الحاسوبية.
تاريخ موجز لرؤية الكمبيوتر
بدأت التجارب الأولى في مجال رؤية الكمبيوتر في الخمسينيات من القرن الماضي بمساعدة بعض الأشكال المبكرة للشبكات العصبية الاصطناعية. تم استخدامها لاكتشاف حواف الأشياء ويمكنها فرز كائنات بسيطة مثل الدوائر والمربعات.
كان ينظر إلى رؤية الكمبيوتر على أنها نقطة انطلاق نحو الذكاء الاصطناعي حيث أن محاكاة النظام البصري البشري شرط أساسي لتحقيق الذكاء البشري. لذلك في الستينيات ، شاركت الجامعات التي تستكشف الذكاء الاصطناعي أيضًا في رؤية الكمبيوتر.
في عام 1963 ، وصف لاري روبرتس ، الأب المؤسس للإنترنت ، عملية استخلاص معلومات ثلاثية الأبعاد حول الأجسام الصلبة من الصور ثنائية الأبعاد. لا تزال أطروحته "تصور الآلة للمواد الصلبة ثلاثية الأبعاد" معترف بها كأحد الأعمال التأسيسية في مجال رؤية الكمبيوتر.
في وقت لاحق من عام 1966 ، اعتقد مارفن مينسكي ، أحد الآباء المؤسسين لمنظمة العفو الدولية ، أن رؤية الكمبيوتر يمكن تحقيقها من خلال مشروع صيفي. لكننا نعلم جميعًا ما حدث. سريعًا إلى سبعينيات القرن الماضي ، تم استخدام تقنية رؤية الكمبيوتر للتطبيقات التجارية مثل التعرف الضوئي على الأحرف (OCR) ، والتي يمكنها تحديد النص المكتوب بخط اليد أو الأحرف المطبوعة في الصور.
لعب الإنترنت ، الذي أصبح سائدًا في التسعينيات ، دورًا مهمًا في التطور السريع للرؤية الحاسوبية. أصبح من السهل الوصول إلى مجموعات كبيرة من الصور ، مما جعل تدريب الخوارزميات أسهل.
كما أضافت قوة الحوسبة الرخيصة والوفرة إلى سهولة خوارزميات التدريب. كانت هذه أيضًا هي النقطة التي زادت فيها التفاعلات بين رسومات الكمبيوتر ورؤية الكمبيوتر.
فيما يلي بعض المعالم البارزة في رؤية الكمبيوتر التي جعلتها التكنولوجيا القوية التي هي عليها اليوم.
1959: تم اختراع أول ماسح ضوئي للصور الرقمية والذي حوّل الصور إلى شبكات رقمية.
1963: وصف لاري روبرتس عملية استخلاص المعلومات ثلاثية الأبعاد للأجسام الصلبة من الصور ثنائية الأبعاد.
1966: أمر مارفن مينسكي طالب دراسات عليا بإرفاق كاميرا بجهاز كمبيوتر ووصف ما شاهده.
1980: أنشأ كونيهيكو فوكوشيما نيوكوجنيترون. تعتبر مقدمة للشبكة العصبية التلافيفية الحديثة (CNN).
2001: أنشأ بول فيولا ومايكل جونز ، باحثان في معهد ماساتشوستس للتكنولوجيا ، أول إطار عمل لاكتشاف الوجوه يعمل في الوقت الفعلي.
2009: بدأت Google مشروع السيارة ذاتية القيادة.
2010: أصدرت Google Google Goggles ، وهو تطبيق للتعرف على الصور مفيد لعمليات البحث استنادًا إلى الصور التي تم التقاطها بواسطة الأجهزة المحمولة. في نفس العام ، بدأ Facebook في استخدام التعرف على الوجه لتمييز الأشخاص على الصور بشكل فعال.
2011: تم استخدام تقنية التعرف على الوجوه لتأكيد هوية اسامة بن لادن بعد مقتله.
2012: أنشأ Google Brain شبكة عصبية تتكون من 16000 معالج كمبيوتر يمكنها التعرف على صور القطط بمساعدة خوارزمية التعلم العميق. في العام نفسه ، حققت AlexNet ، وهي شبكة عصبية تلافيفية ، أعلى 5 أخطاء بنسبة 15.3٪ في تحدي ImageNet 2012.
2014: قدمت تسلا الطيار الآلي في سياراتها الكهربائية طراز S. لا يعمل نظام القيادة الذاتية في وضع عدم الاتصال فحسب ، بل يتم إيقافه بدقة أيضًا.
2015: إطلاق Google TensorFlow ، وهي مكتبة برامج مجانية ومفتوحة المصدر للتعلم الآلي. في نفس العام ، قدمت Google FaceNet للتعرف على الوجه.
2016: تم تقديم بوكيمون GO ، لعبة الجوال الشهيرة القائمة على الواقع المعزز.
2017: أصدرت Apple جهاز iPhone X مع ميزة التعرف على الوجوه.
2019: سمحت المملكة المتحدة HighCourt باستخدام تقنية التعرف على الوجه الآلية للبحث عن الأشخاص وسط الحشود.
كيف تعمل رؤية الكمبيوتر؟
تبدأ رؤية الكمبيوتر صغيرة وتنتهي بشكل كبير.
وهي تتبع تقنية معالجة ذات طبقات تبدأ من خلالها بتحديد الميزات ذات المستوى المنخفض وتحليلها مثل البكسل والألوان. تدريجيًا ، يشق طريقه لتحليل ميزات المستوى الأعلى مثل الخطوط والكائنات.
لنفترض أنك رأيت صورة لأشخاص يركضون. على الرغم من أنها صورة ثابتة ، في معظم الحالات ، ستتمكن من فهم السياق ؛ الناس يهربون من شيء ما ، أو يركضون نحو شيء ما ، أو يركضون على مهل. هذا مثال نموذجي لكيفية حدوث حوسبة المعالجة المتوازية في الوقت الفعلي.
من السهل علينا فهم المشاعر وسياق الصور. لا تزال أجهزة الكمبيوتر تتعلم التجارة ، لكن وتيرتها مثيرة للإعجاب للكيانات غير البيولوجية.
هل تساءلت يومًا عن قدرة أجهزة الكمبيوتر على توفير بيانات دقيقة لشيء مثل التنبؤ بالطقس؟ هذا هو المكان الذي تعمل فيه رؤية الكمبيوتر في شكل معالجة متوازية ، أي العمل مع مصادر بيانات معقدة متعددة في وقت واحد.
بالنسبة للآلات ، الصور هي مجرد مجموعة من وحدات البكسل. على عكس البشر ، لا يمكنهم فهم المعنى الدلالي للصورة ويمكنهم فقط اكتشاف وحدات البكسل. الهدف من رؤية الكمبيوتر هو سد تلك الفجوة الدلالية .
عندما تصطدم أشعة الضوء بشبكية العين ، تقوم خلايا خاصة تسمى المستقبلات الضوئية بتحويل الضوء إلى إشارات كهربائية. ثم يتم إرسال هذه الإشارات الكهربائية إلى الدماغ عبر العصب البصري. ثم يقوم الدماغ بتحويل هذه الإشارات إلى الصور التي نراها.
هذه العمليات تصل إلى أن تبدو الإشارات الكهربائية التي تصل إلى الدماغ واضحة ومباشرة. كيف بالضبط يعالج الدماغ هذه الإشارات ويحولها إلى صور ليست مفهومة تمامًا بعد. بتعبير أدق ، الدماغ صندوق أسود ؛ وكذلك رؤية الكمبيوتر.
هناك شبكات عصبية وغيرها التعلم الالي الخوارزميات التي تحاول تقليد الدماغ البشري. إنهم يجعلون رؤية الكمبيوتر ممكنة ويساعدون في فهم ماهية الصور. حتى في حالة الخوارزميات ، فإن باحثي ML ليسوا على دراية كاملة بكيفية عملها. ومع ذلك ، نظرًا لأن نتائجهم قابلة للقياس الكمي ، يمكننا الحكم على دقة كل خوارزمية.
يمكن تفسير رؤية الكمبيوتر كعملية ، تمامًا مثل الرؤية البشرية. لكن لا أحد متأكد تمامًا من كيفية عمل الشبكات العصبية لفهم الصور أو ما إذا كانت قريبة عن بُعد من كيفية معالجة البشر للمعلومات المرئية.
ومع ذلك ، بمعنى بسيط ، فإن رؤية الكمبيوتر تدور حول التعرف على الأنماط. استخدام تقنيات التعلم الآلي مثل التعلم غير الخاضع للإشراف ، يتم تدريب الخوارزميات على التعرف على الأنماط في البيانات المرئية. إذا كنت تفكر في عدد الصور المطلوبة ، فهي الملايين أو الآلاف على الأقل.
افترض أنك تريد الخوارزمية أن تحدد الكلاب في الصور. إذا كنت تتبع أسلوب التعلم غير الخاضع للإشراف ، فلن تضطر إلى تصنيف أي صور على أنها كلاب. بدلاً من ذلك ، بعد تحليل آلاف أو ملايين الصور ، تتعرف الآلة على الخصائص المحددة للكلاب.
باختصار ، يمكن للكمبيوتر إدراك الميزات المحددة التي تجعل الحيوان (أو الشيء) كلبًا. لا يزال لا يعرف أن هذا الحيوان المعين يسمى "كلب". ولكن ستحتوي على معلومات وخبرة كافية لتحديد ما إذا كانت الصورة غير المسماة تحتوي على كلب.
إذا كنت تريد أن تكون عملية التعلم أسرع ، يمكنك الذهاب إليها التعلم تحت الإشراف. في التعلم الخاضع للإشراف ، يتم تصنيف الصور ، مما يجعل المهمة أسهل بالنسبة للخوارزميات.
فحص الصور على مستويات البكسل
عندما نتحدث عن الخوارزميات التي تحلل الصور ، فإنهم لا يفحصون الصورة ككل مثل البشر. بدلاً من ذلك ، ينظرون إلى وحدات البكسل الفردية ، وهي أصغر العناصر القابلة للعنونة في الصورة النقطية.
من أجل البساطة ، دعنا نفكر في صورة ذات تدرج رمادي. يتم تمثيل سطوع كل بكسل ، يسمى قيم البكسل ، بعدد صحيح 8 بت مع نطاق من القيم الممكنة من 0 إلى 255. يعتبر الصفر أسود ، و 255 أبيض. إذا كنا ندرس صورة ملونة ، فستصبح الأمور أكثر تعقيدًا.
عندما نقول أن الخوارزمية تحلل وتتعلم ، فإنها في الواقع تتعلم قيم البكسل هذه. بمعنى آخر ، يرى الكمبيوتر الصور ويتعرف عليها بناءً على هذه القيم العددية. هذا يعني أيضًا أن الخوارزميات تجد أنماطًا في الصور من خلال النظر إلى قيمها العددية ومقارنة الصور بطريقة مماثلة.
باختصار ، بالنسبة للآلات ، فإن فهم الصورة هو عملية رياضية تتضمن مصفوفات من الأعداد الصحيحة.
ثم هناك شبكات عصبية تلافيفية
الشبكة العصبية التلافيفية (CNN أو ConvNet) هي أ تعلم عميق الخوارزمية التي يمكنها استخراج الميزات من مجموعات بيانات الصور. إنها فئة من الشبكات العصبية ولديها قدرات رائعة للتعرف على الصور وتصنيفها. تستخدم كل خوارزمية رؤية الكمبيوتر تقريبًا شبكات عصبية تلافيفية.
على الرغم من اختراع شبكات CNN في الثمانينيات ، إلا أنها لم تكن مجدية تمامًا حتى إدخال وحدات معالجة الرسومات (GPU). يمكن لوحدات معالجة الرسومات تسريع الشبكات العصبية التلافيفية والشبكات العصبية الأخرى بشكل كبير. في عام 2004 ، كان تنفيذ GPU لشبكات CNN أسرع 20 مرة من تنفيذ وحدة المعالجة المركزية المكافئة.
كيف تفعل CNN ذلك؟
تتعلم ConvNets من الصور المدخلة وتعديل معلماتها (الأوزان والتحيزات) لعمل تنبؤات أفضل. تتعامل شبكات CNN مع الصور مثل المصفوفات وتستخرج المعلومات المكانية منها ، مثل الحواف والعمق والملمس. تقوم ConvNets بذلك باستخدام ملفات طبقات تلافيفية و تجمع.
تشبه بنية شبكة CNN تلك الخاصة بنمط اتصال الخلايا العصبية في أدمغتنا. تم إنشاء شبكات CNN عن طريق أخذ الإلهام من تنظيم القشرة البصرية ، وهي منطقة من الدماغ تستقبل المعلومات المرئية وتعالجها.
تتكون شبكة CNN من طبقات متعددة من الخلايا العصبية الاصطناعية تسمى Perceptrons ، وهي النظائر الرياضية للخلايا العصبية البيولوجية في دماغنا. تقلد Perceptrons تقريبًا طريقة عمل نظيراتها البيولوجية أيضًا.
تتكون الشبكة العصبية التلافيفية من طبقة إدخال وطبقات مخفية متعددة وطبقة إخراج .

تحتوي الطبقات المخفية على:
- طبقات تلافيفية
- طبقات وظيفة التنشيط الخطي المصححة (ReLU)
- طبقات التطبيع
- طبقات التجميع
- طبقات متصلة بالكامل
إليك شرحًا بسيطًا لما يفعلونه.
عندما تعالج CNN صورة ما ، فإن كل طبقة من طبقاتها تستخرج ميزات مميزة من بكسل الصورة. الطبقة الأولى مسؤولة عن اكتشاف الخصائص الأساسية مثل الحواف الأفقية والرأسية.
كلما تعمقت في الشبكة العصبية ، تبدأ الطبقات في اكتشاف الميزات المعقدة مثل الأشكال والزوايا. الطبقات النهائية للشبكة العصبية التلافيفية قادرة على اكتشاف ميزات معينة مثل الوجوه والمباني والأماكن.
تقدم الطبقة الناتجة للشبكة العصبية الملتفة جدولًا يحتوي على معلومات رقمية. يمثل هذا الجدول احتمال تحديد كائن معين في الصورة.
أمثلة على مهام الرؤية الحاسوبية
رؤية الكمبيوتر هي أحد مجالات علوم الكمبيوتر والذكاء الاصطناعي التي تمكن أجهزة الكمبيوتر من الرؤية. هناك العديد من الطرق التي يمكن لأجهزة الكمبيوتر من خلالها الاستفادة من هذا المجال. تسمى هذه المحاولات لتحديد الأشياء أو الأنشطة في الصور مهام رؤية الكمبيوتر.
فيما يلي بعض مهام رؤية الكمبيوتر الشائعة.
- اكتشاف الكائن: تقنية تستخدم لاكتشاف كائن معين في صورة ما. يمكن لإصداراته المتقدمة تحديد كائنات متعددة في صورة واحدة ، على سبيل المثال ، المباني والسيارات والأشخاص وإشارات المرور والمزيد في صورة شارع مزدحم.
- تصنيف الصورة: تجميع الصور في فئات. يمكن أيضًا الإشارة إليها على أنها عملية تعيين ملصقات للصور.
- التعرف على الوجه: شكل متقدم من أشكال التعرف على الأشياء يمكنه التعرف على البشر في الصور والتعرف على الوجوه.
- تجزئة الصورة: تقسيم الصورة إلى أجزاء متعددة لفحصها بشكل منفصل.
- اكتشاف الأنماط: عملية التعرف على الأنماط والانتظام في البيانات المرئية.
- اكتشاف الحواف : عملية الكشف عن حواف كائن ما لتحديد مكونات الصورة بشكل أفضل.
- مطابقة الميزة: نوع من اكتشاف الأنماط يطابق أوجه التشابه في الصور لتصنيفها.
برنامج التعرف على الصور قد تستخدم التطبيقات واحدة فقط من تقنيات رؤية الكمبيوتر هذه. ستستخدم التطبيقات المتقدمة مثل السيارات ذاتية القيادة عدة تقنيات في نفس الوقت.
تطبيقات رؤية الكمبيوتر في العالم الحقيقي
تم دمج رؤية الكمبيوتر بالفعل في العديد من المنتجات التي نستخدمها اليوم. يقوم Facebook تلقائيًا بوضع علامة على الأشخاص الذين يستخدمون السيرة الذاتية. تستخدمه صور Google لتجميع الصور ، وتستخدمه تطبيقات البرامج مثل Adobe Lightroom لتحسين تفاصيل الصور المكبرة. كما أنها تستخدم على نطاق واسع لمراقبة الجودة في عمليات التصنيع التي تعتمد على الأتمتة.
فيما يلي بعض التطبيقات الواقعية للرؤية الحاسوبية التي ربما تكون قد صادفتها.
التعرف على الوجه
من أفضل حالات استخدام رؤية الكمبيوتر مجال التعرف على الوجه. لقد وصلت إلى الاتجاه السائد في عام 2017 مع طراز iPhone X من Apple وهي الآن ميزة قياسية في معظم الهواتف الذكية.
تُستخدم تقنية التعرف على الوجوه كميزة مصادقة في مناسبات متعددة. بخلاف ذلك ، يتم استخدامه لتحديد هوية الشخص ، كما في حالة Facebook. من المعروف أن وكالات إنفاذ القانون تستخدم تقنية التعرف على الوجه لتحديد منتهكي القانون في موجزات الفيديو.
سيارات ذاتية القيادة
تعتمد السيارات ذاتية القيادة بشكل كبير على رؤية الكمبيوتر لتحليل الصور في الوقت الفعلي. يساعد المركبات ذاتية القيادة على فهم محيطها. ومع ذلك ، فإن التكنولوجيا التي تقف وراء هذه السيارات لا تزال في مهدها وتتطلب مزيدًا من التطوير قبل أن يتم نشرها بثقة على الطرق المليئة بالمرور.
تكاد تكون المركبات ذاتية القيادة مستحيلة بدون رؤية الكمبيوتر. تساعد هذه التقنية المركبات المستقلة على معالجة البيانات المرئية في الوقت الفعلي. أحد الأمثلة على تطبيقه هو إنشاء خرائط ثلاثية الأبعاد. إلى جانب تحديد الأشياء وتصنيفها ، يمكن أن تساعد رؤية الكمبيوتر في إنشاء خرائط ثلاثية الأبعاد لمنح المركبات إحساسًا بالمناطق المحيطة.
يعد اكتشاف خط الحارة والمركبة حالتين مهمتين أخريين من حالات الاستخدام. ثم هناك اكتشاف المساحة الحرة ، وهو مشهور جدًا في عالم السيارات ذاتية القيادة. كما يوحي الاسم ، يتم استخدامه لتحديد مساحة خالية من العوائق حول السيارة. يعد اكتشاف Freespace مفيدًا عندما تقترب السيارة المستقلة من مركبة بطيئة الحركة وتحتاج إلى تغيير مسارها.
التصوير الطبي
تُستخدم الرؤية الحاسوبية في صناعة الرعاية الصحية لإجراء تشخيصات أسرع وأكثر دقة ومراقبة تطور الأمراض. باستخدام التعرف على الأنماط ، يمكن للأطباء اكتشاف الأعراض المبكرة لأمراض مثل السرطان ، والتي قد لا تكون مرئية للعين البشرية.
التصوير الطبي هو تطبيق مهم آخر له عدد كبير من الفوائد. يقلل تحليل التصوير الطبي الوقت الذي يستغرقه المهنيين الطبيين لتحليل الصور. التنظير الداخلي ، والتصوير الشعاعي بالأشعة السينية ، والموجات فوق الصوتية ، والتصوير بالرنين المغناطيسي (MRI) هي بعض تخصصات التصوير الطبي التي تستخدم رؤية الكمبيوتر.
من خلال إقران شبكات CNN بالتصوير الطبي ، يمكن للمهنيين الطبيين مراقبة الأعضاء الداخلية ، واكتشاف الحالات الشاذة ، وفهم سبب وتأثير أمراض معينة. كما أنه يساعد الأطباء على مراقبة تطور الأمراض وتقدم العلاج.
تعديل المحتوى
يتعين على شبكات التواصل الاجتماعي مثل Facebook مراجعة ملايين المنشورات الجديدة كل يوم. من غير العملي أن يكون لديك فريق الإشراف على المحتوى الذي يمر عبر كل صورة أو مقطع فيديو يتم نشره ، وبالتالي ، يتم استخدام أنظمة رؤية الكمبيوتر لأتمتة العملية.
350 مليون
يتم تحميل الصور كل يوم على Facebook.
المصدر: التقرير الاجتماعي
يمكن أن تساعد رؤية الكمبيوتر منصات الوسائط الاجتماعية هذه في تحليل المحتوى الذي تم تحميله ووضع علامة على المحتوى الذي يحتوي على محتوى محظور. يمكن للشركات أيضًا استخدام خوارزميات التعلم العميق لتحليل النص لتحديد المحتوى المسيء وحظره.
مراقبة
تُعد موجزات فيديو المراقبة شكلاً صلبًا من الأدلة. يمكنهم المساعدة في اكتشاف الخارجين على القانون وأيضًا مساعدة المتخصصين في الأمن على التصرف قبل أن تصبح المخاوف البسيطة كارثية.
من المستحيل عمليًا على البشر مراقبة لقطات المراقبة من مصادر متعددة. ولكن مع رؤية الكمبيوتر ، يتم تبسيط هذه المهمة. يمكن لأنظمة المراقبة التي تعمل بالسير الذاتية فحص لقطات حية واكتشاف الأشخاص ذوي السلوك المشبوه.
يمكن استخدام التعرف على الوجوه لتحديد المجرمين المطلوبين وبالتالي منع الجرائم. يمكن استخدام تقنية التعرف على الصور لاكتشاف الأفراد الذين يحملون أشياء خطيرة في المناطق المزدحمة. يتم استخدام نفس الشيء أيضًا لتحديد عدد أماكن وقوف السيارات المجانية المتاحة في مراكز التسوق.
التحديات في رؤية الكمبيوتر
تعد مساعدة أجهزة الكمبيوتر على الرؤية أكثر صعوبة مما كنا نظن.
كان مارفن مينسكي واثقًا من إمكانية حل رؤية الكمبيوتر عن طريق توصيل كاميرا بجهاز كمبيوتر. حتى بعد عقود من البحث ، لم نقترب من حل المشكلة. بالنسبة للبشر ، الرؤية سهلة للغاية. هذا هو السبب في اعتبار رؤية الكمبيوتر مشكلة بسيطة تافهة وكان من المفترض حلها خلال فصل الصيف.
معرفتنا محدودة
أحد أسباب عدم قدرتنا على حل مشكلة رؤية الكمبيوتر بالكامل هو معرفتنا المحدودة بأنفسنا. ليس لدينا فهم كامل لكيفية عمل النظام البصري البشري. بالطبع ، يتم إجراء خطوات سريعة في دراسة الرؤية البيولوجية ، ولكن لا يزال هناك طريق طويل لنقطعه.
العالم المرئي معقد
مشكلة صعبة في مجال السيرة الذاتية هي التعقيد الطبيعي للعالم المرئي. يمكن رؤية أي كائن من أي زاوية ، وتحت أي ظروف إضاءة ، ومن مسافات متفاوتة. عادة ما يكون النظام البصري البشري قادرًا على عرض وفهم الأشياء في كل هذه الاختلافات اللانهائية ، لكن قدرة الآلات لا تزال محدودة للغاية.
قيد آخر هو الافتقار إلى الحس السليم. حتى بعد سنوات من البحث ، ما زلنا نعيد خلق الحس السليم في أنظمة الذكاء الاصطناعي. يمكن للبشر تطبيق الفطرة السليمة والمعرفة الأساسية حول كائنات معينة لفهمها. يتيح لنا هذا أيضًا فهم العلاقة بين الكيانات المختلفة للصورة بسهولة.
البشر بارعون في التخمين ، على الأقل عند مقارنتهم بأجهزة الكمبيوتر. من الأسهل علينا اتخاذ قرار غير سيئ ، حتى لو لم نواجه مشكلة معينة من قبل. لكن الشيء نفسه لا ينطبق على الآلات. إذا واجهوا موقفًا لا يشبه تدريبهم ، فإنهم عرضة للتصرف بشكل غير عقلاني.
تتحسن خوارزميات الرؤية الحاسوبية بشكل ملحوظ إذا قمت بتدريبها بمجموعات بيانات بصرية أحدث. لكن في جوهرها ، يحاولون مطابقة أنماط البكسل. بمعنى آخر ، بصرف النظر عن معرفة البكسل ، فهم لا يفهمون بالضبط ما يحدث في الصور. لكن من الرائع التفكير في العجائب التي تقوم بها الأنظمة التي تعمل بالطاقة الذاتية في السيارات ذاتية القيادة.
السيرة الذاتية ملزمة بالأجهزة
في رؤية الكمبيوتر ، الكمون أمر شرير.
في تطبيقات العالم الحقيقي مثل السيارات ذاتية القيادة ، يجب أن تتم معالجة الصور وتحليلها على الفور تقريبًا. على سبيل المثال ، إذا اكتشفت مركبة ذاتية القيادة تسير بسرعة 30 ميلاً في الساعة عائقًا على بعد مائة متر ، فليس أمامها سوى بضع ثوانٍ للتوقف أو الانعطاف بأمان.
لكي تعمل السيارة في الوقت المحدد ، سيتعين على نظام الذكاء الاصطناعي فهم المناطق المحيطة واتخاذ القرارات في أجزاء من الثانية. نظرًا لأن أنظمة رؤية الكمبيوتر تعتمد بشكل كبير على مكونات الأجهزة مثل الكاميرا ، فإن التأخير حتى جزء من الثانية في نقل البيانات أو الحساب يمكن أن يتسبب في وقوع حوادث كارثية.
الذكاء الاصطناعي الضيق لا يكفي
يشعر بعض باحثي الذكاء الاصطناعي أنه لا يمكن تحقيق رؤية حاسوبية 20/20 إلا إذا أطلقنا العنان للذكاء الاصطناعي العام (AGI). هذا لأن الوعي يبدو أنه يلعب دورًا حاسمًا في النظام البصري البشري. بقدر ما نراه ونلاحظه ، نتخيله. يزيد خيالنا من المرئيات التي نراها ويجلب لها معنى أفضل.
أيضًا ، الذكاء البصري لا ينفصل عن الذكاء. إن القدرة على معالجة الأفكار المعقدة تكمل قدرتنا على رؤية وفهم محيطنا.
وفقًا للعديد من الباحثين ، فإن التعلم من ملايين الصور أو مقاطع الفيديو التي يتم تنزيلها من الإنترنت لن يساعد كثيرًا في تحقيق رؤية حقيقية للكمبيوتر. بدلاً من ذلك ، سيتعين على كيان الذكاء الاصطناعي تجربته مثل البشر. بعبارات أخرى، الذكاء الاصطناعي الضيق ، مستوى الذكاء الاصطناعي الذي لدينا حاليًا ، ليس كافيًا.
الإطار الزمني الذي سنحقق خلاله ذكاءً عامًا لا يزال محل نقاش. يشعر البعض أنه يمكن تحقيق الذكاء الاصطناعي العام في غضون بضعة عقود. يقترح آخرون أنه شيء من القرن المقبل. لكن غالبية الباحثين يعتقدون أن الذكاء الاصطناعي العام غير قابل للتحقيق وسيوجد فقط في نوع الخيال العلمي.
يمكن تحقيقه أم لا ، هناك العديد من الطرق الأخرى التي يمكننا من خلالها محاولة فتح رؤية الكمبيوتر الحقيقية. تعد جودة التغذية والبيانات المتنوعة إحدى طرق القيام بذلك. سيضمن هذا أن الأنظمة التي تعتمد على تقنية رؤية الكمبيوتر تبتعد عن التحيزات.
إن العثور على طرق أفضل لتضخيم نقاط القوة للشبكات العصبية الاصطناعية ، وإنشاء وحدات معالجة الرسومات القوية ومكونات الأجهزة الأخرى اللازمة ، وفهم النظام البصري البشري هي بعض الطرق للتقدم نحو رؤية حقيقية للكمبيوتر.
إهداء الرؤية للآلات
تنخفض معدلات الخطأ في نماذج التعرف على الصور بشكل كبير. لقد قطعنا شوطًا طويلاً من مجرد اكتشاف الحروف المطبوعة إلى التعرف على الوجوه البشرية بدقة. ولكن هناك طريق طويل لنقطعه والعديد من المعالم الجديدة للتغلب عليها. من المرجح أن يكون تحقيق رؤية الكمبيوتر الحقيقية أحد مفاتيح إنشاء روبوتات متطورة وذكية مثل البشر.
إذا كان من الممكن تنفيذ عملية ما رقميًا ، فسيصبح التعلم الآلي جزءًا منها في النهاية. إذا لم تكن مقتنعًا تمامًا ، فإليك 51 إحصاءً للتعلم الآلي تشير إلى أن التكنولوجيا نفسها أخذت جميع الصناعات تقريبًا في طريق العاصفة.