الشبكات العصبية التلافيفية (CNNs): مقدمة

نشرت: 2022-08-30

توفر الشبكات العصبية التلافيفية طريقة أكثر قابلية للتوسع للتعرف على الأشياء ومهام تصنيف الصور.

هناك الكثير من التطورات التي تحدث في عالم التكنولوجيا. الذكاء الاصطناعي والتعلم الآلي من الأشياء الشائعة التي قد تسمعها كثيرًا.

حاليًا ، تُستخدم هذه التقنيات في كل مجال تقريبًا ، بدءًا من التسويق والتجارة الإلكترونية وتطوير البرمجيات إلى الخدمات المصرفية والتمويل والطب.

الذكاء الاصطناعي والتعلم الآلي مجالان واسعان ، وتُبذل الجهود لتوسيع تطبيقاتهما لحل العديد من مشاكل العالم الحقيقي. هذا هو السبب في أنه يمكنك رؤية الكثير من الفروع داخل هذه التقنيات ؛ ML هي مجموعة فرعية من الذكاء الاصطناعي نفسه.

الشبكات العصبية التلافيفية هي أحد فروع الذكاء الاصطناعي التي أصبحت شائعة هذه الأيام.

في هذا المقال ، سأناقش ماهية شبكات CNN وكيف تعمل وفائدتها في العالم الحديث.

دعنا نتعمق في!

ما هي الشبكة العصبية التلافيفية؟

الشبكة العصبية التلافيفية (ConvNet أو CNN) هي شبكة عصبية اصطناعية (ANN) تستخدم خوارزميات التعلم العميق لتحليل الصور وتصنيف المرئيات وأداء مهام الرؤية الحاسوبية.

الشبكة العصبية التلافيفية

تستفيد CNN من مبادئ الجبر الخطي ، مثل ضرب المصفوفة ، لاكتشاف الأنماط في الصورة. نظرًا لأن هذه العمليات تتضمن حسابات معقدة ، فإنها تتطلب وحدات معالجة رسومية (GPUs) لتدريب النماذج.

بكلمات بسيطة ، تستخدم CNN خوارزميات التعلم العميق لأخذ بيانات الإدخال مثل الصور وتعيين الأهمية في شكل تحيزات وأوزان قابلة للتعلم لجوانب مختلفة من تلك الصورة. بهذه الطريقة ، يمكن لـ CNN التفريق بين الصور أو تصنيفها.

سي إن إن: تاريخ موجز

نظرًا لأن الشبكة العصبية التلافيفية هي شبكة عصبية اصطناعية ، فمن المهم تكرار الشبكات العصبية.

في الحساب ، تعد الشبكة العصبية جزءًا من التعلم الآلي (ML) باستخدام خوارزميات التعلم العميق. إنه مشابه لأنماط الاتصال التي تتبعها الخلايا العصبية في دماغ الإنسان. تستلهم الشبكات العصبية الاصطناعية أيضًا كيفية ترتيب القشرة البصرية.

سي إن إن: تاريخ موجز

لذلك ، يتم استخدام أنواع مختلفة من الشبكات العصبية أو الشبكات العصبية الاصطناعية (ANN) لأغراض مختلفة. أحدها يستخدم CNN لاكتشاف الصور وتصنيفها ، وأكثر من ذلك. تم تقديمه من قبل باحث ما بعد الدكتوراه ، Yann LeCun ، في الثمانينيات.

النسخة المبكرة من CNN - LeNet ، التي سميت على اسم LeCun ، كانت قادرة على التعرف على الأرقام المكتوبة بخط اليد. بعد ذلك ، تم استخدامه في الخدمات المصرفية والبريدية لقراءة الأرقام على الشيكات والرموز البريدية المكتوبة على المغلفات.

ومع ذلك ، فإن هذه النسخة المبكرة تفتقر إلى التحجيم ؛ وبالتالي ، لم يتم استخدام شبكات CNN كثيرًا في الذكاء الاصطناعي ورؤية الكمبيوتر. كما أنها تتطلب موارد وبيانات حسابية كبيرة للعمل بكفاءة أكبر للصور الأكبر حجمًا.

علاوة على ذلك ، في عام 2012 ، أعادت AlexNet النظر في التعلم العميق الذي يستخدم الشبكات العصبية التي تتكون من طبقات متعددة. في هذا الوقت تقريبًا ، تحسنت التكنولوجيا ، وكانت مجموعات البيانات الكبيرة وموارد الحوسبة الثقيلة متاحة لتمكين إنشاء شبكات CNN المعقدة القادرة على أداء أنشطة رؤية الكمبيوتر بكفاءة.

طبقات في CNN

دعونا نفهم الطبقات المختلفة في CNN. ستؤدي زيادة الطبقات في شبكة CNN إلى زيادة تعقيدها وتمكينها من اكتشاف المزيد من الجوانب أو المناطق في الصورة. بدءًا بميزة بسيطة ، يصبح قادرًا على اكتشاف الميزات المعقدة مثل شكل الكائن والعناصر الأكبر حجمًا حتى يتمكن أخيرًا من اكتشاف الصورة.

طبقة تلافيفية

الطبقة الأولى لشبكة CNN هي الطبقة التلافيفية. إنها لبنة البناء الرئيسية لشبكة CNN حيث تحدث معظم العمليات الحسابية. يحتاج إلى مكونات أقل ، مثل بيانات الإدخال وخريطة المعالم وفلتر.

طبقة تلافيفية

يمكن أن تحتوي شبكة CNN أيضًا على طبقات تلافيفية إضافية. هذا يجعل بنية CNNs هرمية حيث يمكن للطبقات اللاحقة تصور وحدات البكسل داخل الحقول المستقبلة للطبقات السابقة. بعد ذلك ، تقوم الطبقات التلافيفية بتحويل الصورة المعينة إلى قيم عددية وتسمح للشبكة بفهم واستخراج الأنماط القيمة.

طبقات التجميع

تُستخدم طبقات التجميع لتقليل الأبعاد وتسمى بالاختزال. يقلل من المعلمات المستخدمة في الإدخال. يمكن لعملية التجميع تحريك مرشح فوق المدخلات الكاملة مثل الطبقة التلافيفية ولكنها تفتقر إلى الأوزان. هنا ، يطبق المرشح وظيفة مشتركة على القيم العددية في الحقل الاستقبالي لملء مصفوفة النتيجة.

التجميع نوعان:

  • متوسط ​​التجميع: يتم حساب متوسط ​​القيمة في الحقل الاستقبالي الذي يكتسح فيه الملف المدخل لنقله إلى مصفوفة الإخراج.
  • الحد الأقصى للتجميع: يختار الحد الأقصى لقيمة البكسل ويرسله إلى مصفوفة الإخراج حيث يقوم المرشح بمسح المدخلات. يستخدم الحد الأقصى للتجميع أكثر من متوسط ​​التجميع.

على الرغم من فقدان بيانات مهمة أثناء التجميع ، إلا أنها لا تزال تقدم العديد من الفوائد لشبكة CNN. يساعد في تقليل مخاطر التجهيز الزائد والتعقيد مع تحسين الكفاءة. كما أنه يعزز استقرار سي إن إن.

طبقة متصلة بالكامل (FC)

طبقة متصلة بالكامل (FC)

كما يوحي الاسم ، فإن جميع العقد في طبقة المخرجات متصلة مباشرة بنقطة الطبقة السابقة في طبقة متصلة بالكامل. يصنف الصورة بناءً على الميزات المستخرجة عبر الطبقات السابقة مع مرشحاتها.

علاوة على ذلك ، تستخدم طبقات FC عمومًا وظيفة تنشيط softmax لتصنيف المدخلات بشكل صحيح بدلاً من وظائف ReLu (كما في حالة التجميع والطبقات التلافيفية). يساعد هذا في إنتاج احتمال إما 0 أو 1.

كيف تعمل شبكات CNN؟

تتكون الشبكة العصبية التلافيفية من عدة طبقات ، حتى المئات منها. تتعلم هذه الطبقات التعرف على الميزات المختلفة لصورة معينة.

على الرغم من أن شبكات CNN هي شبكات عصبية ، إلا أن بنيتها تختلف عن الشبكات العصبية الاصطناعية العادية.

كيف تعمل شبكات CNN

يضع الأخير مُدخلًا عبر العديد من الطبقات المخفية لتحويله ، حيث يتم إنشاء كل طبقة بمجموعة من الخلايا العصبية الاصطناعية ومتصلة بالكامل بكل خلية عصبية في نفس الطبقة. أخيرًا ، هناك طبقة متصلة بالكامل أو طبقة مخرجات لعرض النتيجة.

من ناحية أخرى ، تنظم CNN الطبقات في ثلاثة أبعاد - العرض والعمق والارتفاع. هنا ، تتصل طبقة من الخلايا العصبية بالخلايا العصبية في منطقة صغيرة فقط بدلاً من الارتباط بكل واحدة منها في الطبقة التالية. أخيرًا ، يتم تمثيل النتيجة النهائية بواسطة متجه واحد مع درجة احتمالية ولها أبعاد العمق فقط.

الآن ، قد تسأل عن "الالتفاف" في شبكة CNN.

حسنًا ، يشير الالتفاف إلى عملية حسابية لدمج مجموعتين من البيانات. في CNN ، يتم تطبيق مفهوم الالتفاف على إدخال البيانات لإخراج خريطة المعالم عن طريق تصفية المعلومات.

يقودنا هذا إلى بعض المفاهيم والمصطلحات الهامة المستخدمة في شبكات CNN.

  • عامل التصفية : يُعرف أيضًا باسم كاشف الميزات أو النواة ، يمكن أن يكون للمرشح بُعد معين ، مثل 3 × 3. يمر فوق صورة إدخال لإجراء عملية ضرب المصفوفة لكل عنصر لتطبيق الالتواء. تطبيق المرشحات على كل صورة تدريب بدرجات دقة مختلفة بالإضافة إلى إخراج الصورة الملتفة سيعمل كمدخل للطبقة اللاحقة.
  • الحشو : يتم استخدامه لتوسيع مصفوفة الإدخال إلى حدود المصفوفة عن طريق إدخال وحدات بكسل مزيفة. يتم القيام به لمواجهة حقيقة أن الالتواء يقلل من حجم المصفوفة. على سبيل المثال ، يمكن أن تتحول مصفوفة 9 × 9 إلى مصفوفة 3 × 3 بعد التصفية.
  • Striding : إذا كنت ترغب في الحصول على إخراج أصغر من المدخلات الخاصة بك ، فيمكنك إجراء خطوة بخطوة. يسمح بتخطي مناطق معينة بينما ينزلق المرشح فوق الصورة. بتخطي اثنين أو ثلاثة بكسلات ، يمكنك إنتاج شبكة أكثر كفاءة عن طريق تقليل الدقة المكانية.
  • الأوزان والتحيزات: تحتوي شبكات CNN على أوزان وتحيزات في خلاياها العصبية. يمكن أن يتعلم النموذج هذه القيم أثناء التدريب ، وتبقى القيم كما هي في جميع أنحاء طبقة معينة لجميع الخلايا العصبية. هذا يعني أن كل خلية عصبية مخفية تكتشف نفس الميزات في مناطق مختلفة من الصورة. نتيجة لذلك ، تصبح الشبكة أكثر تسامحًا أثناء ترجمة الكائنات إلى صورة معينة.
  • ReLU : إنها تعني الوحدة الخطية المصححة (ReLu) وتستخدم لتدريب أكثر فاعلية وأسرع. يقوم بتعيين القيم السالبة إلى 0 ويحافظ على القيم الموجبة. يُطلق عليه أيضًا التنشيط ، حيث تحمل الشبكة ميزات الصورة النشطة فقط في الطبقة التالية.
  • المجال الاستقبالي: في الشبكة العصبية ، يتلقى كل خلية عصبية مدخلات من مواقع مختلفة من الطبقة السابقة. وفي الطبقات التلافيفية ، يتلقى كل خلية عصبية مدخلات من منطقة مقيدة فقط من الطبقة السابقة ، تسمى المجال الاستقبالي للخلية العصبية. في حالة طبقة FC ، تكون الطبقة السابقة بأكملها هي المجال الاستقبالي.

في مهام الحساب الواقعي ، عادةً ما يتم إجراء الالتفاف في صورة ثلاثية الأبعاد تتطلب مرشحًا ثلاثي الأبعاد.

بالعودة إلى CNN ، فإنها تتألف من أجزاء مختلفة أو طبقات عقدة. كل طبقة عقدة لها عتبة ووزن وتتصل بأخرى. عند تجاوز حد العتبة ، يتم إرسال البيانات إلى الطبقة التالية في هذه الشبكة.

يمكن لهذه الطبقات إجراء عمليات لتغيير البيانات لمعرفة الميزات ذات الصلة. أيضًا ، تكرر هذه العمليات مئات الطبقات المختلفة التي تستمر في التعلم لاكتشاف الميزات الأخرى للصورة.

عمليات

أجزاء CNN هي:

  • طبقة الإدخال: هذا هو المكان الذي يتم فيه أخذ الإدخال ، مثل صورة. سيكون كائنًا ثلاثي الأبعاد بارتفاع وعرض وعمق محدد.
  • طبقة واحدة / عدة طبقات مخفية أو مرحلة استخراج المعالم: يمكن أن تكون هذه الطبقات طبقة تلافيفية وطبقة تجميع وطبقة متصلة بالكامل.
  • طبقة الإخراج: هنا ، سيتم عرض النتيجة.

يتم تحويل تمرير الصورة عبر طبقة الالتفاف إلى خريطة المعالم أو خريطة التنشيط. بعد تحويل المدخلات ، تقوم الطبقات بتحويل الصورة وتمرير النتيجة إلى الطبقة التالية.

ستقوم CNN بإجراء العديد من عمليات الالتفاف وتقنيات التجميع لاكتشاف الميزات أثناء مرحلة استخراج الميزة. على سبيل المثال ، إذا أدخلت صورة قطة ، فستتعرف CNN على أرجلها الأربعة ولونها وعيناهتا وما إلى ذلك.

بعد ذلك ، ستعمل الطبقات المتصلة بالكامل في CNN كمصنف على الميزات المستخرجة. بناءً على ما تنبأت به خوارزمية التعلم العميق حول الصورة ، ستؤدي الطبقات إلى النتيجة.

مزايا CNNs

مزايا CNNs

دقة أعلى

تقدم CNN دقة أعلى من الشبكات العصبية العادية التي لا تستخدم الالتواء. تعد شبكات CNN مفيدة ، خاصةً عندما تتضمن المهمة الكثير من البيانات والفيديو والتعرف على الصور ، وما إلى ذلك ، فهي تنتج نتائج وتوقعات عالية الدقة ؛ لذلك ، يتزايد استخدامها في قطاعات مختلفة.

الكفاءة الحسابية

الكفاءة الحسابية

تقدم CNN مستوى كفاءة حسابيًا أعلى من الشبكات العصبية العادية الأخرى. هذا بسبب استخدام عملية الالتواء. يستخدمون أيضًا تقليل الأبعاد ومشاركة المعلمات لجعل النماذج أسرع وأسهل في النشر. يمكن أيضًا تحسين هذه التقنيات للعمل على أجهزة مختلفة ، سواء كان ذلك الهاتف الذكي أو الكمبيوتر المحمول.

ميزة استخراج

يمكن لـ CNN التعرف بسهولة على ميزات الصورة دون الحاجة إلى هندسة يدوية. يمكنك الاستفادة من شبكات CNN المدربة مسبقًا وإدارة الأوزان عن طريق تغذية البيانات إليها عند العمل في مهمة جديدة ، وستتكيف CNN معها بسلاسة.

تطبيقات CNN

تستخدم CNN في صناعات مختلفة للعديد من حالات الاستخدام. تتضمن بعض التطبيقات الواقعية لشبكات CNN ما يلي:

تصنيف الصور

تصنيف الصور

تستخدم CNN على نطاق واسع في تصنيف الصور. يمكن أن يتعرف هؤلاء على الميزات القيمة ويحددون الأشياء في صورة معينة. وبالتالي ، يتم استخدامه في قطاعات مثل الرعاية الصحية ، وخاصة التصوير بالرنين المغناطيسي. بالإضافة إلى ذلك ، تُستخدم هذه التقنية في التعرف على الأرقام المكتوبة بخط اليد ، والتي تعد من بين أولى حالات استخدام شبكات CNN في رؤية الكمبيوتر.

كشف الكائن

يمكن لـ CNN اكتشاف الكائنات في الصور في الوقت الفعلي وأيضًا تصنيفها وتصنيفها. لذلك ، تُستخدم هذه التقنية على نطاق واسع في المركبات الآلية. كما أنه يمكّن المنازل الذكية والمشاة من التعرف على وجه مالك السيارة. يتم استخدامه أيضًا في أنظمة المراقبة التي تعمل بالذكاء الاصطناعي لاكتشاف الأشياء وتمييزها.

كشف الكائن

المطابقة السمعية والبصرية

تساعد مساعدة CNN في المطابقة السمعية البصرية في تحسين منصات بث الفيديو مثل Netflix و YouTube وما إلى ذلك ، كما أنها تساعد في تلبية طلبات المستخدمين مثل "أغاني الحب التي كتبها Elton John".

التعرف على الكلام

التعرف على الكلام

إلى جانب الصور ، تعد شبكات CNN مفيدة في معالجة اللغة الطبيعية (NLP) والتعرف على الكلام. ومن الأمثلة الواقعية على ذلك استخدام Google لشبكات CNN في نظام التعرف على الكلام.

إعادة بناء الكائن

يمكن استخدام شبكات CNN في النمذجة ثلاثية الأبعاد لكائن حقيقي في بيئة رقمية. من الممكن أيضًا لنماذج CNN إنشاء نموذج وجه ثلاثي الأبعاد باستخدام صورة. بالإضافة إلى ذلك ، تعد CNN مفيدة في بناء توائم رقمية في التكنولوجيا الحيوية والتصنيع والتكنولوجيا الحيوية والهندسة المعمارية.

يشمل استخدام CNN في مختلف القطاعات:

  • الرعاية الصحية: يمكن استخدام رؤية الكمبيوتر في الأشعة لمساعدة الأطباء على اكتشاف الأورام السرطانية بكفاءة أفضل لدى الشخص.
  • الزراعة: يمكن للشبكات الاستفادة من الصور المأخوذة من الأقمار الصناعية مثل LSAT والاستفادة من هذه البيانات لتصنيف الأراضي الخصبة. يساعد هذا أيضًا في التنبؤ بمستويات خصوبة الأرض ووضع استراتيجية فعالة لتعظيم العائد.
  • التسويق: يمكن أن تقترح تطبيقات الوسائط الاجتماعية شخصًا في صورة منشورة في ملف تعريف شخص ما. يساعدك هذا في الإشارة إلى الأشخاص في ألبومات الصور الخاصة بك.
  • البيع بالتجزئة: يمكن لمنصات التجارة الإلكترونية استخدام البحث المرئي لمساعدة العلامات التجارية على التوصية بالعناصر ذات الصلة التي يرغب العملاء المستهدفون في شرائها.
  • السيارات: وجدت CNN استخدامًا في السيارات لتحسين سلامة الركاب والسائقين. يقوم بذلك بمساعدة ميزات مثل اكتشاف خط الحارة ، واكتشاف الأشياء ، وتصنيف الصور ، وما إلى ذلك. وهذا يساعد أيضًا عالم السيارات ذاتية القيادة على التطور أكثر.

موارد لتعلم CNNs

كورسيرا:

تقدم Coursera هذه الدورة التدريبية على CNN والتي يمكنك التفكير في أخذها. ستعلمك هذه الدورة كيف تطورت رؤية الكمبيوتر على مر السنين وبعض تطبيقات شبكات CNN في العالم الحديث.

أمازون:

يمكنك قراءة هذه الكتب والمحاضرات لمعرفة المزيد عن CNN:

  • الشبكات العصبية والتعلم العميق: ويغطي النماذج والخوارزميات ونظرية التعلم العميق والشبكات العصبية.
معاينة منتج تقييم سعر
الشبكات العصبية والتعلم العميق: كتاب مدرسي الشبكات العصبية والتعلم العميق: كتاب مدرسي لا يوجد تقييم 49.00 دولارًا
  • دليل الشبكات العصبية التلافيفية لرؤية الكمبيوتر: سيعلمك هذا الكتاب تطبيقات شبكات CNN ومفاهيمها.
معاينة منتج تقييم سعر
دليل الشبكات العصبية التلافيفية لرؤية الكمبيوتر (محاضرات تجميعية حول رؤية الكمبيوتر) دليل الشبكات العصبية التلافيفية لرؤية الكمبيوتر (محاضرات تجميعية حول رؤية الكمبيوتر) لا يوجد تقييم 49.26 دولارًا أمريكيًا
  • التدريب العملي على الشبكات العصبية التلافيفية مع Tensorflow: يمكنك حل مشاكل مختلفة في رؤية الكمبيوتر باستخدام Python و TensorFlow بمساعدة هذا الكتاب.
معاينة منتج تقييم سعر
التدريب العملي على الشبكات العصبية التلافيفية باستخدام TensorFlow: حل مشكلات رؤية الكمبيوتر باستخدام النمذجة في TensorFlow و Python التدريب العملي على الشبكات العصبية التلافيفية باستخدام TensorFlow: حل مشكلات رؤية الكمبيوتر باستخدام النمذجة ... لا يوجد تقييم 15.24 دولارًا أمريكيًا
  • التعلم العميق التطبيقي المتقدم: سيساعدك هذا الكتاب على فهم شبكات CNN والتعلم العميق وتطبيقاتها المتقدمة ، بما في ذلك اكتشاف الكائنات.
معاينة منتج تقييم سعر
التعلم العميق التطبيقي المتقدم: الشبكات العصبية التلافيفية واكتشاف الأشياء التعلم العميق التطبيقي المتقدم: الشبكات العصبية التلافيفية واكتشاف الأشياء لا يوجد تقييم 23.74 دولارًا أمريكيًا
  • الشبكات العصبية التلافيفية والشبكات العصبية المتكررة: سيعلمك هذا الكتاب عن شبكات CNN و RNN وكيفية بناء هذه الشبكات.
معاينة منتج تقييم سعر
الشبكات العصبية التلافيفية والشبكات العصبية المتكررة: الشبكات العصبية التلافيفية والشبكات العصبية المتكررة الشبكات العصبية التلافيفية والشبكات العصبية المتكررة: الشبكات العصبية التلافيفية و ... لا يوجد تقييم 1.99 دولارًا أمريكيًا

استنتاج

الشبكات العصبية التلافيفية هي إحدى المجالات الناشئة للذكاء الاصطناعي والتعلم الآلي والتعلم العميق. لها تطبيقات مختلفة في عالم اليوم الحالي في كل قطاع تقريبًا. بالنظر إلى استخدامه المتزايد ، من المتوقع أن يتوسع أكثر ويكون أكثر فائدة في معالجة مشاكل العالم الحقيقي.