الزحف والفهرسة: كل ما تريد معرفته
نشرت: 2022-09-11تُعرف طريقة زيادة جودة وكمية حركة المرور إلى موقع الويب الخاص بك باسم SEO (تحسين محرك البحث). إنها عملية تحسين صفحات الويب للوصول إلى مراتب بحث أعلى بشكل طبيعي. هل سبق لك أن تساءلت عن قوة محرك البحث؟ من اللافت للنظر كيف يمكن لبعض الآليات مسح شبكة الويب العالمية بطريقة منهجية لفهرسة الويب أو الزحف على الويب.
دعنا نلقي نظرة فاحصة على الدور الأساسي للزحف والفهرسة في تقديم نتائج البحث في ضوء اتجاهات تحسين محركات البحث المتزايدة باستمرار.
زحف

الزحف هو العملية التي تستخدم بها محركات البحث برامج زحف الويب الخاصة بها لاكتشاف الروابط الجديدة ، ومواقع الويب الجديدة أو الصفحات المقصودة ، والتحديثات لتقديم البيانات ، والروابط المعطلة ، وأشياء أخرى. يشار إلى برامج زحف الويب أيضًا باسم "العناكب" أو "الروبوتات" أو "العناكب". عندما تزور برامج الروبوت موقعًا إلكترونيًا ، فإنها تستخدم الروابط الداخلية للزحف إلى صفحات أخرى على الموقع.
نتيجة لذلك ، فإن أحد أهم الأسباب التي تجعل من السهل على Google Bot الزحف إلى موقع الويب هو إنشاء خريطة موقع. يمكن العثور على قائمة مهمة من عناوين URL في خريطة الموقع.
مثال: https://iquelab.in/sitemap_index.xml
يستخدم الروبوت نموذج DOM عندما يستكشف موقع الويب أو صفحات الويب (نموذج كائن المستند). يعكس DOM هيكل الشجرة المنطقية لموقع الويب.
يشار إلى كود HTML وجافا سكريبت للصفحة باسم DOM. سيكون من المستحيل عمليا الزحف إلى موقع الويب بالكامل مرة واحدة ، وسيستغرق ذلك وقتًا طويلاً. نتيجة لذلك ، يقوم Google Bot بالزحف فقط إلى المناطق الأكثر أهمية في الموقع ، والتي تعتبر مهمة نسبيًا لقياس إحصائيات محددة يمكن أن تساعد في ترتيب تلك المواقع.
تحسين موقع الويب لبرنامج Google Crawler
في بعض الأحيان نواجه مواقف لا يقوم فيها برنامج الزاحف Google بفهرسة صفحات مهمة معينة على موقع ويب. نتيجة لذلك ، يجب أن نوجه محرك البحث إلى كيفية الزحف إلى الموقع. للقيام بذلك ، قم بإنشاء ملف robots.txt وقم بتخزينه في الدليل الجذر للمجال.
يساعد ملف Robots.txt الزاحف في الزحف المنتظم إلى صفحة الويب. يوجه ملف robots.txt برامج الزحف إلى عناوين URL التي يجب الزحف إليها. إذا كان الروبوت غير قادر على تحديد موقع ملف robots.txt ، فسيواصل مهمة الزحف الخاصة به. كما أنه يساعد في إدارة ميزانية الزحف لموقع الويب.
العناصر التي تؤثر على الزحف
نظرًا لأن صفحات تسجيل الدخول عبارة عن صفحات مؤمنة ، لا يقوم الروبوت بالزحف إلى المواد الموجودة خلف نماذج تسجيل الدخول أو إذا كان أي موقع ويب يتطلب من المستخدمين تسجيل الدخول.
لم يتم الزحف إلى معلومات مربع البحث على الموقع بواسطة Googlebot. يعتقد الكثير من الناس أنه عندما يكتب أحد العملاء المنتج الذي يريده في مربع البحث ، يقوم زاحف Google بالزحف إلى الموقع. هذا ينطبق بشكل خاص على مواقع التجارة الإلكترونية.
ليس هناك ما يضمن أن يقوم الروبوت بالزحف إلى أنواع الوسائط مثل الصور الفوتوغرافية والتسجيلات الصوتية ومقاطع الفيديو والنصوص وما إلى ذلك. الطريقة الموصى بها هي تضمين النص (كاسم صورة) في HTML> التعليمات البرمجية.
إخفاء هوية روبوتات محرك البحث هو مظهر من مظاهر مواقع الويب لبعض الزائرين (على سبيل المثال ، الصفحات التي يتم عرضها على الروبوت تختلف عن المستخدمين).
قد تلاحظ برامج زحف محركات البحث أحيانًا ارتباطًا إلى موقع الويب الخاص بك من مواقع ويب أخرى على الإنترنت. وبالمثل ، يعتمد الزاحف على روابط موقعك للانتقال إلى مواقع هبوط مختلفة.
الصفحات اليتيمة هي تلك التي لا تحتوي على أي روابط داخلية مخصصة لها نظرًا لأن برامج الزحف لا يمكنها العثور على طريقة للوصول إليها. كما أنها غير مرئية تقريبًا للروبوت أثناء قيامه بالزحف إلى الموقع.
عندما تواجه برامج الزحف "أخطاء الزحف" على موقع ويب ، مثل 404 و 500 وغيرهما ، فإنها تشعر بالإحباط وتتخلى عن الصفحة. يوصى باستخدام "302 - إعادة توجيه" أو "301 - إعادة توجيه دائمة" لإعادة توجيه صفحات الويب مؤقتًا. من الأهمية بمكان وضع الجسر لبرامج الزحف بمحركات البحث.
قليل من برامج زحف الويب -
Googlebot
Googlebot عبارة عن زاحف ويب (يُعرف أحيانًا باسم العنكبوت أو الروبوت) يقوم بالزحف إلى مواقع الويب وفهرستها لـ Google. يقوم فقط باسترداد النص القابل للبحث على مواقع الويب دون إصدار أي أحكام. يتعلق الاسم بنوعين من برامج زحف الويب: أحدهما لسطح المكتب والآخر للأجهزة المحمولة.
بينجبوت
أطلقت Microsoft Bingbot ، وهو نوع من روبوت الإنترنت ، في أكتوبر 2010. وهو يعمل بنفس طريقة Googlebot ، حيث يجمع المستندات من مواقع الويب لتوفير معلومات قابلة للبحث لـ SERPs.
Slurp Bot
يتم إنشاء نتائج متتبع ارتباطات الويب Yahoo بواسطة روبوت Slurp. يقوم بجمع المعلومات من موقع الويب الخاص بالشريك وتخصيص المواد لمحرك بحث Yahoo. تتحقق صفحات الزحف هذه من مصادقة المستخدم عبر العديد من صفحات الويب.
Baiduspider
عنكبوت بايدو هو روبوت محرك البحث الصيني. الروبوت هو جزء من البرنامج ، مثل جميع برامج الزحف ، يجمع المعلومات ذات الصلة باستعلام المستخدم. يقوم بالزحف إلى صفحات الويب على الإنترنت وفهرستها تدريجياً.

ياندكس بوت
Yandex هو محرك بحث روسي والزاحف لمحرك بحث بنفس الاسم. وبالمثل ، يزحف برنامج Yandex bot إلى الصفحة بانتظام ويسجل البيانات ذات الصلة في قاعدة البيانات. يساعد في توليد نتائج بحث سهلة الاستخدام. Yandex هو خامس أكبر محرك بحث في العالم ، مع حصة سوقية تبلغ 60 بالمائة في روسيا.

الآن دعنا نمضي قدمًا لفهم كيفية فهرسة Google للصفحات.
الفهرسة

الفهرس عبارة عن مجموعة من جميع البيانات أو الصفحات المفهرسة بواسطة زاحف محرك البحث. عملية الفهرسة هي عملية تخزين المواد التي تم الحصول عليها في قاعدة بيانات فهرس البحث. ثم يتم تقييم البيانات المحفوظة مسبقًا وفقًا لمقاييس خوارزمية تحسين محركات البحث مقارنة بالصفحات المماثلة باستخدام البيانات المفهرسة. لا يمكن المبالغة في أهمية الفهرسة لأنها تساعد في ترتيب موقع الويب.
كيف يمكنك معرفة ما قام Google بفهرسته؟
لمعرفة عدد الصفحات المفهرسة على SERP ، اكتب "site: yourdomain" في مربع البحث. سيعرض هذا جميع الصفحات التي فهرستها Google ، بما في ذلك الصفحات والمقالات والصور ، من بين أشياء أخرى.
أسهل طريقة لضمان فهرسة عناوين URL هي إرسال خريطة موقع إلى Google Search Console ، والتي تحتوي على قائمة بجميع الصفحات المهمة.
عندما يتعلق الأمر بتقديم جميع الصفحات المهمة على SERP ، فإن فهرسة مواقع الويب أمر بالغ الأهمية. إذا تعذر على Googlebot رؤية المادة ، فلن تتم فهرستها. يقسم Googlebot موقع الويب بالكامل إلى عدة تنسيقات مثل HTML و CSS وجافا سكريبت. لن يتم إجراء الفهرسة على المكونات التي لا يمكن الوصول إليها.
كيف تقرر Google ما تريد فهرسته؟
عندما يكتب المستخدم استعلامًا في Google ، فإنه يحاول العثور على الإجابة الأكثر صلة من مواقع قاعدة البيانات المفهرسة. يفهرس Google المعلومات باستخدام مجموعة الخوارزميات الخاصة به. يقوم عادةً بفهرسة المحتوى الجديد على موقع الويب الذي تعتقد Google أنه سيعزز تجربة المستخدم. كلما زادت جودة المحتوى وكلما زادت جودة الروابط الموجودة على موقع الويب ، كان ذلك أفضل لتحسين محركات البحث.
تحديد كيفية وصول مواقعنا إلى عمليات الفهرسة.
نسخة مخبأة
يزحف محرك بحث Google إلى صفحات الموقع بشكل منتظم. انقر فوق علامة "القائمة المنسدلة" بجوار عنوان URL لمشاهدة النسخة المخبأة لصفحة الويب (كما هو موضح في لقطة الشاشة أدناه).
عناوين المواقع القضاء عليها
نعم! بعد فهرستها على SERP ، يمكن إزالة صفحات الويب. من الممكن أن تعرض مواقع الويب التي تمت إزالتها أخطاء 404 ، أو قد أعادت توجيه عناوين URL ، أو بها روابط معطلة ، من بين أشياء أخرى. ستتم أيضًا إضافة علامة "noindex" إلى عناوين URL.
العلامات الفوقية
يقع في كود HTML الخاص بقسم <head> بالموقع.
- الفهرس ، noindex
توضح هذه الوظيفة لزاحف محرك البحث ما إذا كان يجب فهرسة الصفحات أم لا. يعاملها الروبوت كوظيفة "فهرس" بشكل افتراضي. عند تحديد "noindex" ، فإنك توجه برامج الزحف لإزالة الصفحات من SERP.
- اتبع / nofollow
يسمح لزاحف محرك البحث بتحديد الصفحات التي يجب مراقبتها ومقدار الارتباط الذي يجب تمريره.
هذا هو نموذج التعليمات البرمجية
< head > < meta name = ”robots” content = ”noindex، nofollow” /> </ head >
بعد أن جمعت كل المعلومات الضرورية ، استخدم خدمات تحسين محركات البحث المتقدمة التي تقدمها وكالة تحسين محركات البحث الرائدة في ولاية كيرالا لتحسين موقع الويب الخاص بك. انضم إلى المحادثة في قسم التعليقات أدناه.