Sitemap تبديل القائمة

كيف يمكن أن يكون تجريف الويب مصدرًا قيمًا للبيانات

نشرت: 2022-11-11

تجريف على شبكة الإنترنت. يبدو أنه عمل شاق ، لكنه أكثر ذكاءً من كونه شاقًا.

تستغل التقنية حقيقة بسيطة: يجب أن تتحدث الواجهة الأمامية لموقع الويب ، التي تراها ، إلى النهاية الخلفية لاستخراج البيانات وعرضها. يمكن لزاحف الويب أو الروبوت جمع هذه المعلومات. يمكن لمزيد من العمل تنظيم البيانات للتحليل.

يسعى المسوقون الرقميون دائمًا للحصول على البيانات للحصول على فكرة أفضل عن تفضيلات المستهلك واتجاهات السوق. تجريف الويب هو أداة أخرى لتحقيق هذه الغاية.

الزحف أولاً ، ثم الكشط

"بشكل عام ، تنجز جميع برامج تجريف الويب نفس المهمتين: 1) تحميل البيانات و 2) تحليل البيانات. اعتمادًا على الموقع ، يمكن أن يكون الجزء الأول أو الثاني أكثر صعوبة أو تعقيدًا ". أوضح إد ماكلولين ، الشريك في شركة Marquee Data ، وهي شركة خدمات تجريف على الويب.

يشبه تجريف الويب بعض التشابه مع تقنية سابقة: الزحف على الويب. بالعودة إلى التسعينيات ، عندما احتل الإنترنت مساحة أقل على الإنترنت ، قامت برامج الزحف على الويب بتجميع قوائم بمواقع الويب. وأشار هيمانشو داميليا ، مدير المبيعات في شركة Rentech Digital لأتمتة العمليات وكشط الويب ، إلى أن هذه التقنية لا تزال تستخدم من قبل Google للبحث عن الكلمات الرئيسية لتشغيل محرك البحث الخاص بها.

بالنسبة إلى Rentech ، فإن تجريف الويب هو مجرد الحصول على "بيانات منظمة من مزيج من مصادر مختلفة" ، كما قال Dhameliya. "نحن نتخلص من مواقع الويب الإخبارية والبيانات المالية وتقارير الموقع."

قال جورج تسكاروفيلي ، مدير المشروع في كاشطات الويب Datamam ، "يتم جمع بيانات كشط الويب على نطاق أصغر" ، "لا تزال تصل إلى ملايين نقاط البيانات ، ولكنها تجمع أيضًا على أساس يومي أو بشكل متكرر".

قال Ondra Urban ، مدير العمليات في شركة Apify لاستخراج البيانات والكشط: "السمات المميزة لكشط الويب الحديث هي المتصفحات بدون رؤوس ، والوكلاء السكنيين ، واستخدام الأنظمة الأساسية السحابية القابلة للتطوير". "باستخدام متصفح بدون رأس ، يمكنك إنشاء أدوات كشط تتصرف تمامًا مثل البشر ، وفتح أي موقع ويب واستخراج أي بيانات ... تتيح لك منصات السحابة الإلكترونية [M] مثل AWS أو GCP أو Apify بدء المئات أو الآلاف من أدوات الكشط على الفور ، بناءً على الطلب الحالي على البيانات ".

أي بيانات الحزب؟ وكيفية الحصول عليها

هناك طيف من جمع البيانات ، بدءًا من بيانات الطرف الصفري إلى بيانات الطرف الثالث ، والتي يختارها المسوقون إلى الأبد للحصول على الرؤية التالية. إذن ، أين تتلاءم عملية تجريف الويب مع هذه السلسلة المتواصلة؟

"البيانات المقتبسة من الويب هي الأكثر ارتباطًا ببيانات الجهات الخارجية." سعيد ماكلولين ، حيث يمكن للمسوقين بعد ذلك ضم هذه البيانات مع مجموعات البيانات الموجودة. "يمكن أن يوفر تجريف الويب أيضًا مصدرًا فريدًا للبيانات لا يستخدمه المنافسون بكثافة كما هو الحال مع القوائم المشتراة." هو قال.

قال الضميلية: "خمسة وتسعون بالمائة من العمل الذي نقوم به هو [بيانات] طرف ثالث". يهدف القشط إلى نقل البيانات بين الواجهة الأمامية والخلفية لموقع الويب. وأوضح أن ذلك قد يتطلب واجهة برمجة تطبيقات مصممة للاستفادة من دفق البيانات هذا ، أو استخدام JavaScript مع برنامج تشغيل سيلينيوم.

معظم عمل شركة Rentech مخصص للمؤسسات التي تسعى للحصول على معلومات التسويق والتحليل. قال دارمليا إن الروبوتات مكلفة بزيارات دورية لمواقع الويب ، وفي بعض الأحيان تسعى للحصول على معلومات عن المنتج. تحد بعض مواقع الويب من عدد الاستفسارات الواردة من مصدر واحد. للتغلب على ذلك ، ستستخدم شركة Rentech AWS Lambda لتنفيذ روبوت يقوم بإطلاق استعلامات من أجهزة متعددة للالتفاف حول قيود الاستعلام ، كما أوضح Dhameliya.

قال تسكاروفيلي إنه ليس من الممكن بشريًا أن نتصفح جميع البيانات لاستبعاد "المغفلين والمغفلين". "يقوم العديد من العملاء بجمع البيانات باستخدام أجهزتهم الخاصة أو يستخدمون برامج التداول المجانية. قال "إنها مشكلة كبيرة ، عدم تلقي بيانات نظيفة". تعتمد Datamam على خوارزمياتها المدمجة لتصفح "الصفوف والأعمدة" ، مما يؤدي إلى أتمتة ضمان الجودة.

"نكتب نصوص لغة بيثون مخصصة لكشط مواقع الويب. عادة ، يتم تخصيص كل واحد للتعامل مع موقع ويب معين ، ويمكننا توفير مدخلات مخصصة ، إذا لزم الأمر ، "قال ماكلولين. "نحن لا نستخدم أي ذكاء اصطناعي أو تعلم آلي لأتمتة إنتاج هذه البرامج النصية ، ولكن يمكن استخدام هذه التكنولوجيا في المستقبل."

أي بيانات يمكن نسخها ولصقها يدويًا يمكن كشطها تلقائيًا ". وأضاف ماكلاوجلين. "[I] إذا وجدت موقعًا إلكترونيًا يحتوي على دليل لقائمة العملاء المحتملين المحتملين ، يمكن استخدام تجريف الويب لتحويل هذا الموقع بسهولة إلى جدول بيانات للعملاء المتوقعين يمكن استخدامه بعد ذلك لعمليات التسويق النهائية."

"وسائل التواصل الاجتماعي وحش مختلف. إن تطبيقات الويب والهاتف المحمول الخاصة بهم معقدة للغاية ، مع وجود مئات من واجهات برمجة التطبيقات والهياكل الديناميكية ، كما أنها تتغير كثيرًا أيضًا بفضل التحديثات المنتظمة واختبارات A / B ، "قال Ondra. "[U] ما لم يكن بإمكانك تدريب ودعم فريق داخلي كبير ، فإن أفضل طريقة للقيام بذلك هي شرائه كخدمة من مطورين ذوي خبرة."

"إذا كان [العميل] يعمل في مجال التجارة الإلكترونية ، فقد تفلت من استخدام مكشطة منتج مدعومة بالذكاء الاصطناعي. أنت تخاطر بانخفاض جودة البيانات ، ولكن يمكنك بسهولة نشرها على مئات أو آلاف مواقع الويب ".

كشط الويب ، ولكن استخدم بعض الحس السليم

هناك حدود - وفرص - تأتي مع تجريف الويب. فقط كن على علم بأن اعتبارات الخصوصية يجب أن تخفف من حدة الاستعلام. تجريف الويب هو شبكة سحب انتقائية وليست جماعية.

خصوصية البيانات هي واحدة من تلك القيود. قالت دارمليا: "لا تجمع أبدًا الآراء أو الآراء السياسية أو المعلومات حول العائلات أو البيانات الشخصية". تقييم المخاطر القانونية قبل القشط. لا تجمع أي بيانات تنطوي على مخاطرة قانونية.

من المهم أن نفهم أن كشط الويب - ولأسباب قانونية لا ينبغي أن يكون - متعلقًا بجمع معلومات التعريف الشخصية. في الواقع ، كان تجريف أي بيانات على شبكة الإنترنت أمرًا مثيرًا للجدل ، لكنه نجا إلى حد كبير من التدقيق القانوني ، لأسباب ليس أقلها أنه من الصعب التمييز بين متصفحات الويب ومزيلات الويب ، وكلاهما يطلب بيانات من مواقع ويب ويفعل أشياء بها. تم رفع دعوى قضائية بشأن هذا مؤخرًا.

قال دارمليا إن لدى Facebook و Instagram و LinkedIn قواعد تحكم البيانات التي يمكن كشطها وأي البيانات محظورة. على سبيل المثال ، تعد حسابات Facebook و Instagram الفردية المغلقة حسابات خاصة. وأضاف أن أي شيء يغذي البيانات للعالم العام هو لعبة عادلة - نيويورك تايمز ، تويتر ، أي مساحة يمكن للمستخدمين فيها نشر التعليقات أو المراجعات.

"نحن لا نقدم المشورة القانونية ، لذلك نشجع عملائنا على طلب المشورة بشأن الاعتبارات القانونية في نطاق سلطتهم." قال ماكلولين.

حفر أعمق: لماذا يجب أن يهتم المسوقون بخصوصية المستهلك

لا يزال تجريف الويب عنصرًا مساعدًا مفيدًا مع الأشكال الأخرى لجمع البيانات.

بالنسبة لعملاء Datamam ، يعد تجريف الويب شكلاً من أشكال إنشاء قوائم العملاء المحتملين ، على حد قول تسكاروفيلي. وأشار إلى أنه يمكن أن يولد عملاء متوقعين جدد من مصادر متعددة أو يمكن استخدامه لإثراء البيانات للسماح للمسوقين باكتساب فهم أفضل لعملائهم.

وأشار الضميليا إلى أن هناك هدفًا آخر لروبوتات تجريف الويب وهو حملات التسويق عبر المؤثرين. الهدف هنا هو تحديد المؤثرين الذين يتناسبون مع ملف تعريف المسوق.

"ابدأ ببطء وأضف مصادر البيانات بشكل تدريجي. حتى مع عملاء مؤسستنا ، نشهد حماسًا كبيرًا لبدء تجريف الويب ، كما لو كانت رصاصة سحرية ، فقط لإيقاف جزء من أدوات الكشط لاحقًا لأنهم أدركوا أنهم لم يحتاجوا أبدًا إلى البيانات ، "قال Ondra. "ابدأ في مراقبة أحد المنافسين ، وإذا كان ذلك مناسبًا لك ، فأضف منافسًا آخر. أو ابدأ مع المؤثرين على Instagram وأضف TikTok لاحقًا في هذه العملية. تعامل مع بيانات الويب التي تم كشطها بجدية ، مثل أي مصدر بيانات آخر ، وسوف يمنحك ميزة تنافسية بالتأكيد. "


احصل على MarTech! اليومي. حر. في بريدك الوارد.

انظر الشروط.



الآراء الواردة في هذا المقال هي آراء المؤلف الضيف وليست بالضرورة آراء MarTech. مؤلفو طاقم العمل مدرجون هنا.


قصص ذات الصلة

    كيف يمكن أن يكون تجريف الويب مصدرًا قيمًا للبيانات
    كيفية تحديد عائد الاستثمار للبيانات باستخدام كتيبات القرار
    الهدف المتحرك لمعلومات تحديد الهوية الشخصية المسموح بها
    6 أساليب لجمع البيانات للتسويق في المستقبل بدون ملفات تعريف الارتباط
    5 طرق يمكن أن يعمل بها التسويق وتكنولوجيا المعلومات معًا بشكل أفضل

جديد على MarTech

    محتوى Web3 وقدراته من منظور الوكالة
    كيف يمكن أن يكون تجريف الويب مصدرًا قيمًا للبيانات
    3 خطوات بسيطة لأتمتة إنشاء المحتوى للشركات
    يجعل المسوقون حلول الهوية أولوية ملحة
    أصبحت المدونات الصوتية الآن قناة رئيسية للتسويق بين الشركات