Sitemap Переключить меню

Как веб-скрапинг может быть ценным источником данных

Опубликовано: 2022-11-11

Веб-скрапинг. Это звучит как тяжелая работа, но это скорее умно, чем тяжело.

Этот метод использует простую истину: передняя часть веб-сайта, которую вы видите, должна взаимодействовать с задней частью, чтобы извлекать данные и отображать их. Поисковый робот или бот может собирать эту информацию. Дальнейшая работа может организовать данные для анализа.

Цифровые маркетологи постоянно ищут данные, чтобы лучше понять потребительские предпочтения и рыночные тенденции. Веб-скрапинг — еще один инструмент для достижения этой цели.

Сначала ползать, потом скрести

«В целом, все программы веб-скрейпинга выполняют одни и те же две задачи: 1) загрузка данных и 2) анализ данных. В зависимости от сайта первая или вторая часть может быть более сложной или сложной». объяснил Эд Маклафлин, партнер Marquee Data, фирмы, предоставляющей услуги веб-скрейпинга.

Веб-скрапинг имеет некоторое сходство с более ранней техникой: веб-сканированием. Еще в 1990-х годах, когда Интернет занимал меньше места в киберпространстве, поисковые роботы составляли списки веб-сайтов. Этот метод до сих пор используется Google для извлечения ключевых слов для своей поисковой системы, отмечает Химаншу Дхамелия, директор по продажам компании Rentech Digital, занимающейся автоматизацией процессов и парсингом веб-страниц.

Для Rentech просмотр веб-страниц — это просто получение «структурированных данных из разных источников», — сказал Дхамелия. «Мы очищаем новостные веб-сайты, финансовые данные и отчеты о местоположении».

«Данные парсинга веб-страниц собираются в меньших масштабах, — сказал Джордж Цкаровели, руководитель проекта веб-парсеров Datamam, — они по-прежнему составляют миллионы точек данных, но также собираются ежедневно или чаще», — сказал он.

«Определяющими чертами современного парсинга веб-страниц являются безголовые браузеры, резидентные прокси-серверы и использование масштабируемых облачных платформ», — сказал Ондра Урбан, главный операционный директор компании Apify, специализирующейся на парсинге и извлечении данных. «С безголовым браузером вы можете создавать парсеры, которые ведут себя точно так же, как люди, открывать любой веб-сайт и извлекать любые данные… Современные облачные платформы, такие как AWS, GCP или Apify, позволяют мгновенно запускать сотни или тысячи парсеров на основе текущий спрос на данные».

Данные какой партии? И как это получить

Существует целый спектр данных, собираемых от нулевой стороны до сторонних данных, которые маркетологи постоянно выбирают для следующего понимания. Итак, какое место в этом континууме занимает веб-скрапинг?

«Данные веб-скрапинга наиболее тесно связаны со сторонними данными». По словам Маклафлина, маркетологи могут затем объединить эти данные с существующими наборами данных. «Веб-скрапинг также может предоставить уникальный источник данных, который не так активно используется конкурентами, как это может быть в случае с купленными списками». Он сказал.

«Девяносто пять процентов нашей работы — это сторонние [данные]», — сказал Дхамелия. Очистка нацелена на данные, передаваемые между интерфейсом и сервером веб-сайта. По его словам, для этого может потребоваться API, созданный для доступа к этому потоку данных, или использование JavaScript с драйвером Selenium.

Большая часть работы Rentech предназначена для предприятий, нуждающихся в маркетинговой информации и анализе. По словам Дхармелии, ботам поручено периодически посещать веб-сайты, иногда в поисках информации о продукте. Некоторые веб-сайты ограничивают количество запросов, поступающих из одного источника. Чтобы обойти это, Rentech будет использовать AWS Lambda для выполнения бота, который будет запускать запросы с нескольких компьютеров, чтобы обойти ограничения запросов, пояснил Дхамелия.

По словам Цкаровели, по-человечески невозможно просмотреть все данные, чтобы отсеять «нулевые значения и дубликаты». «Многие клиенты собирают данные на своих устройствах или пользуются услугами фрилансеров. Неполучение чистых данных — огромная проблема», — сказал он. Datamam полагается на собственные встроенные алгоритмы для прохождения «строк и столбцов», автоматизируя обеспечение качества.

«Мы пишем собственные скрипты на Python для парсинга веб-сайтов. Обычно каждый из них настраивается для работы с конкретным веб-сайтом, и при необходимости мы можем предоставить пользовательские входные данные», — сказал Маклафлин. «Мы не используем искусственный интеллект или машинное обучение для автоматизации создания этих сценариев, но эта технология может быть использована в будущем».

Любые данные, которые можно скопировать и вставить вручную, могут быть автоматически удалены». — добавил Маклауглин. «[I] Если вы найдете веб-сайт со списком потенциальных потенциальных клиентов, можно использовать веб-скрейпинг, чтобы легко преобразовать этот веб-сайт в электронную таблицу потенциальных клиентов, которую затем можно использовать для последующих маркетинговых процессов».

«Социальные сети — это другой зверь. Их веб-приложения и мобильные приложения чрезвычайно сложны, с сотнями API и динамическими структурами, и они также очень часто меняются благодаря регулярным обновлениям и A/B-тестам», — сказал Ондра. «[Если] вы не можете обучать и поддерживать большую внутреннюю команду, лучший способ сделать это — купить ее как услугу у опытных разработчиков».

«Если [клиент] занимается электронной коммерцией, вам может сойти с рук парсер продуктов на базе ИИ. Вы рискуете получить более низкое качество данных, но вы можете легко развернуть его на сотнях или тысячах веб-сайтов», — добавил Ондра.

Почистите сеть, но руководствуйтесь здравым смыслом

Существуют ограничения и возможности, связанные с парсингом веб-страниц. Просто имейте в виду, что соображения конфиденциальности должны сдерживать запрос. Веб-скрапинг — это выборочная, а не коллективная сеть перетаскивания.

Конфиденциальность данных является одним из таких ограничений. «Никогда не собирайте мнения или политические взгляды, информацию о семьях или личные данные», — сказал Дхармелия. Оцените юридический риск перед парсингом. Не собирайте никаких данных, которые являются юридически рискованными.

Важно понимать, что веб-скрапинг не предназначен — и по юридическим причинам не должен — собирать личную информацию. Действительно, веб-скрапинг любых данных был спорным, но в значительной степени выдержал юридическую проверку, не в последнюю очередь потому, что трудно провести юридическое различие между веб-браузерами и веб-скраперами, которые запрашивают данные с веб-сайтов и что-то с ними делают. Это было оспорено недавно.

По словам Дхармелии, у Facebook, Instagram и LinkedIn есть правила, определяющие, какие данные могут быть удалены, а какие запрещены. Например, отдельные закрытые учетные записи Facebook и Instagram являются частными учетными записями. Он добавил, что все, что передает данные в открытый мир, является честной игрой — New York Times, Twitter, любое место, где пользователи могут публиковать комментарии или обзоры.

«Мы не предоставляем юридических консультаций, поэтому мы рекомендуем нашим клиентам обращаться за консультацией по юридическим вопросам в их юрисдикции». — сказал Маклафлин.

Копните глубже: почему маркетологи должны заботиться о конфиденциальности потребителей

Веб-скрапинг по-прежнему является полезным дополнением к другим формам сбора данных.

По словам Цкаровели, для клиентов Datamam просмотр веб-страниц является формой лидогенерации. Он может генерировать новые лиды из нескольких источников или может использоваться для обогащения данных, чтобы позволить маркетологам лучше понять своих клиентов, отметил он.

Дхамелия отметил, что еще одна цель для ботов, занимающихся веб-скрапингом, — маркетинговые кампании влиятельных лиц. Здесь целью является выявление влиятельных лиц, которые соответствуют профилю маркетолога.

«Начните медленно и добавляйте источники данных постепенно. Даже у наших корпоративных клиентов мы видим огромный энтузиазм начать парсинг веб-страниц, как если бы это была какая-то волшебная пуля, только для того, чтобы позже прекратить часть парсеров, потому что они понимают, что им никогда не нужны были данные», — сказал Ондра. «Начните следить за одним конкурентом, и если это сработает для вас, добавьте второго. Или начните с инфлюенсеров в Instagram и добавьте TikTok позже. Относитесь к данным, извлеченным из Интернета, усердно, как и к любому другому источнику данных, и это наверняка даст вам конкурентное преимущество».


Получите МарТех! Повседневная. Свободно. В вашем почтовом ящике.

См. условия.



Мнения, выраженные в этой статье, принадлежат приглашенному автору, а не обязательно MarTech. Штатные авторы перечислены здесь.


Похожие истории

    Как веб-скрапинг может быть ценным источником данных
    Как количественно оценить окупаемость данных с помощью сборников решений
    Движущаяся цель допустимого PII
    6 тактик сбора данных для маркетинга в будущем без файлов cookie
    5 способов, как маркетинг и ИТ могут лучше работать вместе

Новое на МарТех

    Контент и возможности Web3 с точки зрения агентства
    Как веб-скрапинг может быть ценным источником данных
    3 простых шага к автоматизации создания контента для бизнеса
    Маркетологи делают решения для идентификации неотложным приоритетом
    Подкасты стали основным каналом маркетинга B2B