Como o web scraping pode ser uma fonte de dados valiosa

Publicados: 2022-11-11

Raspagem da web. Parece um trabalho árduo, mas é mais inteligente do que árduo.

A técnica explora uma verdade simples: o front-end do site, que você vê, deve conversar com o back-end para extrair dados e exibi-los. Um rastreador da Web ou bot pode coletar essas informações. Trabalhos adicionais podem organizar os dados para análise.

Os profissionais de marketing digital estão sempre buscando dados para ter uma melhor noção da preferência do consumidor e das tendências do mercado. Web scraping é mais uma ferramenta para esse fim.

Primeiro rasteje, depois raspe

“Em geral, todos os programas de web scraping realizam as mesmas duas tarefas: 1) carregar dados e 2) analisar dados. Dependendo do local, a primeira ou segunda parte pode ser mais difícil ou complexa.” explicou Ed Mclaughlin, sócio da Marquee Data, uma empresa de serviços de web scraping.

Web scraping tem alguma semelhança com uma técnica anterior: web crawling. Na década de 1990, quando a internet ocupava menos espaço cibernético, os bots de rastreamento da web compilavam listas de sites. A técnica ainda é usada pelo Google para buscar palavras-chave para alimentar seu mecanismo de busca, observou Himanshu Dhameliya, diretor de vendas da empresa de automação de processos e web scraping Rentech Digital.

Para Rentech, web scraping é apenas obter “dados estruturados de uma mistura de fontes diferentes”, disse Dhameliya. “Nós raspamos sites de notícias, dados financeiros e relatórios de localização.”

“Os dados de web scraping são coletados em uma escala menor”, disse George Tskaroveli, gerente de projeto da web scrapers Datamam, “ainda somando milhões de pontos de dados, mas também coletando diariamente ou com mais frequência”, disse ele.

“Os recursos que definem o web scraping moderno são navegadores headless, proxies residenciais e o uso de plataformas de nuvem escaláveis”, disse Ondra Urban, COO da empresa de extração de dados Apify. “Com um navegador headless, você pode criar scrapers que se comportam exatamente como humanos, abrir qualquer site e extrair quaisquer dados… Plataformas de nuvem modernas como AWS, GCP ou Apify permitem que você inicie instantaneamente centenas ou milhares de scrapers, com base em a demanda atual por dados.”

Quais dados do partido? E como conseguir

Há um espectro de coleta de dados, variando de zero a dados de terceiros, que os profissionais de marketing estão sempre escolhendo para obter o próximo insight. Então, onde o web scraping se encaixa nesse continuum?

“Os dados extraídos da Web estão mais intimamente relacionados aos dados de terceiros.” Disse Mclaughlin, pois os profissionais de marketing podem juntar esses dados com conjuntos de dados existentes. “A raspagem da Web também pode fornecer uma fonte de dados exclusiva que não é muito usada pelos concorrentes, como pode ser o caso das listas compradas.” Ele disse.

“Noventa e cinco por cento do trabalho que fazemos são [dados] de terceiros”, disse Dhameliya. A raspagem visa os dados trafegados entre o front-end e o back-end do site. Isso pode exigir uma API criada para acessar esse fluxo de dados ou usar JavaScript com um driver Selenium, explicou ele.

A maior parte do trabalho da Rentech é para empresas que buscam inteligência e análise de marketing. Os bots são encarregados de visitas periódicas a sites, às vezes buscando informações sobre produtos, disse Dharmeliya. Alguns sites limitam o número de consultas provenientes de uma única fonte. Para contornar isso, a Rentech usará o AWS Lambda para executar um bot que iniciará consultas de várias máquinas para contornar as limitações de consulta, explicou Dhameliya.

Não é humanamente possível passar por todos os dados para eliminar “nulos e tolos”, disse Tskaroveli. “Muitos clientes coletam dados com seus próprios dispositivos ou usam freelancers. É um grande problema não receber dados limpos”, disse ele. A Datamam conta com seus próprios algoritmos integrados para percorrer as “linhas e colunas”, automatizando a garantia de qualidade.

“Escrevemos scripts python personalizados para raspar sites. Normalmente, cada um é personalizado para lidar com um site específico, e podemos fornecer entradas personalizadas, se necessário”, disse McLaughlin. “Não usamos IA ou aprendizado de máquina para automatizar a produção desses scripts, mas essa tecnologia pode ser usada no futuro.”

Quaisquer dados que possam ser copiados e colados manualmente podem ser copiados automaticamente.” acrescentou McLauglin. “[Se] você encontrar um site com um diretório de uma lista de leads em potencial, o web scraping pode ser usado para converter facilmente esse site em uma planilha de leads que pode ser usada para processos de marketing downstream.”

“As redes sociais são uma fera diferente. Seus aplicativos web e móveis são extremamente complexos, com centenas de APIs e estruturas dinâmicas, e também mudam com muita frequência graças a atualizações regulares e testes A/B”, disse Ondra. “A menos que você possa treinar e dar suporte a uma grande equipe interna, a melhor maneira de fazer isso é comprá-lo como um serviço de desenvolvedores experientes.”

“Se [o cliente] estiver no comércio eletrônico, você poderá se safar com um raspador de produto com inteligência artificial. Você corre o risco de uma qualidade de dados mais baixa, mas pode facilmente implantá-los em centenas ou milhares de sites”, acrescentou Ondra.

Raspe a web, mas use algum senso comum

Existem limites – e oportunidades – que vêm com a raspagem da web. Esteja ciente de que as considerações de privacidade devem moderar a consulta. Web scraping é uma rede seletiva, não coletiva.

A privacidade dos dados é um desses limites. “Nunca colete opiniões ou opiniões políticas ou informações sobre famílias ou dados pessoais”, disse Dharmeliya. Avalie o risco legal antes de raspar. Não colete nenhum dado que seja legalmente arriscado.

É importante entender que o web scraping não é – e por razões legais não deveria ser – coletar informações de identificação pessoal. De fato, a raspagem de quaisquer dados na web tem sido controversa, mas sobreviveu amplamente ao escrutínio legal, até porque é difícil estabelecer uma distinção legal entre navegadores da web e raspadores da web, ambos solicitando dados de sites e fazendo coisas com eles. Isso foi litigado recentemente.

Facebook, Instagram e LinkedIn têm regras que regem quais dados podem ser copiados e quais dados estão fora dos limites, disse Dharmeliya. Por exemplo, contas individuais do Facebook e Instagram fechadas são contas privadas. Qualquer coisa que forneça dados ao mundo público é um jogo justo – New York Times, Twitter, qualquer espaço onde os usuários possam postar comentários ou críticas, acrescentou.

“Não fornecemos aconselhamento jurídico, por isso incentivamos nossos clientes a procurar aconselhamento sobre considerações legais em sua jurisdição.” disse McLaughlin.

Aprofunde-se: por que os profissionais de marketing devem se preocupar com a privacidade do consumidor

A raspagem da Web ainda é um complemento útil com outras formas de coleta de dados.

Para os clientes da Datamam, o web scraping é uma forma de geração de leads, disse Tskaroveli. Ele pode gerar novos leads de várias fontes ou pode ser usado para enriquecimento de dados para permitir que os profissionais de marketing compreendam melhor seus clientes, observou ele.

Outro alvo para os bots de raspagem da web são as campanhas de marketing de influenciadores, observou Dhameliya. Aqui o objetivo é identificar influenciadores que se encaixem no perfil do profissional de marketing.

“Comece devagar e adicione fontes de dados de forma incremental. Mesmo com nossos clientes corporativos, estamos vendo um grande entusiasmo em começar com web scraping, como se fosse uma bala mágica, apenas para descontinuar uma parte dos scrapers mais tarde, porque eles percebem que nunca precisaram dos dados”, disse Ondra. “Comece a monitorar um concorrente e, se funcionar para você, adicione um segundo. Ou comece com influenciadores no Instagram e adicione o TikTok mais tarde no processo. Trate os dados extraídos da Web com diligência, como qualquer outra fonte de dados, e isso lhe dará uma vantagem competitiva com certeza.”

Adquira o MarTech! Diário. Livre. Na sua caixa de entrada.

Consulte os termos.

As opiniões expressas neste artigo são do autor convidado e não necessariamente da MarTech. Os autores da equipe estão listados aqui.

Adicione MarTech ao seu feed do Google Notícias.

Histórias relacionadas

Novidade no MarTech

Conteúdo e recursos Web3 da perspectiva de uma agência

Como o web scraping pode ser uma fonte de dados valiosa

3 passos simples para automatizar a criação de conteúdo para empresas

Os profissionais de marketing fazem das soluções de identidade uma prioridade urgente

Podcasts agora um dos principais canais de marketing B2B