Comment le web scraping peut être une source de données précieuse

Publié: 2022-11-11

Grattage Web. Cela ressemble à un travail acharné, mais c'est plus intelligent qu'ardu.

La technique exploite une vérité simple : le front-end du site Web, que vous voyez, doit communiquer avec le back-end pour extraire des données et les afficher. Un robot d'exploration Web ou un bot peut recueillir ces informations. Des travaux ultérieurs peuvent organiser les données pour l'analyse.

Les spécialistes du marketing numérique sont toujours à la recherche de données pour avoir une meilleure idée des préférences des consommateurs et des tendances du marché. Le scraping Web est encore un outil de plus à cette fin.

D'abord ramper, puis gratter

"En général, tous les programmes de grattage Web accomplissent les deux mêmes tâches : 1) charger des données et 2) analyser des données. Selon les sites, la première ou la deuxième partie peut être plus difficile ou complexe. a expliqué Ed Mclaughlin, associé chez Marquee Data, une société de services de grattage Web.

Le web scraping ressemble un peu à une technique antérieure : le web crawling. Dans les années 1990, alors qu'Internet occupait moins d'espace cybernétique, les robots d'exploration Web compilaient des listes de sites Web. La technique est toujours utilisée par Google pour récupérer des mots clés afin d'alimenter son moteur de recherche, a noté Himanshu Dhameliya, directeur des ventes de la société d'automatisation des processus et de grattage Web Rentech Digital.

Pour Rentech, le web scraping consiste simplement à obtenir "des données structurées à partir d'un mélange de différentes sources", a déclaré Dhameliya. "Nous grattons les sites Web d'actualités, les données financières et les rapports de localisation."

"Les données de grattage Web sont collectées à plus petite échelle", a déclaré George Tskaroveli, chef de projet chez Web scrapers Datamam, "s'élevant toujours à des millions de points de données, mais collectant également sur une base quotidienne ou plus fréquente", a-t-il déclaré.

"Les caractéristiques déterminantes du grattage Web moderne sont les navigateurs sans tête, les proxys résidentiels et l'utilisation de plates-formes cloud évolutives", a déclaré Ondra Urban, COO de la société de grattage et d'extraction de données Apify. "Avec un navigateur sans tête, vous pouvez créer des grattoirs qui se comportent exactement comme des humains, ouvrir n'importe quel site Web et extraire toutes les données... Les plates-formes cloud modernes comme AWS, GCP ou Apify vous permettent de démarrer instantanément des centaines ou des milliers de grattoirs, basés sur la demande actuelle de données.

Quelles données de partie ? Et comment l'obtenir

Il existe un éventail de collecte de données, allant des données de zéro partie aux données de tiers, que les spécialistes du marketing parcourent en permanence pour la prochaine analyse. Alors, où se situe le web scraping dans ce continuum ?

"Les données récupérées sur le Web sont plus étroitement liées aux données de tiers." Dit Mclaughlin, car les spécialistes du marketing peuvent ensuite joindre ces données aux ensembles de données existants. "Le scraping Web peut également fournir une source de données unique qui n'est pas fortement utilisée par les concurrents, comme cela peut être le cas avec les listes achetées." Il a dit.

"Quatre-vingt-quinze pour cent du travail que nous effectuons sont des [données] tierces", a déclaré Dhameliya. Le scraping vise les données échangées entre le front-end et le back-end du site Web. Cela peut nécessiter une API conçue pour exploiter ce flux de données ou utiliser JavaScript avec un pilote Selenium, a-t-il expliqué.

La plupart des travaux de Rentech sont destinés aux entreprises à la recherche de renseignements et d'analyses marketing. Les bots sont chargés de visites périodiques de sites Web, recherchant parfois des informations sur les produits, a déclaré Dharmeliya. Certains sites Web limitent le nombre de requêtes provenant d'une seule source. Pour contourner cela, Rentech utilisera AWS Lambda pour exécuter un bot qui lancera des requêtes à partir de plusieurs machines pour contourner les limitations des requêtes, a expliqué Dhameliya.

Il n'est pas humainement possible de passer en revue toutes les données pour éliminer "les nuls et les dupes", a déclaré Tskaroveli. « De nombreux clients collectent des données avec leurs propres appareils ou font appel à des pigistes. C'est un énorme problème de ne pas recevoir de données propres », a-t-il déclaré. Datamam s'appuie sur ses propres algorithmes intégrés pour parcourir les "lignes et colonnes", automatisant ainsi l'assurance qualité.

« Nous écrivons des scripts python personnalisés pour gratter les sites Web. Habituellement, chacun est personnalisé pour gérer un site Web spécifique, et nous pouvons fournir des entrées personnalisées, si nécessaire », a déclaré McLaughlin. "Nous n'utilisons aucune IA ou apprentissage automatique pour automatiser la production de ces scripts, mais cette technologie pourrait être utilisée à l'avenir."

Toutes les données qui peuvent être copiées et collées manuellement peuvent être automatiquement supprimées. » Mclauglin a ajouté. "[I] f vous trouvez un site Web avec un répertoire d'une liste de prospects potentiels, le grattage Web peut être utilisé pour convertir facilement ce site Web en une feuille de calcul de prospects qui peut ensuite être utilisée pour les processus de marketing en aval."

«Les médias sociaux sont une bête différente. Leurs applications web et mobiles sont extrêmement complexes, avec des centaines d'API et de structures dynamiques, et elles changent aussi très souvent grâce aux mises à jour régulières et aux tests A/B », a déclaré Ondra. "[À] moins que vous ne puissiez former et soutenir une grande équipe interne, la meilleure façon de le faire est de l'acheter en tant que service auprès de développeurs expérimentés."

"Si [le client] est dans le commerce électronique, vous pourriez vous en tirer avec un grattoir de produits alimenté par l'IA. Vous risquez une qualité inférieure des données, mais vous pouvez facilement les déployer sur des centaines ou des milliers de sites Web », a ajouté Ondra.

Grattez le Web, mais faites preuve de bon sens

Il y a des limites - et des opportunités - qui accompagnent le web scraping. Sachez simplement que les considérations de confidentialité doivent tempérer la requête. Le web scraping est un filet de dragage sélectif et non collectif.

La confidentialité des données fait partie de ces limites. "Ne collectez jamais les opinions ou opinions politiques ou des informations sur les familles, ou des données personnelles", a déclaré Dharmeliya. Évaluez le risque juridique avant de gratter. Ne collectez aucune donnée juridiquement risquée.

Il est important de comprendre que le scraping Web n'est pas - et pour des raisons juridiques ne devrait pas l'être - sur la collecte d'informations personnelles identifiables. En effet, le grattage Web de toutes les données a été controversé, mais a largement survécu à l'examen juridique, notamment parce qu'il est difficile d'établir une distinction juridique entre les navigateurs Web et les grattoirs Web, qui demandent tous deux des données à des sites Web et en font des choses. Cela a été contesté récemment.

Facebook, Instagram et LinkedIn ont des règles régissant quelles données peuvent être supprimées et quelles données sont interdites, a déclaré Dharmeliya. Par exemple, les comptes individuels Facebook et Instagram qui sont fermés sont des comptes privés. Tout ce qui fournit des données au monde public est un jeu équitable – New York Times, Twitter, tout espace où les utilisateurs peuvent publier des commentaires ou des critiques, a-t-il ajouté.

"Nous ne fournissons pas de conseils juridiques, nous encourageons donc nos clients à rechercher des conseils sur les considérations juridiques dans leur juridiction." a déclaré McLaughlin.

Creusez plus profondément : pourquoi les spécialistes du marketing devraient se soucier de la vie privée des consommateurs

Le scraping Web est toujours un complément utile à d'autres formes de collecte de données.

Pour les clients de Datamam, le web scraping est une forme de génération de leads, a déclaré Tskaroveli. Il peut générer de nouveaux prospects à partir de plusieurs sources ou peut être utilisé pour enrichir les données afin de permettre aux spécialistes du marketing de mieux comprendre leurs clients, a-t-il noté.

Une autre cible des robots de grattage Web est les campagnes de marketing d'influence, a noté Dhameliya. Ici, l'objectif est d'identifier les influenceurs qui correspondent au profil du marketeur.

« Commencez lentement et ajoutez des sources de données progressivement. Même chez nos entreprises clientes, nous constatons un énorme enthousiasme pour commencer le scraping Web, comme s'il s'agissait d'une solution miracle, pour interrompre une partie des scrapers plus tard, car ils se rendent compte qu'ils n'ont jamais eu besoin des données », a déclaré Ondra. "Commencez à surveiller un concurrent, et si cela fonctionne pour vous, ajoutez-en un deuxième. Ou commencez avec des influenceurs sur Instagram et ajoutez TikTok plus tard dans le processus. Traitez les données récupérées sur le Web avec diligence, comme toute autre source de données, et cela vous donnera certainement un avantage concurrentiel.

Obtenez MarTech ! Du quotidien. Libre. Dans votre boîte de réception.

Voir conditions.

Les opinions exprimées dans cet article sont celles de l'auteur invité et pas nécessairement celles de MarTech. Les auteurs du personnel sont répertoriés ici.

Ajoutez MarTech à votre flux d'actualités Google.

Histoires liées

Nouveau sur MarTech

Contenu et capacités Web3 du point de vue d'une agence

Comment le web scraping peut être une source de données précieuse

3 étapes simples pour automatiser la création de contenu pour les entreprises

Les spécialistes du marketing font des solutions d'identité une priorité urgente

Les podcasts sont désormais un canal de choix pour le marketing B2B