Wie Web Scraping eine wertvolle Datenquelle sein kann
Veröffentlicht: 2022-11-11Web-Scraping. Klingt nach harter Arbeit, ist aber cleverer als mühselig.
Die Technik nutzt eine einfache Wahrheit aus: Das Frontend der Website, die Sie sehen, muss mit dem Backend kommunizieren, um Daten zu extrahieren und anzuzeigen. Ein Webcrawler oder Bot kann diese Informationen sammeln. Weitere Arbeiten können die Daten für die Analyse organisieren.
Digitale Vermarkter suchen ständig nach Daten, um ein besseres Gefühl für Verbraucherpräferenzen und Markttrends zu bekommen. Web Scraping ist ein weiteres Werkzeug zu diesem Zweck.
Erst kriechen, dann kratzen
„Im Allgemeinen erfüllen alle Web-Scraping-Programme die gleichen zwei Aufgaben: 1) Laden von Daten und 2) Analysieren von Daten. Je nach Standort kann der erste oder zweite Teil schwieriger oder komplexer sein.“ erklärte Ed Mclaughlin, Partner bei Marquee Data, einem Unternehmen für Web-Scraping-Dienste.
Web-Scraping hat eine gewisse Ähnlichkeit mit einer früheren Technik: Web-Crawling. In den 1990er Jahren, als das Internet weniger Cyberraum einnahm, erstellten Web-Crawling-Bots Listen mit Websites. Die Technik wird immer noch von Google verwendet, um nach Schlüsselwörtern zu suchen, um seine Suchmaschine zu betreiben, bemerkte Himanshu Dhameliya, Vertriebsleiter bei der Prozessautomatisierungs- und Web-Scraping-Firma Rentech Digital.
Für Rentech bedeutet Web Scraping lediglich, „strukturierte Daten aus einer Mischung verschiedener Quellen“ zu erhalten, sagte Dhameliya. „Wir kratzen Nachrichten-Websites, Finanzdaten und Standortberichte.“
„Web-Scraping-Daten werden in kleinerem Umfang gesammelt“, sagte George Tskaroveli, Projektmanager bei Web-Scrapers Datamam, „die sich immer noch auf Millionen von Datenpunkten belaufen, aber auch täglich oder häufiger gesammelt werden“, sagte er.
„Die bestimmenden Merkmale des modernen Web-Scrapings sind Headless-Browser, Residential-Proxys und die Verwendung skalierbarer Cloud-Plattformen“, sagte Ondra Urban, COO des Scraping- und Datenextraktionsunternehmens Apify. „Mit einem Headless-Browser können Sie Scraper erstellen, die sich genau wie Menschen verhalten, jede Website öffnen und beliebige Daten extrahieren … [Moderne Cloud-Plattformen wie AWS, GCP oder Apify ermöglichen es Ihnen, sofort Hunderte oder Tausende von Scrapern zu starten, basierend auf die aktuelle Nachfrage nach Daten.“
Welche Partydaten? Und wie man es bekommt
Es gibt ein breites Spektrum an Datenerhebungen, das von Daten von Zero-Party bis zu Daten von Drittanbietern reicht, die Marketer ständig für die nächste Erkenntnis durchforsten. Wo passt also Web Scraping in dieses Kontinuum?
„Web-Scraping-Daten sind am engsten mit Daten von Drittanbietern verbunden.“ Wie Mclaughlin sagte, können Marketer diese Daten dann mit bestehenden Datensätzen zusammenführen. „Web Scraping kann auch eine einzigartige Datenquelle bieten, die von Wettbewerbern nicht stark genutzt wird, wie es bei gekauften Listen der Fall sein kann.“ Er sagte.
„Fünfundneunzig Prozent unserer Arbeit sind [Daten] von Drittanbietern“, sagte Dhameliya. Das Scraping zielt auf die Daten ab, die zwischen dem Front-End und dem Back-End der Website ausgetauscht werden. Dies erfordert möglicherweise eine API, die zum Abgreifen dieses Datenstroms entwickelt wurde, oder die Verwendung von JavaScript mit einem Selenium-Treiber, erklärte er.
Der größte Teil der Arbeit von Rentech richtet sich an Unternehmen, die Marketinginformationen und -analysen suchen. Bots werden mit regelmäßigen Besuchen von Websites beauftragt und suchen manchmal nach Produktinformationen, sagte Dharmeliya. Einige Websites begrenzen die Anzahl der Abfragen, die von einer einzelnen Quelle stammen. Um dies zu umgehen, wird Rentech AWS Lambda verwenden, um einen Bot auszuführen, der Abfragen von mehreren Computern startet, um Abfragebeschränkungen zu umgehen, erklärte Dhameliya.
Es ist menschlich unmöglich, alle Daten durchzugehen, um „Nullen und Betrüger“ auszusortieren, sagte Tskaroveli. „Viele Kunden sammeln Daten mit eigenen Geräten oder nutzen Freiberufler. Es ist ein riesiges Problem, keine sauberen Daten zu erhalten“, sagte er. Datamam verlässt sich auf seine eigenen integrierten Algorithmen, um die „Zeilen und Spalten“ zu durchlaufen und die Qualitätssicherung zu automatisieren.
„Wir schreiben benutzerdefinierte Python-Skripte, um Websites zu scrapen. Normalerweise ist jedes für eine bestimmte Website angepasst, und wir können bei Bedarf benutzerdefinierte Eingaben bereitstellen“, sagte McLaughlin. „Wir verwenden keine KI oder maschinelles Lernen, um die Produktion dieser Skripte zu automatisieren, aber diese Technologie könnte in Zukunft verwendet werden.“
Alle Daten, die manuell kopiert und eingefügt werden können, können automatisch gekratzt werden.“ fügte Mclauglin hinzu. „Wenn Sie eine Website mit einem Verzeichnis potenzieller Leads finden, kann Web Scraping verwendet werden, um diese Website einfach in eine Tabelle mit Leads umzuwandeln, die dann für nachgelagerte Marketingprozesse verwendet werden kann.“
„Soziale Medien sind ein anderes Biest. Ihre Web- und Mobilanwendungen sind extrem komplex, mit Hunderten von APIs und dynamischen Strukturen, und sie ändern sich dank regelmäßiger Updates und A/B-Tests auch sehr oft“, sagte Ondra. „Wenn Sie kein großes internes Team schulen und unterstützen können, ist es am besten, es als Service von erfahrenen Entwicklern zu kaufen.“
„Wenn [der Kunde] im E-Commerce tätig ist, könnten Sie mit einem KI-gestützten Produkt-Scraper davonkommen. Sie riskieren eine geringere Datenqualität, können sie aber problemlos auf Hunderten oder Tausenden von Websites bereitstellen“, fügte Ondra hinzu.
Kratzen Sie das Netz, aber verwenden Sie etwas gesunden Menschenverstand
Es gibt Grenzen – und Chancen – die mit Web Scraping einhergehen. Beachten Sie jedoch, dass Datenschutzerwägungen die Abfrage mildern müssen. Web Scraping ist ein selektives, kein kollektives Schleppnetz.
Der Datenschutz ist eine dieser Grenzen. „Sammeln Sie niemals Meinungen oder politische Ansichten oder Informationen über Familien oder persönliche Daten“, sagte Dharmeliya. Bewerten Sie das rechtliche Risiko vor dem Scraping. Sammeln Sie keine rechtlich riskanten Daten.
Es ist wichtig zu verstehen, dass es beim Web Scraping nicht darum geht – und aus rechtlichen Gründen auch nicht sein sollte –, personenbezogene Daten zu sammeln. Tatsächlich war das Web-Scraping von Daten umstritten, hat aber die rechtliche Prüfung weitgehend überstanden, nicht zuletzt, weil es schwierig ist, eine rechtliche Unterscheidung zwischen Webbrowsern und Web-Scrapern zu treffen, die beide Daten von Websites anfordern und damit Dinge tun. Dies wurde kürzlich gerichtlich verhandelt.
Facebook, Instagram und LinkedIn haben Regeln, die regeln, welche Daten geschabt werden können und welche Daten tabu sind, sagte Dharmeliya. Beispielsweise sind einzelne geschlossene Facebook- und Instagram-Konten private Konten. Alles, was die öffentliche Welt mit Daten füttert, ist Freiwild – New York Times, Twitter, jeder Ort, an dem Benutzer Kommentare oder Rezensionen veröffentlichen können, fügte er hinzu.

„Wir bieten keine Rechtsberatung an, daher empfehlen wir unseren Mandanten, sich bei rechtlichen Erwägungen in ihrer Gerichtsbarkeit beraten zu lassen.“ sagte McLaughlin.
Tiefer graben: Warum Vermarkter sich um die Privatsphäre der Verbraucher kümmern sollten
Web Scraping ist immer noch eine nützliche Ergänzung zu anderen Formen der Datenerfassung.
Für Datamam-Kunden ist Web Scraping eine Form der Lead-Generierung, sagte Tskaroveli. Es kann neue Leads aus mehreren Quellen generieren oder zur Datenanreicherung verwendet werden, damit Vermarkter ihre Kunden besser verstehen können, bemerkte er.
Ein weiteres Ziel für Web-Scraping-Bots sind Influencer-Marketingkampagnen, bemerkte Dhameliya. Hier geht es darum, Influencer zu identifizieren, die zum Profil des Marketers passen.
„Fangen Sie langsam an und fügen Sie Datenquellen schrittweise hinzu. Sogar bei unseren Unternehmenskunden sehen wir eine große Begeisterung, mit Web Scraping zu beginnen, als wäre es eine Wunderwaffe, nur um einen Teil der Scraper später einzustellen, weil sie feststellen, dass sie die Daten nie benötigt haben“, sagte Ondra. „Fangen Sie an, einen Konkurrenten zu beobachten, und wenn es für Sie funktioniert, fügen Sie einen zweiten hinzu. Oder beginnen Sie mit Influencern auf Instagram und fügen Sie später TikTok hinzu. Behandeln Sie die aus dem Internet gekratzten Daten sorgfältig wie jede andere Datenquelle, und Sie erhalten mit Sicherheit einen Wettbewerbsvorteil.“
Holen Sie sich MarTech! Täglich. Frei. In Ihrem Posteingang.
Siehe Bedingungen.
Die in diesem Artikel geäußerten Meinungen sind die des Gastautors und nicht unbedingt die von MarTech. Mitarbeiter Autoren sind hier aufgelistet.

Ähnliche Beiträge
Neu bei MarTech