Jak web scraping może być cennym źródłem danych
Opublikowany: 2022-11-11Skrobanie sieci. Brzmi jak ciężka praca, ale jest bardziej sprytna niż mozolna.
Technika ta wykorzystuje prostą prawdę: interfejs strony internetowej, który widzisz, musi komunikować się z zapleczem, aby wyodrębnić dane i wyświetlić je. Przeszukiwacz sieciowy lub bot może zbierać te informacje. Dalsze prace mogą uporządkować dane do analizy.
Marketingowcy cyfrowi nieustannie poszukują danych, aby lepiej wyczuć preferencje konsumentów i trendy rynkowe. Web scraping jest jeszcze jednym narzędziem służącym do tego celu.
Najpierw czołganie się, potem skrobanie
„Ogólnie rzecz biorąc, wszystkie programy do skrobania stron internetowych wykonują te same dwa zadania: 1) ładowanie danych i 2) analizowanie danych. W zależności od miejsca, pierwsza lub druga część może być trudniejsza lub bardziej złożona”. wyjaśnił Ed Mclaughlin, partner w Marquee Data, firmie świadczącej usługi w zakresie skrobania stron internetowych.
Skrobanie sieci przypomina nieco wcześniejszą technikę: indeksowanie sieci. W latach 90., kiedy internet zajmował mniej przestrzeni cybernetycznej, boty przemierzające sieć tworzyły listy stron internetowych. Technika ta jest nadal wykorzystywana przez Google do wyszukiwania słów kluczowych, które napędzają swoją wyszukiwarkę, zauważył Himanshu Dhameliya, dyrektor sprzedaży w firmie Rentech Digital zajmującej się automatyzacją procesów i web scrapingiem.
Dla Rentecha web scraping to po prostu uzyskiwanie „ustrukturyzowanych danych z różnych źródeł”, powiedział Dhameliya. „Zbieramy strony internetowe z wiadomościami, dane finansowe i raporty lokalizacyjne”.
„Dane z web scrapingu są gromadzone na mniejszą skalę”, powiedział George Tskaroveli, kierownik projektu w firmie Datamam, „wciąż stanowią miliony punktów danych, ale także są gromadzone codziennie lub częściej” – powiedział.
„Cechami definiującymi nowoczesnego web scrapingu są przeglądarki bezgłowe, serwery proxy i korzystanie ze skalowalnych platform chmurowych” — powiedział Ondra Urban, dyrektor operacyjny w firmie Apify zajmującej się scrapingiem i ekstrakcją danych. „Dzięki bezgłowej przeglądarce możesz tworzyć skrobaki, które zachowują się dokładnie tak, jak ludzie, otwierać dowolną witrynę i wyodrębniać dowolne dane… [Nowoczesne] platformy chmurowe, takie jak AWS, GCP lub Apify, umożliwiają natychmiastowe uruchamianie setek lub tysięcy skrobaków w oparciu o aktualne zapotrzebowanie na dane.”
Jakie dane strony? I jak to zdobyć
Istnieje spektrum gromadzenia danych, od danych zerowych po dane stron trzecich, które marketerzy zawsze wybierają w celu uzyskania kolejnego wglądu. Więc gdzie w tym kontinuum mieści się web scraping?
„Dane ze skrobaków internetowych są najbliżej powiązane z danymi stron trzecich”. Powiedział Mclaughlin, ponieważ marketerzy mogą następnie połączyć te dane z istniejącymi zestawami danych. „Scraping sieciowy może również zapewnić unikalne źródło danych, które nie jest intensywnie wykorzystywane przez konkurencję, jak to może mieć miejsce w przypadku zakupionych list”. Powiedział.
„Dziewięćdziesiąt pięć procent naszej pracy to [dane] osób trzecich” – powiedział Dhameliya. Skrobanie ma na celu przechwycenie danych przesyłanych między front-endem a back-endem witryny internetowej. Wyjaśnił, że może to wymagać interfejsu API stworzonego do korzystania z tego strumienia danych lub użycia JavaScriptu ze sterownikiem Selenium.
Większość pracy Rentech jest przeznaczona dla przedsiębiorstw poszukujących informacji i analiz marketingowych. Boty mają za zadanie co jakiś czas odwiedzać strony internetowe, czasami szukając informacji o produktach, powiedział Dharmeliya. Niektóre witryny internetowe ograniczają liczbę zapytań pochodzących z jednego źródła. Aby obejść ten problem, Rentech użyje AWS Lambda do wykonania bota, który będzie uruchamiał zapytania z wielu maszyn, aby ominąć ograniczenia zapytań, wyjaśnił Dhameliya.
To nie jest po ludzku możliwe, aby przejrzeć wszystkie dane w celu wyeliminowania „nullów i duplikatów”, powiedział Tskaroveli. „Wielu klientów zbiera dane własnymi urządzeniami lub korzysta z freelancerów. To ogromny problem, nie otrzymywać czystych danych” – powiedział. Datamam opiera się na własnych, wbudowanych algorytmach, aby przejść przez „wiersze i kolumny”, automatyzując kontrolę jakości.
„Piszemy niestandardowe skrypty Pythona do scrapingu stron internetowych. Zazwyczaj każdy z nich jest dostosowany do obsługi konkretnej strony internetowej, a w razie potrzeby możemy dostarczyć niestandardowe dane wejściowe” – powiedział McLaughlin. „Nie używamy sztucznej inteligencji ani uczenia maszynowego do automatyzacji produkcji tych skryptów, ale ta technologia może zostać wykorzystana w przyszłości”.
Wszelkie dane, które można ręcznie skopiować i wkleić, można automatycznie zeskrobać”. dodał McLauglin. „[Jeżeli] znajdziesz stronę internetową z katalogiem listy potencjalnych potencjalnych klientów, web scraping można wykorzystać do łatwego przekształcenia tej witryny w arkusz kalkulacyjny potencjalnych klientów, który można następnie wykorzystać w dalszych procesach marketingowych”.
„Media społecznościowe to inna bestia. Ich aplikacje internetowe i mobilne są niezwykle złożone, z setkami interfejsów API i dynamicznymi strukturami, a także bardzo często się zmieniają dzięki regularnym aktualizacjom i testom A/B” – powiedział Ondra. „O ile nie możesz wyszkolić i wesprzeć dużego zespołu wewnętrznego, najlepszym sposobem na to jest zakup go jako usługi od doświadczonych programistów”.
„Jeśli [klient] działa w handlu elektronicznym, może ujść Ci na sucho zgarniacz produktów oparty na sztucznej inteligencji. Ryzykujesz niższą jakość danych, ale możesz je łatwo wdrożyć na setkach lub tysiącach stron internetowych” – dodał Ondra.
Zdrap sieć, ale kieruj się zdrowym rozsądkiem
Istnieją ograniczenia — i możliwości — związane ze skrobaniem sieci. Pamiętaj tylko, że względy dotyczące prywatności muszą złagodzić zapytanie. Skrobanie sieci jest selektywną, a nie zbiorową siecią przechwytującą.
Prywatność danych jest jednym z tych ograniczeń. „Nigdy nie zbieraj opinii, poglądów politycznych ani informacji o rodzinach ani danych osobowych” – powiedział Dharmeliya. Oceń ryzyko prawne przed zeskrobaniem. Nie zbieraj żadnych danych, które są prawnie ryzykowne.
Ważne jest, aby zrozumieć, że web scraping nie jest — i ze względów prawnych nie powinien — polegać na gromadzeniu danych osobowych. Rzeczywiście, web scraping jakichkolwiek danych był kontrowersyjny, ale w dużej mierze przetrwał kontrolę prawną, nie tylko dlatego, że trudno jest dokonać prawnego rozróżnienia między przeglądarkami internetowymi a web scraperami, które żądają danych ze stron internetowych i robią z nimi różne rzeczy. To było ostatnio sporne.
Facebook, Instagram i LinkedIn mają zasady określające, które dane mogą być zeskrobane, a które są niedostępne, powiedział Dharmeliya. Na przykład indywidualne konta na Facebooku i Instagramie, które są zamknięte, są kontami prywatnymi. Dodał, że wszystko, co dostarcza dane do świata publicznego, jest uczciwą grą — New York Times, Twitter, każda przestrzeń, w której użytkownicy mogą publikować komentarze lub recenzje.

„Nie udzielamy porad prawnych, dlatego zachęcamy naszych klientów do zasięgnięcia porady w kwestiach prawnych w ich jurysdykcji”. powiedział McLaughlin.
Kop głębiej: dlaczego marketerzy powinni dbać o prywatność konsumentów
Web scraping jest nadal użytecznym dodatkiem do innych form gromadzenia danych.
Dla klientów Datamam, web scraping jest formą generowania leadów, powiedział Tskaroveli. Zauważył, że może generować nowe leady z wielu źródeł lub może służyć do wzbogacania danych, aby umożliwić marketerom lepsze zrozumienie swoich klientów.
Innym celem botów zbierających strony internetowe są kampanie marketingowe dla influencerów, zauważył Dhameliya. Tutaj celem jest identyfikacja influencerów, którzy pasują do profilu marketera.
„Rozpocznij powoli i stopniowo dodawaj źródła danych. Nawet wśród naszych klientów korporacyjnych widzimy ogromny entuzjazm, by zacząć od skrobania sieci, jakby to była jakaś magiczna kula, tylko po to, by później przerwać część skrobaków, ponieważ zdają sobie sprawę, że nigdy nie potrzebują danych” — powiedział Ondra. „Zacznij monitorować jednego konkurenta, a jeśli to działa, dodaj drugiego. Lub zacznij od influencerów na Instagramie i dodaj TikTok na późniejszym etapie. Traktuj dane z sieci skrupulatnie, jak każde inne źródło danych, a na pewno zapewni Ci to przewagę nad konkurencją”.
Zdobądź MarTech! Codzienny. Bezpłatny. W Twojej skrzynce odbiorczej.
Zobacz warunki.
Opinie wyrażone w tym artykule są opiniami gościa i niekoniecznie MarTech. Lista autorów personelu znajduje się tutaj.

powiązane historie
Nowość w MarTech