Cum web scraping poate fi o sursă de date valoroasă

Publicat: 2022-11-11

Scraping web. Pare a fi o muncă grea, dar este mai deștept decât anevoios.

Tehnica exploatează un adevăr simplu: front-end-ul site-ului web, pe care îl vedeți, trebuie să vorbească cu back-end-ul pentru a extrage date și a le afișa. Un crawler web sau bot poate aduna aceste informații. Lucrările ulterioare pot organiza datele pentru analiză.

Specialiștii în marketing digital caută mereu date pentru a-și înțelege mai bine preferințele consumatorilor și tendințele pieței. Web scraping este încă un instrument în acest sens.

Mai întâi târăște-te, apoi răzuiește

„În general, toate programele de web scraping îndeplinesc aceleași două sarcini: 1) încărcarea datelor și 2) analizarea datelor. În funcție de site, prima sau a doua parte poate fi mai dificilă sau mai complexă.” a explicat Ed Mclaughlin, partener la Marquee Data, o firmă de servicii web scraping.

Web scraping are o oarecare asemănare cu o tehnică anterioară: web crawling. În anii 1990, când internetul ocupa mai puțin spațiu cibernetic, roboții de crawling web compilau liste de site-uri web. Tehnica este încă folosită de Google pentru a căuta cuvinte cheie pentru a-și alimenta motorul de căutare, a remarcat Himanshu Dhameliya, director de vânzări la compania de automatizare a proceselor și web scraping Rentech Digital.

Pentru Rentech, web scraping este doar obținerea de „date structurate dintr-un amestec de surse diferite”, a spus Dhameliya. „Scurgem site-uri web de știri, date financiare și rapoarte de locație.”

„Datele de scraping web sunt colectate la o scară mai mică”, a spus George Tskaroveli, manager de proiect la web scrapers Datamam, „încă se ridică la milioane de puncte de date, dar se colectează și zilnic sau mai frecvent”, a spus el.

„Caracteristicile definitorii ale web scraping moderne sunt browserele fără cap, proxy-urile rezidențiale și utilizarea platformelor cloud scalabile”, a declarat Ondra Urban, COO la firma de extracție de date și scraping Apify. „Cu un browser fără cap, puteți crea scraper-uri care se comportă exact ca oamenii, puteți deschide orice site web și puteți extrage orice date... Platformele moderne de cloud precum AWS, GCP sau Apify vă permit să porniți instantaneu sute sau mii de scraper-uri, pe baza cererea actuală de date.”

Care date despre partid? Și cum să-l obții

Există un spectru de colectare de date, care variază de la date zero-party la date terță parte, pe care specialiștii de marketing îl caută mereu pentru următoarea perspectivă. Deci, unde se încadrează web scraping în acest continuum?

„Datele web scraped sunt cel mai strâns legate de datele terțelor părți.” A spus Mclaughlin, deoarece marketerii pot asocia aceste date cu seturile de date existente. „Scrapingul web poate oferi, de asemenea, o sursă unică de date, care nu este foarte utilizată de concurenți, așa cum poate fi cazul listelor achiziționate.” El a spus.

„Nouăzeci și cinci la sută din munca pe care o facem sunt [date] terțe”, a spus Dhameliya. Scrapingul vizează datele traficate între front-end și back-end ale site-ului web. Acest lucru poate necesita un API creat pentru a atinge acest flux de date sau utilizarea JavaScript cu un driver Selenium, a explicat el.

Cea mai mare parte a muncii Rentech este destinată întreprinderilor care caută informații și analize de marketing. Boții sunt însărcinați cu vizite periodice ale site-urilor web, uneori căutând informații despre produse, a spus Dharmeliya. Unele site-uri web limitează numărul de interogări care provin dintr-o singură sursă. Pentru a evita acest lucru, Rentech va folosi AWS Lambda pentru a executa un bot care va lansa interogări de pe mai multe mașini pentru a ocoli limitările de interogare, a explicat Dhameliya.

Nu este uman posibil să parcurgem toate datele pentru a elimina „nule și înșelătorii”, a spus Tskaoveli. „Mulți clienți colectează date cu propriile dispozitive sau folosesc profesioniști liberi. Este o problemă uriașă, să nu primesc date curate”, a spus el. Datamam se bazează pe propriii algoritmi încorporați pentru a parcurge „rândurile și coloanele”, automatizând asigurarea calității.

„Scriem scripturi python personalizate pentru a răzui site-uri web. De obicei, fiecare este personalizat pentru a gestiona un anumit site web și putem oferi intrări personalizate, dacă este necesar”, a spus McLaughlin. „Nu folosim nicio inteligență artificială sau învățare automată pentru a automatiza producția acestor scripturi, dar această tehnologie ar putea fi folosită în viitor.”

Orice date care pot fi copiate și lipite manual pot fi răzuite automat.” a adăugat Mclauglin. „[Dacă] găsiți un site web cu un director cu o listă de potențiali clienți potențiali, web scraping poate fi folosit pentru a converti cu ușurință acel site într-o foaie de calcul cu clienți potențiali care poate fi apoi folosită pentru procesele de marketing din aval.”

„Rețelele sociale sunt o fiară diferită. Aplicațiile lor web și mobile sunt extrem de complexe, cu sute de API-uri și structuri dinamice și, de asemenea, se schimbă foarte des datorită actualizărilor regulate și testelor A/B”, a spus Ondra. „Dacă nu puteți antrena și susține o echipă mare internă, cel mai bun mod de a face acest lucru este să îl cumpărați ca serviciu de la dezvoltatori experimentați.”

„Dacă [clientul] este în comerțul electronic, s-ar putea să scapi cu un produs răzuitor alimentat de AI. Riscați o calitate mai scăzută a datelor, dar le puteți implementa cu ușurință pe sute sau mii de site-uri web”, a adăugat Ondra.

Răzuiește web, dar folosește puțin bun simț

Există limite – și oportunități – care vin cu web scraping. Trebuie doar să știți că considerentele de confidențialitate trebuie să tempereze interogarea. Web scraping este o plasă selectivă, nu colectivă.

Confidențialitatea datelor este una dintre aceste limite. „Nu colectați niciodată opinii sau opinii politice sau informații despre familii sau date personale”, a spus Dharmeliya. Evaluați riscul legal înainte de răzuire. Nu colectați date care sunt riscante din punct de vedere legal.

Este important să înțelegeți că web scraping nu este – și din motive legale nu ar trebui să fie – despre colectarea de informații personale de identificare. Într-adevăr, scraping-ul web a oricăror date a fost controversat, dar a supraviețuit în mare măsură controlului legal, nu în ultimul rând pentru că este greu de făcut o distincție legală între browsere web și web scrapers, ambele solicită date de pe site-uri web și fac lucruri cu ele. Acest lucru a fost litigiat recent.

Facebook, Instagram și LinkedIn au reguli care reglementează ce date pot fi eliminate și care sunt interzise, a spus Dharmeliya. De exemplu, conturile individuale de Facebook și Instagram care sunt închise sunt conturi private. Tot ceea ce transmite date lumii publice este un joc corect – New York Times, Twitter, orice spațiu în care utilizatorii pot posta comentarii sau recenzii, a adăugat el.

„Nu oferim consultanță juridică, așa că încurajăm clienții noștri să caute consiliere cu privire la considerente juridice din jurisdicția lor.” spuse McLaughlin.

Sapă mai profund: de ce marketerilor ar trebui să le pese de confidențialitatea consumatorilor

Web scraping este încă un adjuvant util cu alte forme de colectare a datelor.

Pentru clienții Datamam, web scraping este o formă de generare de lead-uri, a spus Tskaroveli. Acesta poate genera noi clienți potențiali din mai multe surse sau poate fi folosit pentru îmbogățirea datelor pentru a permite marketerilor să înțeleagă mai bine clienții lor, a menționat el.

O altă țintă pentru roboții web-scraping sunt campaniile de marketing influencer, a remarcat Dhameliya. Aici scopul este identificarea influencerilor care se potrivesc profilului marketerului.

„Începeți încet și adăugați surse de date treptat. Chiar și cu clienții noștri întreprinderi, vedem un entuziasm uriaș de a începe cu web scraping, ca și cum ar fi un glonț magic, pentru a întrerupe mai târziu o parte din scrapers, deoarece își dau seama că nu au avut niciodată nevoie de date”, a spus Ondra. „Începeți să monitorizați un concurent și, dacă funcționează pentru dvs., adăugați al doilea. Sau începeți cu influenți de pe Instagram și adăugați TikTok mai târziu în acest proces. Tratați cu sârguință datele colectate de pe web, ca orice altă sursă de date, și vă va oferi cu siguranță un avantaj competitiv.”

Obțineți MarTech! Zilnic. Gratuit. În căsuța dvs. de e-mail.

Vezi termenii.

Opiniile exprimate în acest articol sunt cele ale autorului invitat și nu neapărat MarTech. Autorii personalului sunt enumerați aici.

Adăugați MarTech la feedul dvs. de Știri Google.

Povești înrudite

Nou pe MarTech

Conținut și capabilități Web3 din perspectiva unei agenții

Cum web scraping poate fi o sursă de date valoroasă

3 pași simpli pentru automatizarea creării de conținut pentru companii

Specialiştii în marketing fac din soluţiile de identitate o prioritate urgentă

Podcasturile sunt acum un canal de top pentru marketing B2B