Come il web scraping può essere una preziosa fonte di dati
Pubblicato: 2022-11-11Raschiamento web. Sembra un duro lavoro, ma è più intelligente che arduo.
La tecnica sfrutta una semplice verità: il front-end del sito Web, che vedi, deve comunicare con il back-end per estrarre i dati e visualizzarli. Un web crawler o un bot può raccogliere queste informazioni. Ulteriore lavoro può organizzare i dati per l'analisi.
I marketer digitali sono sempre alla ricerca di dati per avere un migliore senso delle preferenze dei consumatori e delle tendenze del mercato. Il web scraping è ancora uno strumento in più a tal fine.
Prima strisciare, poi raschiare
“In generale, tutti i programmi di scraping web svolgono le stesse due attività: 1) caricamento dei dati e 2) analisi dei dati. A seconda del sito, la prima o la seconda parte possono essere più difficili o complesse”. ha spiegato Ed Mclaughlin, partner di Marquee Data, una società di servizi di scraping web.
Il web scraping ha una certa somiglianza con una tecnica precedente: il web crawling. Negli anni '90, quando Internet occupava meno spazio informatico, i bot di scansione del Web compilavano elenchi di siti Web. La tecnica è ancora utilizzata da Google per cercare le parole chiave per alimentare il suo motore di ricerca, ha osservato Himanshu Dhameliya, direttore delle vendite della società di automazione dei processi e web scraping Rentech Digital.
Per Rentech, il web scraping sta solo ottenendo "dati strutturati da un mix di diverse fonti", ha affermato Dhameliya. "Esaminiamo siti Web di notizie, dati finanziari e rapporti sulla posizione".
"I dati di web scraping vengono raccolti su scala ridotta", ha affermato George Tskaroveli, project manager di Web scrapers Datamam, "che ammontano ancora a milioni di punti dati, ma vengono anche raccolti su base giornaliera o più frequente", ha affermato.
"Le caratteristiche distintive del moderno web scraping sono i browser headless, i proxy residenziali e l'uso di piattaforme cloud scalabili", ha affermato Ondra Urban, COO della società di scraping ed estrazione dati Apify. "Con un browser headless, puoi creare scraper che si comportano esattamente come gli esseri umani, aprire qualsiasi sito Web ed estrarre qualsiasi dato... Le [moderne] piattaforme cloud come AWS, GCP o Apify ti consentono di avviare istantaneamente centinaia o migliaia di scraper, in base a l'attuale domanda di dati".
Quali dati di partito? E come ottenerlo
Esiste uno spettro di raccolta di dati, che va da dati zero-party a dati di terze parti, che i marketer selezionano sempre per la prossima intuizione. Allora, dove si inserisce il web scraping in questo continuum?
"I dati raschiati sul Web sono più strettamente correlati ai dati di terze parti". Ha detto Mclaughlin, poiché i marketer possono quindi unire questi dati ai set di dati esistenti. "Il web scraping può anche fornire una fonte di dati univoca che non è molto utilizzata dalla concorrenza, come potrebbe essere il caso degli elenchi acquistati". Egli ha detto.
"Il novantacinque percento del lavoro che svolgiamo è [dati] di terze parti", ha affermato Dhameliya. Lo scraping è finalizzato al traffico dei dati tra il front-end e il back-end del sito web. Ciò potrebbe richiedere un'API creata per sfruttare questo flusso di dati o l'utilizzo di JavaScript con un driver Selenium, ha spiegato.
La maggior parte del lavoro di Rentech è per le aziende che cercano informazioni e analisi di marketing. I bot hanno il compito di visitare periodicamente i siti Web, a volte cercando informazioni sui prodotti, ha affermato Dharmeliya. Alcuni siti Web limitano il numero di query provenienti da un'unica fonte. Per aggirare questo problema, Rentech utilizzerà AWS Lambda per eseguire un bot che avvierà query da più macchine per aggirare i limiti delle query, ha spiegato Dhameliya.
Non è umanamente possibile esaminare tutti i dati per eliminare "null and dupes", ha detto Tskaroveli. “Molti clienti raccolgono dati con i propri dispositivi o utilizzano liberi professionisti. È un grosso problema, non ricevere dati puliti", ha detto. Datamam si affida ai propri algoritmi in-build per scorrere le "righe e colonne", automatizzando il controllo della qualità.
“Scriviamo script Python personalizzati per raschiare i siti web. Di solito, ognuno è personalizzato per gestire un sito Web specifico e possiamo fornire input personalizzati, se necessario", ha affermato McLaughlin. "Non utilizziamo intelligenza artificiale o apprendimento automatico per automatizzare la produzione di questi script, ma quella tecnologia potrebbe essere utilizzata in futuro".
Tutti i dati che possono essere copiati e incollati manualmente possono essere eliminati automaticamente". ha aggiunto Mclauglin. "[I] se trovi un sito Web con una directory di un elenco di potenziali lead, il web scraping può essere utilizzato per convertire facilmente quel sito Web in un foglio di calcolo di lead che può quindi essere utilizzato per i processi di marketing a valle".
“I social sono una bestia diversa. Le loro applicazioni web e mobili sono estremamente complesse, con centinaia di API e strutture dinamiche, e cambiano anche molto spesso grazie ad aggiornamenti regolari e test A/B", ha affermato Ondra. "[A]nno che tu non possa formare e supportare un grande team interno, il modo migliore per farlo è acquistarlo come servizio da sviluppatori esperti."
"Se [il cliente] è nell'e-commerce, potresti farla franca con uno scraper di prodotti basato sull'intelligenza artificiale. Rischi una qualità inferiore dei dati, ma puoi facilmente distribuirli su centinaia o migliaia di siti Web", ha aggiunto Ondra.
Raschia il web, ma usa un po' di buon senso
Ci sono limiti - e opportunità - che derivano dallo scraping web. Tieni presente che le considerazioni sulla privacy devono mitigare la query. Il web scraping è una rete di trascinamento selettiva, non collettiva.
La privacy dei dati è uno di questi limiti. "Non raccogliere mai opinioni o opinioni politiche o informazioni su famiglie o dati personali", ha affermato Dharmeliya. Valutare il rischio legale prima di raschiare. Non raccogliere dati legalmente rischiosi.
È importante capire che il web scraping non riguarda, e per motivi legali non dovrebbe essere, la raccolta di informazioni personali identificabili. In effetti, il web scraping di qualsiasi dato è stato controverso, ma è sopravvissuto in gran parte al controllo legale, anche perché è difficile tracciare una distinzione legale tra browser web e web scraper, entrambi i quali richiedono dati dai siti Web e fanno cose con essi. Questo è stato contenzioso di recente.
Facebook, Instagram e LinkedIn hanno regole che disciplinano quali dati possono essere raschiati e quali dati sono off-limits, ha affermato Dharmeliya. Ad esempio, i singoli account Facebook e Instagram chiusi sono account privati. Tutto ciò che fornisce dati al mondo pubblico è un gioco leale: New York Times, Twitter, qualsiasi spazio in cui gli utenti possono pubblicare commenti o recensioni, ha aggiunto.

"Non forniamo consulenza legale, quindi incoraggiamo i nostri clienti a chiedere consiglio su considerazioni legali nella loro giurisdizione". ha detto McLaughlin.
Scava più a fondo: perché gli esperti di marketing dovrebbero preoccuparsi della privacy dei consumatori
Il web scraping è ancora un utile complemento ad altre forme di raccolta di dati.
Per i clienti Datamam, il web scraping è una forma di generazione di lead, ha affermato Tskaroveli. Può generare nuovi lead da più fonti o può essere utilizzato per l'arricchimento dei dati per consentire ai marketer di acquisire una migliore comprensione dei loro clienti, ha osservato.
Un altro obiettivo per i bot di web scraping sono le campagne di influencer marketing, ha osservato Dhameliya. Qui l'obiettivo è identificare gli influencer che si adattano al profilo del marketer.
“Inizia lentamente e aggiungi le origini dati in modo incrementale. Anche con i nostri clienti aziendali, stiamo riscontrando un enorme entusiasmo nell'iniziare con lo scraping web, come se fosse una bacchetta magica, per poi interrompere una parte degli scraper in un secondo momento perché si rendono conto di non aver mai avuto bisogno dei dati", ha affermato Ondra. “Inizia a monitorare un concorrente e, se funziona per te, aggiungi un secondo. Oppure inizia con gli influencer su Instagram e aggiungi TikTok più avanti nel processo. Tratta diligentemente i dati raschiati sul Web, come qualsiasi altra fonte di dati, e questo ti darà sicuramente un vantaggio competitivo".
Ottieni MarTech! Quotidiano. Gratuito. Nella tua casella di posta.
Vedi termini.
Le opinioni espresse in questo articolo sono quelle dell'autore ospite e non necessariamente di MarTech. Gli autori dello staff sono elencati qui.

Storie correlate
Novità su MarTech