Sitemap Alternar menú

Cómo el web scraping puede ser una valiosa fuente de datos

Publicado: 2022-11-11

Raspado web. Suena como un trabajo duro, pero es más inteligente que arduo.

La técnica explota una verdad simple: el front-end del sitio web, que usted ve, debe comunicarse con el back-end para extraer datos y mostrarlos. Un rastreador web o un bot puede recopilar esta información. El trabajo adicional puede organizar los datos para el análisis.

Los especialistas en marketing digital siempre buscan datos para tener una mejor idea de las preferencias de los consumidores y las tendencias del mercado. El web scraping es una herramienta más para ese fin.

Primero gatea, luego raspa

“En general, todos los programas de web scraping realizan las mismas dos tareas: 1) cargar datos y 2) analizar datos. Dependiendo del sitio, la primera o la segunda parte pueden ser más difíciles o complejas”. explicó Ed Mclaughlin, socio de Marquee Data, una firma de servicios de web scraping.

El raspado web tiene cierto parecido con una técnica anterior: el rastreo web. En la década de 1990, cuando Internet ocupaba menos espacio cibernético, los bots de rastreo web compilaban listas de sitios web. Google todavía utiliza la técnica para buscar palabras clave para potenciar su motor de búsqueda, señaló Himanshu Dhameliya, director de ventas de la empresa de automatización de procesos y web scraping Rentech Digital.

Para Rentech, el web scraping es simplemente obtener "datos estructurados de una combinación de diferentes fuentes", dijo Dhameliya. "Recopilamos sitios web de noticias, datos financieros e informes de ubicación".

"Los datos de web scraping se recopilan en una escala más pequeña", dijo George Tskaroveli, gerente de proyectos de web scrapers Datamam, "todavía ascienden a millones de puntos de datos, pero también se recopilan diariamente o con mayor frecuencia", dijo.

“Las características definitorias del raspado web moderno son los navegadores sin cabeza, los proxies residenciales y el uso de plataformas en la nube escalables”, dijo Ondra Urban, directora de operaciones de la firma de extracción de datos y raspado Apify. “Con un navegador sin cabeza, puede crear raspadores que se comportan exactamente como los humanos, abrir cualquier sitio web y extraer cualquier dato… [L]as plataformas en la nube modernas como AWS, GCP o Apify le permiten iniciar instantáneamente cientos o miles de raspadores, según la demanda actual de datos”.

¿Qué datos del partido? y como conseguirlo

Existe un espectro de recopilación de datos, que va desde datos de terceros hasta datos de terceros, que los especialistas en marketing siempre eligen para obtener la siguiente información. Entonces, ¿dónde encaja el web scraping en este continuo?

"Los datos extraídos de la web están más estrechamente relacionados con los datos de terceros". Dijo Mclaughlin, ya que los especialistas en marketing pueden unir estos datos con los conjuntos de datos existentes. "El web scraping también puede proporcionar una fuente de datos única que los competidores no utilizan mucho, como puede ser el caso de las listas compradas". Él dijo.

“El noventa y cinco por ciento del trabajo que hacemos son [datos] de terceros”, dijo Dhameliya. El raspado apunta a los datos que se trafican entre el front-end y el back-end del sitio web. Eso puede requerir una API diseñada para aprovechar este flujo de datos, o usar JavaScript con un controlador Selenium, explicó.

La mayor parte del trabajo de Rentech es para empresas que buscan inteligencia y análisis de marketing. Los bots tienen la tarea de realizar visitas periódicas a los sitios web, a veces buscando información sobre productos, dijo Dharmeliya. Algunos sitios web limitan el número de consultas que provienen de una sola fuente. Para evitar eso, Rentech usará AWS Lambda para ejecutar un bot que lanzará consultas desde varias máquinas para sortear las limitaciones de las consultas, explicó Dhameliya.

No es humanamente posible revisar todos los datos para eliminar los "falsos errores", dijo Tskaroveli. “Muchos clientes recopilan datos con sus propios dispositivos o usan trabajadores independientes. Es un gran problema no recibir datos limpios”, dijo. Datamam se basa en sus propios algoritmos integrados para recorrer las "filas y columnas", automatizando el control de calidad.

“Escribimos scripts de python personalizados para raspar sitios web. Por lo general, cada uno está personalizado para manejar un sitio web específico y podemos proporcionar entradas personalizadas, si es necesario”, dijo McLaughlin. “No usamos ninguna IA o aprendizaje automático para automatizar la producción de estos guiones, pero esa tecnología podría usarse en el futuro”.

Cualquier dato que se pueda copiar y pegar manualmente se puede raspar automáticamente”. agregó Mclauglin. “[S]i encuentra un sitio web con un directorio de una lista de posibles clientes potenciales, el web scraping se puede usar para convertir fácilmente ese sitio web en una hoja de cálculo de clientes potenciales que luego se puede usar para procesos de marketing posteriores”.

“Las redes sociales son una bestia diferente. Sus aplicaciones web y móviles son extremadamente complejas, con cientos de API y estructuras dinámicas, y también cambian muy a menudo gracias a actualizaciones periódicas y pruebas A/B”, dijo Ondra. “[A] menos que pueda capacitar y apoyar a un gran equipo interno, la mejor manera de hacerlo es comprarlo como un servicio de desarrolladores experimentados”.

“Si [el cliente] está en el comercio electrónico, es posible que se salga con la suya con un raspador de productos impulsado por IA. Corre el riesgo de una menor calidad de los datos, pero puede implementarlos fácilmente en cientos o miles de sitios web”, agregó Ondra.

Raspe la web, pero use algo de sentido común

Hay límites, y oportunidades, que vienen con el web scraping. Solo tenga en cuenta que las consideraciones de privacidad deben moderar la consulta. El web scraping es una red de arrastre selectiva, no colectiva.

La privacidad de los datos es uno de esos límites. “Nunca recopile opiniones o puntos de vista políticos o información sobre familias o datos personales”, dijo Dharmeliya. Evalúe el riesgo legal antes de raspar. No recopile ningún dato que sea legalmente riesgoso.

Es importante comprender que el web scraping no se trata, y por razones legales, no debería tratarse de recopilar información de identificación personal. De hecho, el web scraping de cualquier dato ha sido controvertido, pero ha sobrevivido en gran medida al escrutinio legal, sobre todo porque es difícil establecer una distinción legal entre navegadores web y web scrapers, que solicitan datos de sitios web y hacen cosas con ellos. Esto ha sido litigado recientemente.

Facebook, Instagram y LinkedIn tienen reglas que rigen qué datos se pueden extraer y qué datos están prohibidos, dijo Dharmeliya. Por ejemplo, las cuentas individuales de Facebook e Instagram que están cerradas son cuentas privadas. Cualquier cosa que proporcione datos al mundo público es un juego justo: New York Times, Twitter, cualquier espacio donde los usuarios puedan publicar comentarios o reseñas, agregó.

"No brindamos asesoramiento legal, por lo que alentamos a nuestros clientes a buscar asesoramiento sobre consideraciones legales en su jurisdicción". dijo McLaughlin.

Profundice: por qué los especialistas en marketing deberían preocuparse por la privacidad del consumidor

El raspado web sigue siendo un complemento útil con otras formas de recopilación de datos.

Para los clientes de Datamam, el web scraping es una forma de generación de leads, dijo Tskaroveli. Puede generar nuevos clientes potenciales de múltiples fuentes o puede usarse para el enriquecimiento de datos para permitir a los especialistas en marketing obtener una mejor comprensión de sus clientes, señaló.

Otro objetivo para los bots de web scraping son las campañas de marketing de influencers, señaló Dhameliya. Aquí el objetivo es identificar personas influyentes que se ajusten al perfil del vendedor.

“Comience despacio y agregue fuentes de datos de forma incremental. Incluso con nuestros clientes empresariales, estamos viendo un gran entusiasmo por comenzar con el web scraping, como si fuera una bala mágica, solo para descontinuar una parte de los scrapers más tarde porque se dan cuenta de que nunca necesitaron los datos”, dijo Ondra. “Comienza a monitorear a un competidor y, si te funciona, agrega un segundo. O comience con personas influyentes en Instagram y agregue TikTok más adelante en el proceso. Trate los datos extraídos de la web con diligencia, como cualquier otra fuente de datos, y seguramente le dará una ventaja competitiva”.


¡Consigue MarTech! Diariamente. Libre. En tu bandeja de entrada.

Ver términos.



Las opiniones expresadas en este artículo pertenecen al autor invitado y no necesariamente a MarTech. Los autores del personal se enumeran aquí.


Historias relacionadas

    Cómo el web scraping puede ser una valiosa fuente de datos
    Cómo cuantificar el ROI de los datos utilizando manuales de decisiones
    El objetivo móvil de la PII permisible
    6 tácticas de recopilación de datos para el marketing en el futuro sin cookies
    5 formas en que el marketing y la TI pueden trabajar mejor juntos

Nuevo en MarTech

    Contenido y capacidades de Web3 desde la perspectiva de una agencia
    Cómo el web scraping puede ser una valiosa fuente de datos
    3 sencillos pasos para automatizar la creación de contenido para empresas
    Los especialistas en marketing hacen de las soluciones de identidad una prioridad urgente
    Los podcasts ahora son un canal principal para el marketing B2B