Sitemap 切换菜单

网络抓取如何成为有价值的数据源

已发表: 2022-11-11

网页抓取。 听起来很辛苦,但聪明多于艰辛。

该技术利用了一个简单的事实:您看到的网站前端必须与后端对话以提取数据并显示它。 网络爬虫或机器人可以收集这些信息。 进一步的工作可以组织数据进行分析。

数字营销人员一直在寻找数据,以更好地了解消费者偏好和市场趋势。 网页抓取是实现这一目标的又一工具。

先爬,后刮

“一般来说,所有网页抓取程序都完成相同的两项任务:1)加载数据和 2)解析数据。 根据站点的不同,第一部分或第二部分可能更困难或更复杂。” 网络抓取服务公司 Marquee Data 的合伙人 Ed Mclaughlin 解释道。

网页抓取与早期的技术有一些相似之处:网页抓取。 早在 1990 年代,当互联网占用较少的网络空间时,网络爬虫程序会编译网站列表。 流程自动化和网络抓取公司 Rentech Digital 的销售总监 Himanshu Dhameliya 指出,谷歌仍然使用该技术来抓取关键词以支持其搜索引擎。

对于 Rentech 来说,网络抓取只是从不同来源获取“结构化数据”,Dhameliya 说。 “我们抓取新闻网站、财务数据和位置报告。”

“网络抓取数据的收集规模较小,”网络抓取工具 Datamam 的项目经理 George Tskaroveli 说,“仍然达到数百万个数据点,而且每天或更频繁地收集,”他说。

“现代网络抓取的定义特征是无头浏览器、住宅代理和可扩展云平台的使用,”抓取和数据提取公司 Apify 的首席运营官 Ondra Urban 说。 “使用无头浏览器,您可以创建行为与人类完全一样的爬虫、打开任何网站并提取任何数据…… [现代] AWS、GCP 或 Apify 等云平台允许您立即启动数百或数千个爬虫,基于当前对数据的需求。”

哪一方数据? 以及如何获得

有一系列数据收集,从零方数据到第三方数据,营销人员一直在挑选,以获取下一个洞察力。 那么网络抓取在哪里适合这个连续体呢?

“网络抓取的数据与第三方数据的关系最为密切。” 麦克劳克林说,因为营销人员可以将这些数据与现有数据集结合起来。 “网络抓取还可以提供一个独特的数据源,竞争对手可能不会像购买的列表那样大量使用它。” 他说。

“我们所做的工作中有 95% 是第三方 [数据],”Dhameliya 说。 抓取的目标是在网站的前端和后端之间传输的数据。 他解释说,这可能需要精心设计的 API 来利用此数据流,或者使用带有 Selenium 驱动程序的 JavaScript。

Rentech 的大部分工作是为寻求营销情报和分析的企业服务。 Dharmeliya 说,机器人的任务是定期访问网站,有时还会寻找产品信息。 一些网站限制来自单一来源的查询数量。 Dhameliya 解释说,为了解决这个问题,Rentech 将使用 AWS Lambda 执行一个机器人,该机器人将从多台机器上启动查询以绕过查询限制。

Tskaroveli 说,人类不可能通过所有数据来清除“无效和欺骗”。 “许多客户使用自己的设备收集数据或使用自由职业者。 这是一个巨大的问题,没有收到干净的数据,”他说。 Datamam 依靠自己的内置算法来遍历“行和列”,从而实现质量保证的自动化。

“我们编写自定义 python 脚本来抓取网站。 通常,每一个都是为处理特定网站而定制的,如果需要,我们可以提供自定义输入,”McLaughlin 说。 “我们不使用任何人工智能或机器学习来自动生成这些脚本,但未来可能会使用该技术。”

任何可以手动复制和粘贴的数据都可以自动抓取。” 麦克劳林补充道。 “[I]如果您找到一个包含潜在潜在客户列表目录的网站,则可以使用网络抓取轻松将该网站转换为潜在客户电子表格,然后将其用于下游营销流程。”

“社交媒体是一头不同的野兽。 他们的 Web 和移动应用程序极其复杂,具有数百个 API 和动态结构,而且由于定期更新和 A/B 测试,它们也经常发生变化,”Ondra 说。 “[U] 除非您可以培训和支持大型内部团队,否则最好的方法是从经验丰富的开发人员那里购买它作为服务。”

“如果 [客户] 从事电子商务,您可能会使用 AI 驱动的产品抓取工具。 您冒着降低数据质量的风险,但您可以轻松地将其部署到数百或数千个网站上,”Ondra 补充道。

抓取网络,但使用一些常识

网络抓取存在限制和机会。 请注意,隐私考虑必须缓和查询。 网页抓取是一种选择性的,而不是集体的,拖网。

数据隐私是这些限制之一。 “永远不要收集有关家庭的意见或政治观点或信息,或个人数据,”Dharmeliya 说。 在刮之前评估法律风险。 不要收集任何具有法律风险的数据。

重要的是要了解网络抓取不是——出于法律原因也不应该——关于收集个人身份信息。 事实上,任何数据的网络抓取一直存在争议,但在很大程度上幸免于法律审查,尤其是因为很难在网络浏览器和网络抓取工具之间做出法律区分,两者都从网站请求数据并用它做事。 这最近被提起了诉讼。

Dharmeliya 说,Facebook、Instagram 和 LinkedIn 确实有管理哪些数据可以被抓取以及哪些数据是禁止访问的规则。 例如,关闭的个人 Facebook 和 Instagram 帐户是私人帐户。 他补充说,任何向公共世界提供数据的东西都是公平的游戏——纽约时报、Twitter,以及任何用户可以发表评论或评论的空间。

“我们不提供法律建议,因此我们鼓励客户就其管辖范围内的法律考虑寻求法律意见。” 麦克劳克林说。

深入挖掘:为什么营销人员应该关心消费者隐私

Web 抓取仍然是其他形式的数据收集的有用辅助工具。

Tskaroveli 说,对于 Datamam 客户来说,网络抓取是一种潜在客户生成形式。 他指出,它可以从多个来源产生新的潜在客户,也可以用于丰富数据,让营销人员更好地了解他们的客户。

Dhameliya 指出,网络抓取机器人的另一个目标是影响者营销活动。 这里的目标是确定符合营销人员概况的影响者。

“开始缓慢并逐步添加数据源。 即使是我们的企业客户,我们也看到了从网络抓取开始的巨大热情,就好像它是某种灵丹妙药,但后来才停止使用部分抓取工具,因为他们意识到他们从来不需要数据,”Ondra 说。 “开始监控一个竞争对手,如果它对你有用,就再添加一个。 或者从 Instagram 上的有影响力的人开始,然后在此过程中添加 TikTok。 像对待任何其他数据源一样,认真对待网络抓取的数据,它肯定会给你带来竞争优势。”


获取 MarTech! 日常的。 自由的。 在您的收件箱中。

见条款。



本文中表达的观点是客座作者的观点,不一定是 MarTech。 工作人员作者在这里列出。


相关故事

    网络抓取如何成为有价值的数据源
    如何使用决策手册量化数据的投资回报率
    允许 PII 的移动目标
    无 cookie 未来营销的 6 种数据收集策略
    营销和 IT 可以更好地协同工作的 5 种方式

MarTech 的新内容

    从机构的角度看 Web3 内容和能力
    网络抓取如何成为有价值的数据源
    为企业自动创建内容的 3 个简单步骤
    营销人员将身份解决方案列为当务之急
    播客现在是 B2B 营销的主要渠道