網絡抓取如何成為有價值的數據源
已發表: 2022-11-11網頁抓取。 聽起來很辛苦,但聰明多於艱辛。
該技術利用了一個簡單的事實:您看到的網站前端必須與後端對話以提取數據並顯示它。 網絡爬蟲或機器人可以收集這些信息。 進一步的工作可以組織數據進行分析。
數字營銷人員一直在尋找數據,以更好地了解消費者偏好和市場趨勢。 網頁抓取是實現這一目標的又一工具。
先爬,後刮
“一般來說,所有網頁抓取程序都完成相同的兩項任務:1)加載數據和 2)解析數據。 根據站點的不同,第一部分或第二部分可能更困難或更複雜。” 網絡抓取服務公司 Marquee Data 的合夥人 Ed Mclaughlin 解釋道。
網頁抓取與早期的技術有一些相似之處:網頁抓取。 早在 1990 年代,當互聯網佔用較少的網絡空間時,網絡爬蟲程序會編譯網站列表。 流程自動化和網絡抓取公司 Rentech Digital 的銷售總監 Himanshu Dhameliya 指出,谷歌仍然使用該技術來抓取關鍵詞以支持其搜索引擎。
對於 Rentech 來說,網絡抓取只是從不同來源獲取“結構化數據”,Dhameliya 說。 “我們抓取新聞網站、財務數據和位置報告。”
“網絡抓取數據的收集規模較小,”網絡抓取工具 Datamam 的項目經理 George Tskaroveli 說,“仍然達到數百萬個數據點,而且每天或更頻繁地收集,”他說。
“現代網絡抓取的定義特徵是無頭瀏覽器、住宅代理和可擴展雲平台的使用,”抓取和數據提取公司 Apify 的首席運營官 Ondra Urban 說。 “使用無頭瀏覽器,您可以創建行為與人類完全一樣的爬蟲、打開任何網站並提取任何數據…… [現代] AWS、GCP 或 Apify 等雲平台允許您立即啟動數百或數千個爬蟲,基於當前對數據的需求。”
哪一方數據? 以及如何獲得
有一系列數據收集,從零方數據到第三方數據,營銷人員一直在挑選,以獲取下一個洞察力。 那麼網絡抓取在哪裡適合這個連續體呢?
“網絡抓取的數據與第三方數據的關係最為密切。” 麥克勞克林說,因為營銷人員可以將這些數據與現有數據集結合起來。 “網絡抓取還可以提供一個獨特的數據源,競爭對手可能不會像購買的列表那樣大量使用它。” 他說。
“我們所做的工作中有 95% 是第三方 [數據],”Dhameliya 說。 抓取的目標是在網站的前端和後端之間傳輸的數據。 他解釋說,這可能需要精心設計的 API 來利用此數據流,或者使用帶有 Selenium 驅動程序的 JavaScript。
Rentech 的大部分工作是為尋求營銷情報和分析的企業服務。 Dharmeliya 說,機器人的任務是定期訪問網站,有時還會尋找產品信息。 一些網站限制來自單一來源的查詢數量。 Dhameliya 解釋說,為了解決這個問題,Rentech 將使用 AWS Lambda 執行一個機器人,該機器人將從多台機器上啟動查詢以繞過查詢限制。
Tskaroveli 說,人類不可能通過所有數據來清除“無效和欺騙”。 “許多客戶使用自己的設備收集數據或使用自由職業者。 這是一個巨大的問題,沒有收到干淨的數據,”他說。 Datamam 依靠自己的內置算法來遍歷“行和列”,從而實現質量保證的自動化。
“我們編寫自定義 python 腳本來抓取網站。 通常,每一個都是為處理特定網站而定制的,如果需要,我們可以提供自定義輸入,”McLaughlin 說。 “我們不使用任何人工智能或機器學習來自動生成這些腳本,但未來可能會使用該技術。”
任何可以手動複製和粘貼的數據都可以自動抓取。” 麥克勞林補充道。 “[I]如果您找到一個包含潛在潛在客戶列表目錄的網站,則可以使用網絡抓取輕鬆將該網站轉換為潛在客戶電子表格,然後將其用於下游營銷流程。”
“社交媒體是一頭不同的野獸。 他們的 Web 和移動應用程序極其複雜,具有數百個 API 和動態結構,而且由於定期更新和 A/B 測試,它們也經常發生變化,”Ondra 說。 “[U] 除非您可以培訓和支持大型內部團隊,否則最好的方法是從經驗豐富的開發人員那裡購買它作為服務。”
“如果 [客戶] 從事電子商務,您可能會使用 AI 驅動的產品抓取工具。 您冒著降低數據質量的風險,但您可以輕鬆地將其部署到數百或數千個網站上,”Ondra 補充道。
抓取網絡,但使用一些常識
網絡抓取存在限制和機會。 請注意,隱私考慮必須緩和查詢。 網頁抓取是一種選擇性的,而不是集體的,拖網。
數據隱私是這些限制之一。 “永遠不要收集有關家庭的意見或政治觀點或信息,或個人數據,”Dharmeliya 說。 在刮之前評估法律風險。 不要收集任何具有法律風險的數據。
重要的是要了解網絡抓取不是——出於法律原因也不應該——關於收集個人身份信息。 事實上,任何數據的網絡抓取一直存在爭議,但在很大程度上倖免於法律審查,尤其是因為很難在網絡瀏覽器和網絡抓取工具之間做出法律區分,兩者都從網站請求數據並用它做事。 這最近被提起了訴訟。
Dharmeliya 說,Facebook、Instagram 和 LinkedIn 確實有管理哪些數據可以被抓取以及哪些數據是禁止訪問的規則。 例如,關閉的個人 Facebook 和 Instagram 帳戶是私人帳戶。 他補充說,任何向公共世界提供數據的東西都是公平的遊戲——紐約時報、Twitter,以及任何用戶可以發表評論或評論的空間。
“我們不提供法律建議,因此我們鼓勵客戶就其管轄範圍內的法律考慮尋求法律意見。” 麥克勞克林說。
深入挖掘:為什麼營銷人員應該關心消費者隱私
Web 抓取仍然是其他形式的數據收集的有用輔助工具。
Tskaroveli 說,對於 Datamam 客戶來說,網絡抓取是一種潛在客戶生成形式。 他指出,它可以從多個來源產生新的潛在客戶,也可以用於豐富數據,讓營銷人員更好地了解他們的客戶。
Dhameliya 指出,網絡抓取機器人的另一個目標是影響者營銷活動。 這裡的目標是確定符合營銷人員概況的影響者。
“開始緩慢並逐步添加數據源。 即使是我們的企業客戶,我們也看到了從網絡抓取開始的巨大熱情,就好像它是某種靈丹妙藥,但後來才停止使用部分抓取工具,因為他們意識到他們從來不需要數據,”Ondra 說。 “開始監控一個競爭對手,如果它對你有用,就再添加一個。 或者從 Instagram 上的有影響力的人開始,然後在此過程中添加 TikTok。 像對待任何其他數據源一樣,認真對待網絡抓取的數據,它肯定會給你帶來競爭優勢。”
獲取 MarTech! 日常的。 自由的。 在您的收件箱中。
見條款。

本文中表達的觀點是客座作者的觀點,不一定是 MarTech。 工作人員作者在這裡列出。

相關故事
MarTech 的新內容