Webスクレイピングが貴重なデータソースになる方法
公開: 2022-11-11ウェブスクレイピング。 大変な作業のように聞こえますが、骨の折れる作業よりも賢い作業です。
この手法は単純な真実を利用しています。つまり、Web サイトのフロント エンド (表示されている) は、データを抽出して表示するためにバック エンドと通信する必要があります。 Web クローラーまたはボットは、この情報を収集できます。 さらに作業を進めると、分析用のデータを整理できます。
デジタル マーケターは、消費者の好みや市場動向をよりよく理解するために、常にデータを求めています。 Web スクレイピングは、その目的に向けたもう 1 つのツールです。
最初にクロールしてからスクレイピングする
「一般に、すべての Web スクレイピング プログラムは、1) データの読み込みと 2) データの解析という同じ 2 つのタスクを実行します。 サイトによっては、第 1 部または第 2 部がより困難または複雑になる場合があります。」 と Web スクレイピング サービス会社 Marquee Data のパートナーである Ed Mclaughlin 氏は説明します。
Web スクレイピングは、以前の手法である Web クローリングに似ています。 1990 年代にさかのぼると、インターネットが占めるサイバー スペースが減少していたとき、Web クロール ボットは Web サイトのリストを編集していました。 この手法は、Google が検索エンジンを強化するためのキーワードをスクレイピングするために今でも使用されていると、プロセス自動化およびウェブ スクレイピング企業であるレンテック デジタルのセールス ディレクター、ヒマンシュ ダメリヤ氏は述べています。
Rentech にとって、Web スクレイピングとは「さまざまなソースの組み合わせから構造化データを取得すること」にすぎないと Dhameliya 氏は述べています。 「私たちは、ニュース Web サイト、財務データ、およびロケーション レポートをスクレイピングします。」
「Web スクレイピング データは小規模で収集されます」と、Web スクレーパー Datamam のプロジェクト マネージャーである George Tskaroveli 氏は述べています。
「最新の Web スクレイピングの特徴は、ヘッドレス ブラウザ、レジデンシャル プロキシ、およびスケーラブルなクラウド プラットフォームの使用です」と、スクレイピングおよびデータ抽出会社 Apify の COO である Ondra Urban 氏は述べています。 「ヘッドレス ブラウザを使用すると、人間とまったく同じように動作し、任意の Web サイトを開き、任意のデータを抽出するスクレイパーを作成できます。AWS、GCP、または Apify などの最新のクラウド プラットフォームでは、数百または数千のスクレイパーを即座に開始できます。データに対する現在の需要。」
どの党のデータですか? で、入手方法は
ゼロパーティからサードパーティのデータまで、さまざまなデータ収集があり、マーケターは次のインサイトを得るために常にそれらを選択しています。 では、Web スクレイピングはこの連続体のどこに当てはまりますか?
「Web スクレイピングされたデータは、サードパーティのデータと最も密接に関連しています。」 マーケターはこのデータを既存のデータセットと結合できるため、マクローリン氏は次のように述べています。 「Web スクレイピングは、購入したリストの場合のように、競合他社があまり使用しない独自のデータ ソースを提供することもできます。」 彼は言った。
「私たちが行う作業の 95% はサードパーティの [データ] です」と Dhameliya 氏は言います。 スクレイピングは、Web サイトのフロントエンドとバックエンドの間でやり取りされるデータを対象としています。 それには、このデータ ストリームをタップするように細工された API が必要になるか、Selenium ドライバーで JavaScript を使用する必要があるかもしれない、と彼は説明しました。
Rentech の仕事のほとんどは、マーケティング インテリジェンスと分析を求める企業向けです。 ボットは Web サイトを定期的に訪問し、時には製品情報を求めている、と Dharmeliya 氏は述べています。 一部の Web サイトでは、1 つのソースからのクエリの数が制限されています。 これを回避するために、Rentech は AWS Lambda を使用して、複数のマシンからクエリを起動するボットを実行し、クエリの制限を回避すると、Dhameliya 氏は説明しました。
ツカロヴェリ氏は、すべてのデータを調べて「ヌルと重複」を取り除くことは人間には不可能だと述べた. 「多くのクライアントは、自分のデバイスでデータを収集したり、フリーランサーを使用したりしています。 クリーンなデータを受信できないことは大きな問題です」と彼は言いました。 Datamam は独自の組み込みアルゴリズムに依存して「行と列」を通過し、品質保証を自動化します。
「私たちはウェブサイトをスクレイピングするためのカスタム python スクリプトを作成します。 通常、それぞれが特定の Web サイトを処理するようにカスタマイズされており、必要に応じてカスタム入力を提供できます」と McLaughlin 氏は述べています。 「これらのスクリプトの作成を自動化するために AI や機械学習を使用していませんが、その技術は将来的に使用される可能性があります。」
手動でコピーして貼り付けることができるデータは、自動的にスクレイピングできます。」 マクローグリンは付け加えた。 「[I]潜在的なリードのリストのディレクトリを含む Web サイトを見つけた場合、Web スクレイピングを使用して、その Web サイトをリードのスプレッドシートに簡単に変換し、下流のマーケティング プロセスに使用できます。」
「ソーシャルメディアは別の獣です。 彼らの Web およびモバイル アプリケーションは非常に複雑で、何百もの API と動的構造があり、定期的な更新と A/B テストのおかげで頻繁に変更されます」と Ondra 氏は述べています。 「[U]大規模な社内チームをトレーニングしてサポートすることができない場合、それを行う最善の方法は、経験豊富な開発者からサービスとして購入することです。」
「[クライアント] が e コマースを利用している場合、AI を利用した製品スクレーパーで問題を解決できるかもしれません。 データの品質が低下するリスクがありますが、数百または数千の Web サイトに簡単に展開できます」と Ondra 氏は付け加えました。
Web をスクレイピングしますが、常識を働かせてください
Webスクレイピングには限界とチャンスがあります。 プライバシーを考慮してクエリを調整する必要があることに注意してください。 Web スクレイピングは、集合的なものではなく、選択的なものです。
データのプライバシーは、それらの制限の 1 つです。 「意見や政治的見解、家族に関する情報、または個人データを決して収集しないでください」とダルメリヤは言いました。 スクレイピングの前に法的リスクを評価します。 法的に危険なデータを収集しないでください。
Web スクレイピングは、個人を特定できる情報を収集するためのものではなく、法的な理由からそうすべきではないことを理解することが重要です。 実際、データの Web スクレイピングは物議をかもしてきましたが、特に Web ブラウザーと Web スクレイパー (どちらも Web サイトからデータを要求し、それを処理するもの) を法的に区別するのが難しいため、法的な精査をほとんど受けていません。 これは最近訴訟になった。
フェイスブック、インスタグラム、リンクトインには、スクレイピングできるデータと立ち入り禁止のデータを管理するルールがあるとダーメリヤ氏は述べた。 たとえば、閉鎖された個々の Facebook および Instagram アカウントは非公開アカウントです。 ニューヨーク・タイムズ、ツイッター、ユーザーがコメントやレビューを投稿できる場所なら何でも、公の世界にデータを提供するものは何でも公正なゲームだと彼は付け加えた。
「私たちは法的助言を提供していません。したがって、クライアントには、管轄区域での法的考慮事項について助言を求めることをお勧めします。」 マクラフリンは言った。
掘り下げる: マーケティング担当者が消費者のプライバシーを気にする必要がある理由
Webスクレイピングは、他の形式のデータ収集を補助する便利なツールです。
Datamam の顧客にとって、Web スクレイピングはリード生成の一形態である、と Tskaroveli 氏は述べています。 複数のソースから新しいリードを生成したり、マーケティング担当者がクライアントをよりよく理解できるようにデータを強化するために使用したりできる、と彼は指摘しました。
Web スクレイピング ボットのもう 1 つの標的は、インフルエンサー マーケティング キャンペーンだと Dhameliya 氏は述べています。 ここでの目標は、マーケティング担当者のプロファイルに適合するインフルエンサーを特定することです。
「ゆっくりと始めて、データ ソースを段階的に追加します。 企業のお客様でさえ、まるで魔法の弾丸のように Web スクレイピングから始めようとする大きな熱意が見られますが、データがまったく必要ないことに気付いたために、後でスクレイパーの一部を中止するだけです」と Ondra 氏は述べています。 「1 つの競合他社の監視を開始し、それがうまくいく場合は、2 つ目の競合他社を追加します。 または、Instagram のインフルエンサーから始めて、プロセスの後半で TikTok を追加します。 他のデータ ソースと同様に、Web スクレイピングされたデータを入念に処理すれば、確実に競争力を得ることができます。」
マーテックを手に入れよう! 毎日。 無料。 受信トレイに。

条件を参照してください。
この記事で表明された意見はゲスト著者のものであり、必ずしも MarTech ではありません。 スタッフの著者はここにリストされています。

関連記事
マーテックの新機能