Sitemap Toggle Menu

Bagaimana scraping web dapat menjadi sumber data yang berharga

Diterbitkan: 2022-11-11

Pengikisan web. Kedengarannya seperti kerja keras, tetapi lebih pintar daripada sulit.

Teknik ini memanfaatkan kebenaran sederhana: Ujung depan situs web, yang Anda lihat, harus berbicara dengan ujung belakang untuk mengekstrak data, dan menampilkannya. Perayap web atau bot dapat mengumpulkan informasi ini. Pekerjaan lebih lanjut dapat mengatur data untuk analisis.

Pemasar digital selalu mencari data untuk mendapatkan pemahaman yang lebih baik tentang preferensi konsumen dan tren pasar. Pengikisan web adalah satu lagi alat untuk mencapai tujuan itu.

Pertama merangkak, lalu mengikis

“Secara umum, semua program web scraping menyelesaikan dua tugas yang sama: 1) memuat data dan 2) menguraikan data. Tergantung pada situsnya, bagian pertama atau kedua bisa lebih sulit atau rumit.” jelas Ed Mclaughlin, partner di Marquee Data, sebuah perusahaan layanan web scraping.

Pengikisan web memiliki beberapa kemiripan dengan teknik sebelumnya: perayapan web. Kembali pada 1990-an, ketika internet menempati lebih sedikit ruang siber, bot perayapan web menyusun daftar situs web. Teknik ini masih digunakan oleh Google untuk mencari kata kunci untuk menggerakkan mesin pencarinya, kata Himanshu Dhameliya, direktur penjualan di perusahaan otomatisasi proses dan web scraping Rentech Digital.

Untuk Rentech, pengikisan web hanya memperoleh "data terstruktur dari campuran sumber yang berbeda," kata Dhameliya. "Kami mengikis situs web berita, data keuangan, dan laporan lokasi."

“Data pengikisan web dikumpulkan dalam skala yang lebih kecil,” kata George Tskaroveli, manajer proyek di pencakar web Datamam, “masih berjumlah jutaan titik data, tetapi juga mengumpulkan setiap hari atau lebih sering,” katanya.

“Fitur yang menentukan dari pengikisan web modern adalah peramban tanpa kepala, proxy perumahan, dan penggunaan platform cloud yang dapat diskalakan,” kata Ondra Urban, COO di perusahaan pengikisan dan ekstraksi data Apify. “Dengan browser tanpa kepala, Anda dapat membuat scraper yang berperilaku persis seperti manusia, membuka situs web apa pun, dan mengekstrak data apa pun… [M]platform cloud modern seperti AWS, GCP, atau Apify memungkinkan Anda memulai ratusan atau ribuan scraper secara instan, berdasarkan permintaan data saat ini.”

Data partai mana? Dan cara mendapatkannya

Ada spektrum pengumpulan data, mulai dari data pihak nol hingga pihak ketiga, yang selalu dipilih oleh pemasar untuk wawasan berikutnya. Jadi di mana pengikisan web cocok dengan kontinum ini?

"Data yang digores web paling erat kaitannya dengan data pihak ketiga." Kata Mclaughlin, karena pemasar kemudian dapat menggabungkan data ini dengan kumpulan data yang ada. “Pengikisan web juga dapat menyediakan sumber data unik yang tidak banyak digunakan oleh pesaing seperti halnya dengan daftar yang dibeli.” Dia berkata.

“Sembilan puluh lima persen pekerjaan yang kami lakukan adalah [data] pihak ketiga,” kata Dhameliya. Scraping bertujuan untuk data yang diperdagangkan antara front-end dan back-end dari situs web. Itu mungkin memerlukan API yang dibuat untuk memanfaatkan aliran data ini, atau menggunakan JavaScript dengan driver Selenium, jelasnya.

Sebagian besar pekerjaan Rentech adalah untuk perusahaan yang mencari intelijen dan analisis pemasaran. Bot ditugaskan untuk mengunjungi situs web secara berkala, terkadang mencari informasi produk, kata Dharmeliya. Beberapa situs web membatasi jumlah kueri yang berasal dari satu sumber. Untuk menyiasatinya, Rentech akan menggunakan AWS Lambda untuk mengeksekusi bot yang akan meluncurkan kueri dari beberapa mesin untuk mengatasi batasan kueri, jelas Dhameliya.

Secara manusiawi tidak mungkin menelusuri semua data untuk menyingkirkan "nulls and dupes," kata Tskaroveli. “Banyak klien mengumpulkan data dengan perangkat mereka sendiri atau menggunakan free-lancer. Ini masalah besar, tidak menerima data yang bersih,” katanya. Datamam mengandalkan algoritme bawaannya sendiri untuk melewati "baris dan kolom", mengotomatiskan jaminan kualitas.

“Kami menulis skrip python khusus untuk mengikis situs web. Biasanya, masing-masing disesuaikan untuk menangani situs web tertentu, dan kami dapat memberikan masukan khusus, jika diperlukan, ”kata McLaughlin. “Kami tidak menggunakan AI atau pembelajaran mesin apa pun untuk mengotomatiskan produksi skrip ini, tetapi teknologi itu dapat digunakan di masa depan.”

Data apa pun yang dapat disalin dan ditempel secara manual dapat dihapus secara otomatis.” Mclauglin menambahkan. “[Saya] jika Anda menemukan situs web dengan direktori daftar prospek potensial, pengikisan web dapat digunakan untuk dengan mudah mengonversi situs web itu menjadi spreadsheet prospek yang kemudian dapat digunakan untuk proses pemasaran hilir.”

“Media sosial adalah binatang yang berbeda. Aplikasi web dan seluler mereka sangat kompleks, dengan ratusan API dan struktur dinamis, dan juga sangat sering berubah berkat pembaruan rutin dan pengujian A/B,” kata Ondra. “Kecuali Anda dapat melatih dan mendukung tim internal yang besar, cara terbaik untuk melakukannya adalah dengan membelinya sebagai layanan dari pengembang berpengalaman.”

“Jika [klien] dalam e-commerce, Anda mungkin lolos dengan scraper produk bertenaga AI. Anda mempertaruhkan kualitas data yang lebih rendah, tetapi Anda dapat dengan mudah menyebarkannya ke ratusan atau ribuan situs web, ”tambah Ondra.

Gosok web, tetapi gunakan akal sehat

Ada batasan — dan peluang — yang datang dengan pengikisan web. Perlu diketahui bahwa pertimbangan privasi harus meredam kueri. Pengikisan web adalah jaring tarik selektif, bukan kolektif.

Privasi data adalah salah satu batasannya. “Jangan pernah mengumpulkan pendapat atau pandangan politik atau informasi tentang keluarga, atau data pribadi,” tegas Dharmeliya. Evaluasi risiko hukum sebelum mengikis. Jangan mengumpulkan data apa pun yang berisiko secara hukum.

Penting untuk dipahami bahwa web scraping tidak — dan karena alasan hukum tidak boleh — tentang mengumpulkan informasi pengenal pribadi. Memang, pengikisan web dari data apa pun telah menjadi kontroversial, tetapi sebagian besar telah lolos dari pengawasan hukum, paling tidak karena sulit untuk menarik perbedaan hukum antara peramban web dan pengikis web, yang keduanya meminta data dari situs web dan melakukan sesuatu dengannya. Ini telah diajukan ke pengadilan baru-baru ini.

Facebook, Instagram, dan LinkedIn memiliki aturan yang mengatur data mana yang dapat dihapus dan data mana yang terlarang, kata Dharmeliya. Misalnya, akun Facebook dan Instagram individu yang ditutup adalah akun pribadi. Apa pun yang memberikan data ke dunia publik adalah permainan yang adil — New York Times, Twitter, ruang mana pun di mana pengguna dapat memposting komentar atau ulasan, tambahnya.

“Kami tidak memberikan nasihat hukum, jadi kami mendorong klien kami untuk mencari nasihat tentang pertimbangan hukum di yurisdiksi mereka.” kata McLaughlin.

Gali lebih dalam: Mengapa pemasar harus peduli dengan privasi konsumen

Pengikisan web masih merupakan tambahan yang berguna dengan bentuk pengumpulan data lainnya.

Untuk klien Datamam, pengikisan web adalah bentuk pembuatan prospek, kata Tskaroveli. Ini dapat menghasilkan prospek baru dari berbagai sumber atau dapat digunakan untuk pengayaan data untuk memungkinkan pemasar mendapatkan pemahaman yang lebih baik tentang klien mereka, katanya.

Target lain untuk bot pengikis web adalah kampanye pemasaran influencer, kata Dhameliya. Di sini tujuannya adalah mengidentifikasi influencer yang sesuai dengan profil pemasar.

“Mulai perlahan dan tambahkan sumber data secara bertahap. Bahkan dengan pelanggan perusahaan kami, kami melihat antusiasme yang besar untuk memulai dengan pengikisan web, seolah-olah itu adalah peluru ajaib, hanya untuk menghentikan sebagian pengikis nanti karena mereka menyadari bahwa mereka tidak pernah membutuhkan data, ”kata Ondra. “Mulai pantau satu pesaing, dan jika berhasil, tambahkan yang kedua. Atau mulailah dengan influencer di Instagram dan tambahkan TikTok nanti dalam prosesnya. Perlakukan data yang tergores web dengan rajin, seperti sumber data lainnya, dan itu pasti akan memberi Anda keunggulan kompetitif.”


Dapatkan MarTech! Harian. Gratis. Di kotak masuk Anda.

Lihat istilah.



Pendapat yang diungkapkan dalam artikel ini adalah dari penulis tamu dan belum tentu MarTech. Penulis staf tercantum di sini.


Cerita Terkait

    Bagaimana scraping web dapat menjadi sumber data yang berharga
    Bagaimana mengukur ROI data menggunakan buku pedoman keputusan
    Target bergerak dari PII yang diizinkan
    6 taktik pengumpulan data untuk pemasaran di masa depan tanpa cookie
    5 cara pemasaran dan TI dapat bekerja sama lebih baik

Baru di MarTech

    Konten dan kemampuan Web3 dari perspektif agensi
    Bagaimana scraping web dapat menjadi sumber data yang berharga
    3 langkah sederhana untuk mengotomatiskan pembuatan konten untuk bisnis
    Pemasar menjadikan solusi identitas sebagai prioritas mendesak
    Podcast sekarang menjadi saluran teratas untuk pemasaran B2B