Sitemap Menüyü Değiştir

Web kazıma nasıl değerli bir veri kaynağı olabilir?

Yayınlanan: 2022-11-11

Web kazıma. Kulağa zor iş gibi geliyor, ama zahmetli olmaktan çok zekice.

Teknik basit bir gerçeği kullanıyor: Gördüğünüz web sitesinin ön ucu, verileri çıkarmak ve görüntülemek için arka uçla konuşmalıdır. Bir web tarayıcısı veya bot bu bilgileri toplayabilir. Daha fazla çalışma, verileri analiz için düzenleyebilir.

Dijital pazarlamacılar, tüketici tercihi ve pazar eğilimleri hakkında daha iyi bir fikir edinmek için sonsuza dek veri arıyorlar. Web kazıma, bu amaca yönelik bir başka araçtır.

Önce sürün, sonra kazıyın

“Genel olarak, tüm web kazıma programları aynı iki görevi yerine getirir: 1) veri yükleme ve 2) veri ayrıştırma. Sahaya bağlı olarak, birinci veya ikinci kısım daha zor veya karmaşık olabilir.” Bir web kazıma hizmetleri firması olan Marquee Data'nın ortağı Ed Mclaughlin'i açıkladı.

Web kazıma, daha önceki bir tekniğe biraz benzerlik gösterir: web taraması. 1990'larda, internetin daha az siber alanı işgal ettiği zamanlarda, web tarama botları web sitelerinin listelerini derledi. Süreç otomasyonu ve web kazıma şirketi Rentech Digital'in satış direktörü Himanshu Dhameliya, tekniğin Google tarafından arama motorunu güçlendirmek için anahtar kelimeleri kazımak için hala kullanıldığını belirtti.

Dhameliya, Rentech için web kazımanın sadece "farklı kaynakların bir karışımından yapılandırılmış veriler elde etmek" olduğunu söyledi. "Haber web sitelerini, finansal verileri ve konum raporlarını sıyırıyoruz."

Web kazıyıcıları Datamam'ın proje yöneticisi George Tskaroveli, "Web kazıma verileri daha küçük bir ölçekte toplanıyor," dedi ve "hala milyonlarca veri noktasına tekabül ediyor, ancak aynı zamanda günlük veya daha sık olarak toplanıyor" dedi.

Kazıma ve veri çıkarma firması Apify COO'su Ondra Urban, “Modern web kazımanın tanımlayıcı özellikleri, başsız tarayıcılar, konut proxy'leri ve ölçeklenebilir bulut platformlarının kullanımıdır” dedi. "Başsız bir tarayıcıyla, tam olarak insanlar gibi davranan kazıyıcılar oluşturabilir, herhangi bir web sitesini açabilir ve herhangi bir veriyi ayıklayabilirsiniz... veri için mevcut talep.”

Hangi parti verileri? Ve nasıl elde edilir

Pazarlamacıların bir sonraki içgörü için sonsuza dek seçtikleri, sıfır taraf verisinden üçüncü taraf verisine kadar değişen bir veri toplama yelpazesi vardır. Peki web kazıma bu sürekliliğin neresinde?

"Web'den kazınmış veriler, üçüncü taraf verileriyle en yakından ilişkilidir." Said Mclaughlin, pazarlamacılar daha sonra bu verileri mevcut veri kümeleriyle birleştirebilir. "Web kazıma, satın alınan listelerde olduğu gibi rakipler tarafından yoğun bir şekilde kullanılmayan benzersiz bir veri kaynağı da sağlayabilir." dedi.

Dhameliya, "Yaptığımız işin yüzde doksan beşi üçüncü taraf [verileri]" dedi. Kazıma, web sitesinin ön ucu ve arka ucu arasında ticareti yapılan verileri amaçlar. Bu, bu veri akışına dokunmak için hazırlanmış bir API gerektirebilir veya bir Selenium sürücüsü ile JavaScript kullanmayı gerektirebilir.

Rentech'in çalışmalarının çoğu, pazarlama zekası ve analizi arayan işletmeler içindir. Dharmeliya, botların web sitelerini periyodik olarak ziyaret etmekle görevlendirildiğini ve bazen ürün bilgilerinin arandığını söyledi. Bazı web siteleri, tek bir kaynaktan gelen sorgu sayısını sınırlar. Dhameliya, bunu aşmak için Rentech'in, sorgu sınırlamalarını aşmak için birden fazla makineden sorgu başlatacak bir bot yürütmek için AWS Lambda'yı kullanacağını açıkladı.

Tskaroveli, "boşları ve kopyaları" ayıklamak için tüm verileri gözden geçirmek insanca mümkün değil. “Birçok müşteri kendi cihazlarıyla veri topluyor veya serbest çalışanlar kullanıyor. Temiz veri alamamak büyük bir sorun” dedi. Datamam, kalite güvencesini otomatikleştirerek "satırlar ve sütunlar" arasında gezinmek için kendi yerleşik algoritmalarına güvenir.

“Web sitelerini sıyırmak için özel python komut dosyaları yazıyoruz. Genellikle, her biri belirli bir web sitesini işlemek için özelleştirilmiştir ve gerekirse özel girdiler sağlayabiliriz," dedi McLaughlin. "Bu komut dosyalarının üretimini otomatikleştirmek için herhangi bir yapay zeka veya makine öğrenimi kullanmıyoruz, ancak bu teknoloji gelecekte kullanılabilir."

Manuel olarak kopyalanıp yapıştırılabilen tüm veriler otomatik olarak kazınabilir.” Mclauglin ekledi. "[I] Potansiyel müşteri adaylarının bir listesinin bulunduğu bir web sitesi bulursanız, web kazıma, bu web sitesini daha sonra alt pazarlama süreçleri için kullanılabilecek bir potansiyel müşteri tablosuna kolayca dönüştürmek için kullanılabilir."

“Sosyal medya farklı bir canavar. Yüzlerce API ve dinamik yapı ile web ve mobil uygulamaları son derece karmaşık ve ayrıca düzenli güncellemeler ve A/B testleri sayesinde çok sık değişiyorlar” dedi. "[U]Geniş bir şirket içi ekibi eğitip destekleyemiyorsanız, bunu yapmanın en iyi yolu onu deneyimli geliştiricilerden bir hizmet olarak satın almaktır."

“[Müşteri] e-ticaretteyse, AI destekli bir ürün kazıyıcı ile kurtulabilirsiniz. Daha düşük kalitede bir veriyi riske atarsınız, ancak bunu yüzlerce veya binlerce web sitesinde kolayca dağıtabilirsiniz," diye ekledi Ondra.

Web'i kazıyın, ancak biraz sağduyu kullanın

Web kazıma ile gelen sınırlar ve fırsatlar vardır. Sadece gizlilik hususlarının sorguyu yumuşatması gerektiğini unutmayın. Web kazıma, toplu değil, seçici bir sürükleme ağıdır.

Veri gizliliği bu sınırlardan biridir. Dharmeliya, "Asla ailelerle ilgili fikirleri, siyasi görüşleri veya bilgileri ya da kişisel verileri toplamayın" dedi. Kazımadan önce yasal riski değerlendirin. Yasal olarak riskli olan herhangi bir veri toplamayın.

Web'de kazımanın kişisel olarak tanımlanabilir bilgilerin toplanmasıyla ilgili olmadığını - ve yasal nedenlerle olmamalıdır - anlamak önemlidir. Gerçekten de, herhangi bir verinin web'den kazınması tartışmalı olmuştur, ancak yasal incelemeden büyük ölçüde kurtulmuştur, çünkü her ikisi de web sitelerinden veri talep eden ve onunla bir şeyler yapan web tarayıcıları ve web kazıyıcıları arasında yasal bir ayrım yapmak zordur. Bu son zamanlarda dava edildi.

Dharmeliya, Facebook, Instagram ve LinkedIn'in hangi verilerin kazınabileceğini ve hangi verilerin yasak olduğunu belirleyen kurallara sahip olduğunu söyledi. Örneğin, kapatılan bireysel Facebook ve Instagram hesapları özel hesaplardır. Kamusal dünyaya veri sağlayan her şey adil bir oyundur - New York Times, Twitter, kullanıcıların yorum veya inceleme gönderebileceği herhangi bir alan, diye ekledi.

"Yasal tavsiye sağlamıyoruz, bu nedenle müvekkillerimizi kendi yetki alanlarındaki yasal hususlar hakkında danışman aramaya teşvik ediyoruz." dedi McLaughlin.

Daha derine inin: Pazarlamacılar neden tüketici gizliliğine önem vermeli?

Web kazıma, diğer veri toplama biçimleriyle hala yararlı bir yardımcıdır.

Tskaroveli, Datamam müşterileri için web kazımanın bir kurşun yaratma biçimi olduğunu söyledi. Birden fazla kaynaktan yeni müşteri adayları üretebilir veya pazarlamacıların müşterilerini daha iyi anlamalarını sağlamak için veri zenginleştirme için kullanılabilir, dedi.

Dhameliya, web kazıma botları için bir başka hedefin de etkileyici pazarlama kampanyaları olduğunu belirtti. Burada amaç, pazarlamacının profiline uyan etkileyicileri belirlemektir.

“Yavaş başlayın ve kademeli olarak veri kaynakları ekleyin. Kurumsal müşterilerimizde bile, sanki sihirli bir kurşunmuş gibi web kazıma ile başlamak için büyük bir heves görüyoruz, ancak daha sonra sıyırıcıların bir kısmını durdurmak, çünkü verilere asla ihtiyaç duymadıklarını anladılar, "dedi Ondra. “Bir rakibi izlemeye başlayın ve işinize yararsa ikinci bir tane ekleyin. Veya Instagram'daki etkileyicilerle başlayın ve daha sonra TikTok'u ekleyin. Web'den kazınmış verilere, diğer herhangi bir veri kaynağı gibi özenle davranın ve bu size kesinlikle rekabet avantajı sağlayacaktır."


MarTech'i edinin! Günlük. Özgür. Gelen kutunuzda.

Şartlara bakın.



Bu makalede ifade edilen görüşler konuk yazara aittir ve mutlaka MarTech değildir. Personel yazarları burada listelenir.


İlgili Öyküler

    Web kazıma nasıl değerli bir veri kaynağı olabilir?
    Karar kitapçıklarını kullanarak verilerin yatırım getirisi nasıl ölçülür?
    İzin verilen PII'nin hareketli hedefi
    Çerezsiz bir gelecekte pazarlama için 6 veri toplama taktiği
    Pazarlama ve BT'nin birlikte daha iyi çalışmasının 5 yolu

MarTech'te yeni

    Bir ajansın bakış açısından Web3 içeriği ve yetenekleri
    Web kazıma nasıl değerli bir veri kaynağı olabilir?
    İşletmeler için içerik oluşturmayı otomatikleştirmeye yönelik 3 basit adım
    Pazarlamacılar kimlik çözümlerini acil bir öncelik haline getiriyor
    Podcast'ler artık B2B pazarlama için en iyi kanal