Cara Membuat Perayap Khusus Menggunakan Colab dan advertools

Diterbitkan: 2022-05-25

Dalam video ini, kita akan berbicara tentang bagaimana kita dapat membuat crawler kustom kita sendiri menggunakan Google Colab, Advertools, dan beberapa library Python lainnya. Sebelum Anda merasa takut atau putus asa, jangan. Ambil napas dalam-dalam. Ini akan baik-baik saja. Saya bahkan tidak memproklamirkan diri sebagai pembuat kode, tetapi yang saya kuasai adalah menyalin dan menempel. Saya tahu bahwa Anda dapat menggunakan tombol Ctrl+C sebaik yang saya bisa. Mari kita lihat bagaimana kita bisa membuat crawler SEO kustom kita sendiri dan bagaimana kita bisa membuatnya bekerja untuk membantu kita memecahkan beberapa masalah unik.

Sumber daya

  • Dapatkan akses ke Colab di sini.
  • Pelajari lebih lanjut tentang Advertools di sini.

Transkrip Video:

Mari kita lihat bagaimana kita bisa membuat crawler kustom menggunakan Google Colab, serta Advertools, library Python.

Apa itu Perayap SEO (Laba-laba)?

Perayap adalah alat yang dapat merayapi halaman situs web seperti yang dilakukan mesin telusur, dan ini membantu kami mendapatkan informasi SEO yang berharga. Ini membantu kita melihat situs web, cara Google, Bing, atau mesin pencari lainnya melihat situs kita. Ada alat yang melakukan ini. Ada sejumlah alat di luar sana yang melakukan ini, yang paling populer mungkin adalah Screaming Frog SEO Spider, dan itu adalah alat yang kami sukai dan gunakan sepanjang waktu, tetapi terkadang kami membutuhkan solusi khusus.

Mengapa Anda Membuat Crawler Anda Sendiri?

Sebagian besar perayap 'off-the-shelf' melakukan hal-hal luar biasa, tetapi terkadang Anda memiliki pertanyaan khusus yang perlu dijawab dan Anda dapat membuat perayap khusus untuk mengontrol semua keluaran. Anda hanya mendapatkan data yang Anda inginkan atau butuhkan. Dengan cara ini Anda tidak perlu dibatasi oleh penyiapan alat, tetapi Anda dapat menjalankan perayapan cepat situs web atau hanya menarik satu informasi atau menarik banyak informasi dan mengaturnya dengan cara yang berbeda, menggunakan Colab dan Python.

Apa itu Advertools?

Advertools adalah pustaka Python yang memungkinkan Anda melakukan banyak hal. Anda dapat merayapi situs web, menghasilkan kata kunci untuk kampanye pemasaran mesin pencari Anda, membuat iklan teks, menganalisis SERP, mendapatkan wawasan tentang posting media sosial, dan melakukan lebih banyak lagi. Ini adalah perpustakaan yang sangat fleksibel. Itu melakukan banyak hal keren dan cukup mudah digunakan.

Saya tidak akan menyebut diri saya seorang programmer. Saya hanya akan mengatakan bahwa saya pandai menyalin dan menempel. Meskipun saya bukan programmer Python yang mendalam, saya bisa mendapatkan banyak manfaat dari menggunakan alat seperti Advertools.

Apa yang Akan Kami Lakukan

Inilah yang akan kita lakukan dalam video ini.

  1. Buat file Colab baru dan instal Advertools
  2. Buat perayap khusus menggunakan advertools
  3. Merangkak dan menganalisis situs web dan datanya
  4. Visualisasikan beberapa hasil tersebut menggunakan pustaka Python lain yang disebut Plotly
  5. Ekspor datanya

Langkah 1: Buat File Colab dan Instal Advertools

Google Colab adalah alat yang memungkinkan Anda melakukan sejumlah hal keren. Ini memungkinkan Anda menjalankan kode di dalam sel untuk membuat tabel, membangun program Anda sendiri, melakukan hal-hal khusus, apa pun mulai dari pembelajaran mesin hingga SEO, dan banyak lagi. Jika Anda belum pernah menggunakannya sebelumnya, ini gratis untuk digunakan, dan memungkinkan Anda untuk memanfaatkan kekuatan komputasi Google secara gratis. Ini sangat keren jadi saya sangat menyarankan Anda untuk memeriksanya.

Jika Anda belum menggunakan CoLab, ada banyak sumber daya yang bagus di sini. Salah satu hal yang harus Anda lakukan untuk menggunakan perpustakaan di luar Python, ada instalasi alami. Anda perlu menginstal program itu. Sebagian besar waktu Anda menggunakan fungsi yang disebut PIP dan Anda kemudian akan menarik perpustakaan baru itu. Ini adalah proses yang cukup sederhana untuk digunakan.

Salah satu hal yang dilakukan semua orang ini, yang membuat program ini adalah mereka menunjukkan kepada Anda cara menyiapkannya di dalam dokumen mereka. Jadi selalu baca dokumen ini dan itu akan memungkinkan Anda untuk memahami, "Bagaimana cara mengimpor alat ini dan membuat alat ini bekerja sendiri?"

Untuk menginstal Advertools, kita akan menggunakan baris kode ini di sini:

!pip install advertools

Setelah Anda memasukkan kode di sini ke blok sel di CoLab, lanjutkan dan tekan tombol putar. Ini akan mengeksekusi blok kode ini. Anda akan melihat sesuatu seperti ini, di mana itu menginstal kode dan seluruh paket di sini sehingga kami sekarang dapat menggunakan perpustakaan ini untuk membangun perayap kami. Setelah Anda melihat tanda centang hijau, Anda tahu bahwa itu sudah selesai.

Langkah 2: Buat Perayap Khusus Menggunakan Advertools

Selanjutnya, kita akan ingin mengeksekusi baris kode baru.

import advertools as adv
from advertools import crawl
import pandas as pd
 

Anda dapat melanjutkan dan menekan tombol kode di sini dan itu akan mengisi yang baru ini. Kami akan mengimpor beberapa bagian tertentu dari perpustakaan Advertools. Kami mengimpor advertools, kami mengimpor metode perayapan. Kami juga mengimpor sesuatu yang disebut panda. Bagi Anda yang tidak terbiasa dengan Python, panda memungkinkan kami untuk bekerja dengan data kami di dalam bingkai data, pada dasarnya membuat tabel di dalam Python.

Setelah Anda mengatur semua ini, Anda melanjutkan dan menjalankan kode Anda lagi. Ini akan mengimpor semua informasi ini. Jika kami sedang membuat perayapan, Anda akan melihat di sini, bahwa ini berbicara tentang bagaimana kami dapat melakukan ini, bagaimana kami dapat mengimpor perayapan ini. Ada beberapa pendekatan; Anda dapat mengimpor Advertools seperti yang kami lakukan dan menjalankan baris perintah ini, yang akan melakukan apa yang kami lakukan.

Saya ingin membuat Colab sedikit lebih mudah digunakan jika seseorang di tim saya ingin memanfaatkannya juga. Kami akan melakukan sesuatu yang sedikit berbeda dari apa yang mereka tunjukkan di sini. Tetapi jika Anda mengikuti pendekatan ini, Anda akan melakukannya dengan benar dan itu akan berhasil juga.

site = "https://simplifiedsearch.net/" #@param {type:"string"}

crawl(site, 'simp.jl' , follow_links= True )
crawl_df = pd.read_json( 'simp.jl' , lines= True )
crawl_df.head()
 

Apa yang akan kita lakukan adalah baris kode ini. Hal pertama yang kami lakukan adalah mendefinisikan variabel dan variabel tersebut akan menjadi situs web yang ingin kami jelajahi. Dengan menggunakan string tipe param ini, ini memberi saya sebuah kotak di sini, yang kemudian memungkinkan saya mengetik di sini, situs web apa yang ingin saya jelajahi. Saya dapat menempatkan situs web saya di sini. Saya dapat meletakkan situs web apa pun di sini dan itu akan mengatur variabel itu untuk saya. Dengan cara ini saya tidak perlu mengetiknya di sini. Saya hanya bisa mengetiknya ke dalam formulir dan seseorang yang tidak nyaman dengan mengklik di dalam kotak sel bisa langsung ke sini dan mengetikkan sisi luarnya.

Dalam hal ini, kami akan menggunakan situs pencarian kami yang disederhanakan, hanya karena kami akan menggunakannya sepanjang waktu. Kami akan melanjutkan dan menempelkannya di sini. Tepat di bawahnya kami mengikuti aturan yang sama persis dengan yang mereka tetapkan di sini. Kami menggunakan Advertools.crawl, dan kemudian kami menggunakan situs sebagai variabel kami. Kami memiliki file keluaran. Kemudian kami ingin mengikuti tautan di dalam situs web.

Kami melakukan langkah berikutnya juga, di mana kami mengatur bingkai data perayapan, dan kami memintanya untuk membuka file keluaran kami karena itu akan menghasilkan dalam JSON. Panda akan membaca JSON dan membuat bingkai data untuk kita. Pada akhirnya, saya memberi tahu kita hanya untuk menunjukkan kepala kerangka data ini, untuk memastikan semuanya berfungsi sebagaimana mestinya. Setelah kami mengikuti langkah ini dan menjalankan sel ini, kami akan merayapi situs web dan itu akan melakukan dump data di bawah dan kami akan dapat melihat semua fungsi yang berbeda dalam perayapan ini.

Aku akan pergi ke depan dan menjalankan sel ini. Mungkin perlu beberapa menit hanya karena menjalankan perayapan seluruh situs web. Setelah selesai, kita akan berbicara tentang bagaimana kita dapat memanfaatkan data perayapan untuk mengeluarkan informasi tertentu.

Langkah 3: Merangkak dan Menganalisis Situs Web dan Data

Sekarang situs telah dirayapi dan Anda dapat melihat saya memiliki daftar URL, judul, deskripsi meta, sudut pandang, kumpulan karakter, H1, H2, dan H3. Semua informasi ini sedang ditarik ke dalam bingkai ini. Jika Anda ingin melihatnya sedikit lebih bersih, Anda dapat menekan tombol ajaib ini di sini dan Google akan mentransfer data ini ke sini ke dalam kerangka data yang sedikit lebih mudah untuk digunakan. Saya memiliki jumlah total kolom di sini 266. Itu banyak kolom yang bisa saya kerjakan.

Anda mungkin bertanya pada diri sendiri apa yang ada di semua kolom ini. Kita dapat kembali ke sini ke advertools dan Anda dapat melihat semua elemen yang berbeda. Ada cukup banyak data ekspor yang bisa kita lihat dan menarik banyak informasi keren.

Jika kita ingin melihat daftar semua kolom berbeda yang tersedia, kita dapat menjalankan kode ini:

columns = list (crawl_df)
columns
 

Kita perlu mengambil kolom terlebih dahulu dan membuat daftarnya. Kami akan menggunakan daftar kode dan kemudian menempatkan tanda kurung, dan di dalam crawl_DF mereka, yang merupakan nama bingkai data kami, dan memanggil kolom daftar baru. Di sini kami memiliki kolom, dan kami menjalankan sel itu, dan Anda dapat melihat semua kemungkinan kolom yang berbeda ini. Ini sedikit informasi, seperti yang Anda lihat, ia mencari banyak informasi.

Bagaimana jika Anda ingin melihat hanya sebagian dari informasi itu? Bagaimana jika Anda hanya ingin mendapatkan semua judul atau semua deskripsi meta atau beberapa informasi tag H, atau mungkin Anda ingin melihat semua halaman dan jenis markup schema.org yang mungkin Anda miliki di dalamnya. Di sinilah memiliki sesuatu seperti Advertools berguna.

Katakanlah kita ingin melihat tipe JSON-LD di seluruh halaman kita.

json_df = crawl_df[[ 'url' , 'jsonld_@type' ]]
json_df
 

Kita bisa mulai dengan beberapa kode baru. Mari kita lanjutkan dan buat bingkai data baru bernama JSON-DF. Kami ingin mendapatkan beberapa informasi dari bingkai data asli kami. Hal pertama yang ingin kita lakukan, izinkan saya turun di sini sedikit untuk mempermudah perayapan semua orang, _DF. Kami akan menggunakan braket dan braket lain.

Hal pertama yang ingin kita tarik adalah URL. Kami tahu bahwa URL itu penting karena kami perlu mengetahui semua halaman dalam situs kami, semua URL. Hal berikutnya yang ingin kita lakukan adalah mencari tipe JSON. Kita dapat kembali ke daftar ini dan kita dapat menggunakan tipe JSON, menyalinnya dan berkata, saya juga ingin mengetahui tipe JSON. Saya akan melanjutkan dan menjaga ini tetap konsisten, sehingga kita mengikuti praktik terbaik. Apa yang kita lakukan di garis kecil ini di sini? Kami mengatakan 'buat bingkai data baru' dan gunakan data dari database asli kami, dari bingkai data asli kami dan tarik kembali hanya URL dan tipe JSON-LD.

Jika saya menjalankan ini, itu akan membuat bingkai data baru hanya dengan informasi itu. Untuk melihat data ini, saya bisa melanjutkan, memasukkan JSON_DF, melakukan sel baru, dan tekan enter. Ini memberi saya daftar semua halaman saya dan jenis markup yang terkait dengan halaman tertentu itu. Ini bisa sangat membantu jika Anda ingin melihat dengan cepat dan menemukan semua JSON di situs web Anda, jenis apa yang Anda miliki, dan markup apa yang Anda miliki.

Selanjutnya, apakah Anda memiliki beberapa halaman yang tidak memiliki markup? Anda dapat dengan cepat mengidentifikasi mereka. Kami memiliki data baru ini di mana kami memiliki semua URL kami dan kami memiliki semua jenis JSON-LD kami yang kami tahu ada di halaman itu.

Langkah 4: Visualisasikan Hasil

Katakanlah kita ingin membuat laporan atau grafik cepat untuk ditunjukkan kepada, baik klien atau orang lain, atau jumlah informasi dan data yang telah kita tambahkan ke situs ini untuk mereka dan berbagai jenisnya.

Hal pertama yang perlu saya lakukan adalah menghitung semua jenis markup yang berbeda yang telah ditambahkan, dan kemudian saya dapat memvisualisasikannya. Mari kita mulai dengan menghitung ini dan membuat bingkai data baru. Saya telah membuat kode ini dan saya akan memandu Anda melaluinya:

json_counts = json_df[ 'jsonld_@type' ].value_counts()
json_counts = json_counts.reset_index()
json_counts

Ini disebut jumlah JSON. Ini adalah kerangka data baru. Kami mengambil data dari kolom JSON-LD di sini. Kami memintanya menghitung nilai unik yang ada di kolom ini. Ketika saya menjalankan kode ini dan kemudian saya menyuruhnya untuk mengeluarkannya, Anda akan melihat bahwa kami memiliki semua informasi yang dihitung.

Apa yang dilakukannya adalah memberi saya kesalahan ini karena menemukan beberapa nol atau beberapa NAS dalam daftar. Tidak apa-apa karena Anda akan segera melihat bahwa kami mendapatkan informasi itu di sini. Berikut adalah semua jenis markup yang berbeda dan semuanya telah disiapkan untuk kami.

Anda juga memperhatikan bahwa itu tidak terlihat seperti bingkai data seperti di sini. Kita harus mengindeks ulang kerangka data ini, atau variabel ini, ke dalam kerangka data agar dapat berfungsi dengan baik. Kami akan melanjutkan dan memberikan bingkai data kami dan menjalankan kode ini:

json_counts = json_counts.reset_index()

 

Saat kami menjalankan ini, Anda akan melihat kami memiliki bingkai data. Kami memiliki indeks, yang merupakan istilah. Kemudian kita memiliki tipe JSON-LD dan hitungannya. Kami masih belum memiliki grafik. Kami masih memiliki bingkai data lain. Apa yang perlu kita lakukan untuk mengubah kerangka data ini menjadi visualisasi, atau grafik? Kita akan menggunakan sesuatu yang disebut Plotly.

Plotly adalah perpustakaan lain, sangat mirip dengan Advertools yang dapat kita gunakan untuk membuat visualisasi, dan khususnya, kita akan menggunakan Plotly express. Hal pertama yang perlu kita lakukan adalah menginstal Plotly, kita lanjutkan dan lakukan PIPinstallPlotly, saya akan menjalankan sel ini. Sudah terpasang di lembar kerja ini, tapi tidak apa-apa. Seperti yang Anda lihat, itu akan memberi tahu kami bahwa itu sudah terpasang, sudah puas. Kami baik untuk pergi.

Ambil kode yang baru saja kita salin dari sini dan tempel kembali ke perayap kita. Kami tidak membutuhkan yang tengah ini karena ini adalah data yang tidak kami gunakan. Kami menggunakan data kami sendiri. Kita perlu mengimpor Plotly express sebagai PX, dan kita perlu menghubungkan database baru kita di sini untuk mendapatkan informasi yang benar ke dalam bagan kita.

! pip install plotly
 
import plotly.express as px
fig = px.bar(json_counts, x='index', y='jsonld_@type') fig.show()
 

Bingkai data kami disebut jumlah JSON. Di X kami, kami akan menggunakan indeks dan di Y kami akan menggunakan tipe JSON. Mengapa saya memilih mereka? Indeks adalah tempat kata-kata berada. Kami ingin memilikinya di X, dan kemudian hitungannya ada di JSON-LD @type, dan itu akan menjadi Y kami, yang akan memberi tahu kami berapa banyak yang ada di masing-masing kolom itu. Kami akan melanjutkan dan meletakkannya di sini. Cukup mudah. Dan kemudian fig.show akan menunjukkan grafik itu. Jadi sekarang, kami memiliki semua jenis yang berbeda di sini, dan di sini, kami memiliki jumlah yang berbeda dari setiap jenis dalam grafik yang bagus.

Jika Anda ingin membagikan ini, Anda dapat mengunduhnya sebagai PNG, dan Plotly sekarang akan mengunduhnya ke komputer Anda. Anda dapat mengambil ini dan berkata, "Kami telah memberi tanda sebanyak ini pada banyak halaman ini." Cara yang cukup keren untuk memvisualisasikannya dengan cepat.

Langkah 5: Ekspor Data

Namun, bagaimana jika kita ingin mengunduh semua data ini dan bekerja dengannya, mungkin di lembar Google atau yang lainnya? Nah, Anda juga bisa melakukan itu untuk melakukan itu. Kita hanya perlu menggunakan satu baris kode lagi dan kita harus melakukannya dengan baik. Jadi katakanlah kita akan mengunduh tabel ini di sini dengan semua halaman situs web kita dan tipe JSON-LD. Kita dapat melanjutkan ke sel ini atau siapa pun yang Anda inginkan, dan kemudian kita akan membuat baris kode baru.

Kita perlu menggunakan sesuatu dari Google Colab yang disebut file impor. Itu hal pertama yang akan kita lakukan. Selanjutnya, kita akan menemukan kerangka data ini, yaitu JSON-DF. Kami akan menambahkan ini di bawah dan mengatakan .2_CSV, dan kemudian kami akan memberinya nama. Kita bisa menyebutnya JSON_DF.CSV. Setelah Anda mengetikkan kode ini, Anda telah membuat file CSV Anda. Jika saya melihat ke sini ke dalam folder saya, Anda akan melihat file di sini.

Dari sini, saya dapat melanjutkan dan mengunduhnya, atau saya dapat meletakkan sebaris kode di sini yang membantu kami mengunduhnya lebih cepat. Saya dapat mengatakan files.download, lalu saya melanjutkan dan memanggil file ini, yang baru saja saya buat, dan saya meminta Colab untuk mengunduhnya untuk saya secara langsung. Ketika saya menjalankan sel ini, itu akan mengunduh file itu dan di sini saya memilikinya. Saya dapat melanjutkan, klik buka, dan sekarang saya memiliki file CSV ini yang dapat saya lakukan apa pun yang saya inginkan dengan segala jenis alat spreadsheet yang saya miliki. Saya juga dapat melihat yang mungkin kehilangan beberapa markup.

Di sana Anda memilikinya. Kami telah maju dan kami telah membuat perayap khusus kami sendiri. Kami telah menarik beberapa data khusus. Kami telah memvisualisasikan data itu dan kami telah mengunduh data itu untuk digunakan di program lain. Kami melakukan semua ini, dan saya bukan pemrogram komputer, saya bahkan tidak mencoba berpura-pura menjadi pemrogram komputer. Seperti yang saya katakan sebelumnya, saya hanya pandai menyalin dan menempel. Kalian juga bisa memikirkan hal-hal ini.

Ketika Anda memiliki pertanyaan, selalu ada solusi keren. Jika Anda ingin mencoba sesuatu yang baru dan berbeda, saya sangat menyarankan Anda bermain-main di Colab. Ada banyak sumber daya hebat di luar sana. Ada banyak orang yang jauh lebih pintar dari saya melakukan hal-hal yang jauh lebih menakjubkan yang telah saya pelajari banyak darinya, dan telah membantu saya dalam permainan pemasaran, penelitian, perayapan, dan banyak lagi.

Jika Anda memiliki pertanyaan tentang apa yang kami lakukan hari ini, silakan beri komentar di bawah. Saya juga akan memberikan akses ke file CoLab khusus ini dan saya bahkan akan membagikan langkah demi langkah kode yang kami gunakan selama ini. Terima kasih banyak telah menonton. Jangan lupa untuk berlangganan dan sampai waktu berikutnya, selamat pemasaran.

Ini kode lengkapnya jika Anda tertarik: