วิธีสร้างโปรแกรมรวบรวมข้อมูลแบบกำหนดเองโดยใช้ Colab และเครื่องมือโฆษณา

เผยแพร่แล้ว: 2022-05-25

ในวิดีโอนี้ เราจะพูดถึงวิธีที่เราสามารถสร้างโปรแกรมรวบรวมข้อมูลแบบกำหนดเองโดยใช้ Google Colab, Advertools และไลบรารี Python อื่นๆ สองสามแห่ง ก่อนที่คุณจะกลัวหรือวิกลจริต อย่าเลย หายใจลึก ๆ. มันจะไม่เป็นไร ฉันไม่ได้ประกาศตัวเป็นนักเขียนโค้ดด้วยซ้ำ แต่สิ่งที่ฉันทำได้ดีคือการคัดลอกและวาง ฉันรู้ว่าคุณสามารถใช้ปุ่ม Ctrl+C ได้มากเท่าที่ฉันจะทำได้ มาดูกันว่าเราจะสร้างโปรแกรมรวบรวมข้อมูล SEO ที่กำหนดเองได้อย่างไร และเราจะนำไปใช้งานเพื่อช่วยเราแก้ปัญหาเฉพาะบางอย่างได้อย่างไร

ทรัพยากร

  • เข้าถึง Colab ที่นี่
  • เรียนรู้เพิ่มเติมเกี่ยวกับ Advertools ที่นี่

การถอดเสียงวิดีโอ:

มาดูกันว่าเราสามารถสร้างโปรแกรมรวบรวมข้อมูลแบบกำหนดเองโดยใช้ Google Colab รวมถึง Advertools ไลบรารี Python ได้อย่างไร

SEO Crawler (แมงมุม) คืออะไร?

โปรแกรมรวบรวมข้อมูลเป็นเครื่องมือที่สามารถรวบรวมข้อมูลหน้าเว็บไซต์ได้มากเหมือนกับที่เครื่องมือค้นหาจะทำ และช่วยให้เราได้รับข้อมูล SEO อันมีค่า ช่วยให้เราเห็นเว็บไซต์ วิธีที่ Google, Bing หรือเครื่องมือค้นหาอื่นๆ จะเห็นเว็บไซต์ของเรา มีเครื่องมือที่ทำสิ่งนี้ มีเครื่องมือมากมายที่ทำเช่นนี้ ซึ่งเป็นที่นิยมมากที่สุดน่าจะเป็น Screaming Frog SEO Spider และเป็นเครื่องมือที่เราชื่นชอบและใช้งานอยู่ตลอดเวลา แต่บางครั้ง เราก็ต้องการโซลูชันที่กำหนดเอง

ทำไมคุณถึงสร้างโปรแกรมรวบรวมข้อมูลของคุณเอง?

โปรแกรมรวบรวมข้อมูล 'นอกชั้นวาง' ส่วนใหญ่ทำสิ่งที่น่าอัศจรรย์ แต่บางครั้งคุณมีคำถามเฉพาะที่จำเป็นต้องได้รับคำตอบ และคุณสามารถสร้างโปรแกรมรวบรวมข้อมูลแบบกำหนดเองเพื่อควบคุมผลลัพธ์ทั้งหมด คุณได้รับข้อมูลที่คุณต้องการหรือต้องการเท่านั้น วิธีนี้ทำให้คุณไม่จำเป็นต้องถูกจำกัดด้วยการตั้งค่าเครื่องมือ แต่คุณสามารถเรียกใช้การรวบรวมข้อมูลเว็บไซต์อย่างรวดเร็วหรือดึงข้อมูลเพียงชิ้นเดียวหรือดึงข้อมูลจำนวนมากและจัดระเบียบในวิธีที่ต่างออกไป โดยใช้ Colab และ ไพทอน.

Advertools คืออะไร?

Advertools เป็นไลบรารี Python ที่ให้คุณทำสิ่งต่างๆ ได้มากมาย คุณสามารถรวบรวมข้อมูลเว็บไซต์ สร้างคำหลักสำหรับแคมเปญการตลาดผ่านเครื่องมือค้นหาของคุณ สร้างโฆษณาแบบข้อความ วิเคราะห์ SERP รับข้อมูลเชิงลึกเกี่ยวกับโพสต์โซเชียลมีเดีย และทำสิ่งต่างๆ อีกมาก เป็นห้องสมุดที่มีความยืดหยุ่นสูง มันทำสิ่งดีๆ มากมายและค่อนข้างใช้งานง่าย

ฉันจะไม่เรียกตัวเองว่าโปรแกรมเมอร์ ฉันจะบอกว่าฉันเก่งในการคัดลอกและวาง แม้ว่าฉันจะไม่ใช่โปรแกรมเมอร์ Python ที่เจาะลึก แต่ฉันก็ได้รับประโยชน์มากมายจากการใช้เครื่องมืออย่าง Advertools

สิ่งที่เรากำลังจะทำ

นี่คือสิ่งที่เราจะทำในวิดีโอนี้

  1. สร้างไฟล์ Colab ใหม่และติดตั้ง Advertools
  2. สร้างโปรแกรมรวบรวมข้อมูลที่กำหนดเองโดยใช้เครื่องมือโฆษณา
  3. รวบรวมข้อมูลและวิเคราะห์เว็บไซต์และข้อมูล
  4. เห็นภาพผลลัพธ์บางส่วนโดยใช้ไลบรารี Python อื่นที่เรียกว่า Plotly
  5. ส่งออกข้อมูล

ขั้นตอนที่ 1: สร้างไฟล์ Colab และติดตั้ง Advertools

Google Colab เป็นเครื่องมือที่จะช่วยให้คุณทำสิ่งดีๆ ได้มากมาย ช่วยให้คุณสามารถเรียกใช้โค้ดภายในเซลล์เพื่อสร้างตาราง สร้างโปรแกรมของคุณเอง ทำสิ่งที่กำหนดเอง อะไรก็ได้ตั้งแต่การเรียนรู้ของเครื่องไปจนถึง SEO และอื่นๆ หากคุณไม่เคยใช้มาก่อน ใช้งานได้ฟรี และช่วยให้คุณสามารถใช้ประโยชน์จากพลังการคำนวณของ Google ได้ฟรี มันเจ๋งมากดังนั้นฉันขอแนะนำให้คุณไปดูสิ่งนี้

หากคุณยังไม่ได้ใช้ CoLab มีแหล่งข้อมูลดีๆ มากมายที่นี่ สิ่งหนึ่งที่คุณต้องทำเพื่อที่จะใช้ไลบรารี่ที่อยู่นอก Python ก็คือการติดตั้งแบบธรรมชาติ คุณต้องติดตั้งโปรแกรมนั้น ส่วนใหญ่คุณใช้ฟังก์ชันที่เรียกว่า PIP จากนั้นคุณจะดึงไลบรารีใหม่เข้ามา เป็นกระบวนการที่ค่อนข้างง่ายในการใช้งาน

สิ่งหนึ่งที่คนเหล่านี้ทำ ซึ่งสร้างโปรแกรมเหล่านี้คือพวกเขาแสดงให้คุณเห็นถึงวิธีการตั้งค่าในเอกสารของพวกเขา ดังนั้นควรอ่านเอกสารเหล่านี้เสมอและจะช่วยให้คุณเข้าใจว่า "ฉันจะนำเข้าเครื่องมือเหล่านี้และทำให้เครื่องมือเหล่านี้ทำงานด้วยตัวเองได้อย่างไร"

ในการติดตั้ง Advertools เราจะใช้โค้ดบรรทัดนี้ที่นี่:

!pip install advertools

เมื่อคุณใส่รหัสลงในช่องเซลล์ใน CoLab แล้ว ให้กดปุ่มเล่น มันจะดำเนินการบล็อกของรหัสนี้ คุณควรเห็นสิ่งนี้ ซึ่งมันติดตั้งโค้ดและแพ็คเกจทั้งหมดที่นี่ เพื่อให้เราสามารถใช้ไลบรารีนี้เพื่อสร้างโปรแกรมรวบรวมข้อมูลของเรา เมื่อคุณเห็นเครื่องหมายถูกสีเขียว แสดงว่าเสร็จสิ้นแล้ว

ขั้นตอนที่ 2: สร้างโปรแกรมรวบรวมข้อมูลแบบกำหนดเองโดยใช้ Advertools

ต่อไป เราต้องการรันโค้ดบรรทัดใหม่

import advertools as adv
from advertools import crawl
import pandas as pd
 

คุณสามารถไปข้างหน้าและกดปุ่มรหัสที่นี่และมันจะเติมรหัสใหม่ เราจะนำเข้าบางส่วนเฉพาะของไลบรารี Advertools เรากำลังนำเข้า advertools เรากำลังนำเข้าวิธีการรวบรวมข้อมูล เรากำลังนำเข้าสิ่งที่เรียกว่าแพนด้าด้วย สำหรับผู้ที่ไม่คุ้นเคยกับ Python แพนด้าอนุญาตให้เราทำงานกับข้อมูลของเราภายใน data frames โดยพื้นฐานแล้วการสร้างตารางใน Python

เมื่อคุณตั้งค่าทั้งหมดนี้แล้ว ให้เรียกใช้โค้ดของคุณอีกครั้ง นี่จะนำเข้าข้อมูลทั้งหมดนี้ หากเรากำลังสร้างการรวบรวมข้อมูล คุณจะสังเกตเห็นที่นี่ ว่าเรากำลังพูดถึงวิธีที่เราทำสิ่งนี้ เราจะนำเข้าการรวบรวมข้อมูลเหล่านี้ได้อย่างไร มีสองสามแนวทาง คุณสามารถนำเข้า Advertools เหมือนที่เราทำและเรียกใช้บรรทัดคำสั่งนี้ ซึ่งจะทำสิ่งที่เรากำลังทำอยู่

ฉันชอบทำให้ Colab ใช้งานได้ง่ายขึ้นเล็กน้อยในกรณีที่มีคนในทีมของฉันต้องการใช้ประโยชน์จากมันเช่นกัน เรากำลังจะทำอะไรบางอย่างที่แตกต่างไปจากที่แสดงไว้ที่นี่ แต่ถ้าคุณปฏิบัติตามแนวทางนี้ คุณจะได้รับมันถูกต้องและมันจะได้ผลเช่นกัน

site = "https://simplifiedsearch.net/" #@param {type:"string"}

crawl(site, 'simp.jl' , follow_links= True )
crawl_df = pd.read_json( 'simp.jl' , lines= True )
crawl_df.head()
 

สิ่งที่เราจะทำคือโค้ดบรรทัดนี้ สิ่งแรกที่เราทำคือการกำหนดตัวแปร และตัวแปรจะเป็นเว็บไซต์ที่เราต้องการที่จะรวบรวมข้อมูล ด้วยการใช้สตริงประเภทพารามิเตอร์นี้ มันทำให้ฉันมีกล่องตรงนี้ ซึ่งอนุญาตให้ฉันพิมพ์ที่นี่ ฉันต้องการรวบรวมข้อมูลเว็บไซต์ใด ฉันสามารถใส่เว็บไซต์ของฉันที่นี่ ฉันสามารถใส่เว็บไซต์ใดก็ได้ที่นี่ และมันจะตั้งค่าตัวแปรนั้นให้ฉัน ด้วยวิธีนี้ฉันไม่ต้องพิมพ์ที่นี่ ฉันสามารถพิมพ์ลงในแบบฟอร์ม และใครก็ตามที่ไม่สะดวกใจที่จะคลิกในกล่องเซลล์ สามารถไปข้างหน้าตรงนี้และพิมพ์ด้านหนึ่งออกมา

ในกรณีนี้ เราจะใช้ไซต์การค้นหาแบบง่ายของเรา เพียงเพราะเราจะใช้ไซต์นั้นตลอดเวลา เราจะวางมันไว้ตรงนี้ ด้านล่างนี้คือเราปฏิบัติตามกฎเดียวกันกับที่พวกเขาตั้งไว้ที่นี่ เรากำลังใช้ Advertools.crawl จากนั้นเราใช้เว็บไซต์เป็นตัวแปรของเรา เรามีไฟล์เอาต์พุต จากนั้นเราต้องการให้มันเป็นไปตามลิงค์ภายในเว็บไซต์

เราทำขั้นตอนต่อไปเช่นกัน โดยเราตั้งค่าเฟรมข้อมูลการรวบรวมข้อมูล และเราบอกให้เปิดไฟล์เอาต์พุตของเราเพราะมันจะส่งเอาต์พุตใน JSON แพนด้ากำลังจะอ่าน JSON และสร้าง data frame ให้เรา ในท้ายที่สุด ฉันกำลังบอกเราเพียงเพื่อแสดงส่วนหัวของ data frame นี้ เพื่อให้แน่ใจว่าทุกอย่างทำงานตามที่ตั้งใจไว้ เมื่อเราทำตามขั้นตอนนี้และเรียกใช้เซลล์นี้ เราจะรวบรวมข้อมูลเว็บไซต์และจะทำการดัมพ์ข้อมูลด้านล่าง และเราจะสามารถดูฟังก์ชันต่างๆ ทั้งหมดภายในการรวบรวมข้อมูลนี้ได้

ฉันจะไปข้างหน้าและเรียกใช้เซลล์นี้ อาจใช้เวลาสักครู่เพียงเพราะมีการรวบรวมข้อมูลของเว็บไซต์ทั้งหมด เมื่อเสร็จแล้ว เราจะพูดถึงวิธีที่เราสามารถใช้ประโยชน์จากข้อมูลการตระเวนเพื่อดึงข้อมูลบางส่วนออกมา

ขั้นตอนที่ 3: รวบรวมข้อมูลและวิเคราะห์เว็บไซต์และข้อมูล

ตอนนี้ไซต์ได้รวบรวมข้อมูลแล้ว และคุณสามารถดูได้ว่าฉันมีรายการ URL, ชื่อ, คำอธิบายเมตา, มุมมอง, ชุดอักขระ, H1, H2 และ H3 ข้อมูลทั้งหมดนี้กำลังถูกดึงเข้ามาในเฟรมนี้ หากคุณต้องการดูสะอาดขึ้นอีกนิด คุณสามารถกดปุ่มวิเศษนี้ที่นี่ และ Google จะถ่ายโอนข้อมูลนี้ที่นี่ไปยังกรอบข้อมูลที่ใช้งานได้ง่ายขึ้นเล็กน้อย ฉันมีจำนวนคอลัมน์ทั้งหมดตรงนี้ 266 คอลัมน์ นั่นเป็นคอลัมน์จำนวนมากที่ฉันสามารถใช้ได้

คุณอาจกำลังถามตัวเองว่าคอลัมน์เหล่านี้มีอะไรบ้าง เราสามารถย้อนกลับไปที่นี่เพื่อไปที่เครื่องมือโฆษณา และคุณจะเห็นองค์ประกอบต่างๆ ทั้งหมด มีข้อมูลการส่งออกค่อนข้างน้อยที่เราสามารถดูและดึงข้อมูลที่น่าสนใจมากมาย

หากเราต้องการดูรายการคอลัมน์ต่างๆ ทั้งหมดที่เรามี เราสามารถเรียกใช้โค้ดนี้ได้:

columns = list (crawl_df)
columns
 

เราจำเป็นต้องแยกคอลัมน์ก่อนแล้วสร้างรายการขึ้นมา เราจะใช้รายการโค้ดแล้วใส่วงเล็บ และภายใน crawl_DF ซึ่งเป็นชื่อของ data frame ของเรา และเรียกคอลัมน์รายการใหม่ ในที่นี้ เรามีคอลัมน์ และเรียกใช้เซลล์นั้น และคุณสามารถเห็นคอลัมน์ที่เป็นไปได้ต่างกันทั้งหมดเหล่านี้ ข้อมูลค่อนข้างน้อย อย่างที่คุณเห็น มันกำลังมองหาข้อมูลจำนวนมาก

จะเป็นอย่างไรถ้าคุณต้องการดูข้อมูลเพียงบางส่วน จะเป็นอย่างไร ถ้าคุณเพียงต้องการรับชื่อทั้งหมดหรือคำอธิบายเมตาทั้งหมด หรือข้อมูลแท็ก H บางส่วน หรือบางทีคุณอาจต้องการดูหน้าทั้งหมดและประเภทของมาร์กอัป schema.org ที่คุณอาจมีบนหน้าเหล่านั้น นี่คือจุดที่การมีบางอย่างเช่น Advertools มีประโยชน์

สมมติว่าเราต้องการดูประเภท JSON-LD ในหน้าเว็บของเรา

json_df = crawl_df[[ 'url' , 'jsonld_@type' ]]
json_df
 

เราสามารถเริ่มต้นด้วยรหัสใหม่ ไปข้างหน้าและสร้าง data frame ใหม่ที่เรียกว่า JSON-DF เราต้องการรับข้อมูลบางส่วนจากกรอบข้อมูลเดิมของเรา อย่างแรกที่เราต้องการจะทำ ขอผมลงไปข้างล่างนี้สักหน่อยเพื่อให้ทุกคนรวบรวมข้อมูลได้ง่ายขึ้น _DF เราจะใช้วงเล็บและวงเล็บอื่น

สิ่งแรกที่เราต้องการดึงคือ URL เราทราบดีว่า URL นั้นสำคัญเพราะเราจำเป็นต้องทราบทุกหน้าในไซต์ของเรา รวมถึง URL ทั้งหมด สิ่งต่อไปที่เราต้องการทำคือเราต้องการค้นหาประเภท JSON เราสามารถกลับไปที่รายการนี้และเราสามารถไปที่ประเภท JSON คัดลอกสิ่งนั้นแล้วพูดว่าฉันอยากรู้ประเภท JSON ด้วย ฉันจะดำเนินการต่อและรักษาความสอดคล้องนี้ ด้วยวิธีนี้เราจะปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุด เราจะทำอย่างไรในบรรทัดเล็ก ๆ นี้ที่นี่? เรากล่าวว่า 'สร้าง data frame ใหม่' และใช้ข้อมูลจากฐานข้อมูลเดิมของเรา จาก data data เดิมของเรา และดึงกลับเฉพาะ URL และประเภท JSON-LD

ถ้าฉันเรียกใช้ มันจะสร้าง data frame ใหม่ด้วยข้อมูลนั้น เพื่อดูข้อมูลนี้ ฉันสามารถไปข้างหน้า ใส่ JSON_DF ทำเซลล์ใหม่ แล้วกด Enter มันให้รายชื่อหน้าทั้งหมดของฉันและประเภทของมาร์กอัปที่เกี่ยวข้องกับหน้าเฉพาะเหล่านั้น สิ่งนี้มีประโยชน์มากหากคุณต้องการค้นหาอย่างรวดเร็วและค้นหา JSON ทั้งหมดบนเว็บไซต์ของคุณ ประเภทที่คุณมี และสิ่งที่คุณมีมาร์กอัป

นอกจากนี้ คุณมีบางหน้าที่มาร์กอัปขาดหายไปหรือไม่? คุณสามารถระบุได้อย่างรวดเร็ว เรามีข้อมูลใหม่นี้ซึ่งเรามี URL ทั้งหมดของเรา และมีประเภท JSON-LD ทั้งหมดที่เรารู้ว่ามีอยู่ในหน้านั้น

ขั้นตอนที่ 4: เห็นภาพผลลัพธ์

สมมติว่าเราต้องการสร้างรายงานหรือกราฟด่วนเพื่อแสดงต่อลูกค้าหรือบุคคลอื่น หรือจำนวนข้อมูลและข้อมูลที่เราได้เพิ่มลงในไซต์นี้สำหรับพวกเขาและประเภทต่างๆ

สิ่งแรกที่ฉันต้องทำคือนับมาร์กอัปประเภทต่างๆ ทั้งหมดที่เพิ่มเข้าไป จากนั้นฉันก็นึกภาพออก เริ่มต้นด้วยการนับสิ่งนี้และสร้างกรอบข้อมูลใหม่ ฉันได้สร้างรหัสนี้แล้วและจะอธิบายให้คุณทราบ:

json_counts = json_df[ 'jsonld_@type' ].value_counts()
json_counts = json_counts.reset_index()
json_counts

เรียกว่าการนับ JSON นี่คือกรอบข้อมูลใหม่ เรากำลังนำข้อมูลจากคอลัมน์ JSON-LD มาไว้ที่นี่ เรากำลังนับค่าที่ไม่ซ้ำที่อยู่ในคอลัมน์นี้ เมื่อฉันรันโค้ดนี้แล้วบอกให้ส่งออก คุณจะเห็นว่าเราได้นับข้อมูลทั้งหมดแล้ว

สิ่งที่ทำคือมันให้ข้อผิดพลาดนี้แก่ฉันเพราะพบเลขศูนย์หรือ NAS บางส่วนในรายการ ไม่เป็นไรเพราะคุณจะเห็นในไม่กี่วินาทีว่าเราได้ข้อมูลนั้นที่นี่ นี่คือมาร์กอัปประเภทต่างๆ ทั้งหมดและได้จัดเตรียมไว้ให้เราแล้ว

คุณยังสังเกตเห็นว่ามันดูไม่เหมือนกรอบข้อมูลอย่างที่นี่เลย เราต้องสร้างดัชนีเฟรมข้อมูลนี้หรือตัวแปรนี้ใหม่ลงในกรอบข้อมูลเพื่อให้ทำงานได้อย่างถูกต้อง เราจะดำเนินการต่อและให้กรอบข้อมูลของเราและเรียกใช้รหัสนี้:

json_counts = json_counts.reset_index()

 

เมื่อเรารันสิ่งนี้ คุณจะเห็นว่าเรามี data frame เรามีดัชนีซึ่งเป็นเทอม จากนั้นเราก็มีประเภท JSON-LD และจำนวนนั้น เรายังไม่มีกราฟ เรายังมีกรอบข้อมูลอื่นอยู่ เราต้องทำอะไรเพื่อเปลี่ยนกรอบข้อมูลนี้เป็นภาพหรือกราฟ? เราจะใช้สิ่งที่เรียกว่า Plotly

Plotly เป็นอีกหนึ่งไลบรารี่ ที่คล้ายกับ Advertools มากที่เราสามารถใช้เพื่อสร้างภาพข้อมูล และโดยเฉพาะอย่างยิ่ง เราจะใช้ Plotly express สิ่งแรกที่เราต้องทำคือติดตั้ง Plotly เราดำเนินการต่อไปและทำ PIPinstallPlotly ฉันจะเรียกใช้เซลล์นี้ มีการติดตั้งไว้ในเวิร์กชีตนี้แล้ว แต่ไม่เป็นไร อย่างที่คุณเห็น มันจะบอกเราว่าติดตั้งแล้ว พอใจแล้ว เราพร้อมแล้วที่จะไป

นำรหัสที่เราเพิ่งคัดลอกมาจากที่นี่แล้ววางกลับเข้าไปในโปรแกรมรวบรวมข้อมูลของเรา เราไม่ต้องการอันกลางนี้เพราะเป็นข้อมูลที่เราไม่ได้ใช้ เรากำลังใช้ข้อมูลของเราเอง เราจำเป็นต้องนำเข้า Plotly express เป็น PX และเราจำเป็นต้องเชื่อมต่อฐานข้อมูลใหม่ของเราที่นี่เพื่อรับข้อมูลที่ถูกต้องลงในแผนภูมิของเรา

! pip install plotly
 
import plotly.express as px
fig = px.bar(json_counts, x='index', y='jsonld_@type') fig.show()
 

กรอบข้อมูลของเราเรียกว่าการนับ JSON ใน X ของเรา เราจะใช้ดัชนี และบน Y เราจะใช้ประเภท JSON ทำไมฉันถึงเลือกสิ่งเหล่านั้น ดัชนีเป็นที่ที่คำอยู่ เราต้องการให้มีสิ่งเหล่านี้บน X แล้วนับอยู่บน JSON-LD @type และนั่นจะเท่ากับ Y ของเรา ซึ่งจะบอกเราว่าแต่ละคอลัมน์มีกี่คอลัมน์ เราจะไปข้างหน้าและวางไว้ที่นี่ ค่อนข้างง่าย จากนั้น fig.show จะแสดงกราฟนั้น ตอนนี้ เรามีประเภทที่แตกต่างกันทั้งหมดของเราที่นี่ และที่นี่ เรามีจำนวนที่แตกต่างกันของแต่ละประเภทในกราฟที่สวยงาม

หากคุณต้องการแชร์สิ่งนี้ คุณสามารถดาวน์โหลดเป็น PNG และ Plotly จะดาวน์โหลดลงในคอมพิวเตอร์ของคุณ คุณสามารถใช้สิ่งนี้และพูดว่า "เราได้ทำเครื่องหมายไว้มากมายบนหน้าเว็บเหล่านี้แล้ว" วิธีที่ยอดเยี่ยมในการแสดงภาพอย่างรวดเร็ว

ขั้นตอนที่ 5: ส่งออกข้อมูล

แต่ถ้าเราต้องการดาวน์โหลดข้อมูลทั้งหมดนี้และใช้งานได้ อาจเป็นใน Google ชีตหรืออย่างอื่น คุณก็สามารถทำได้เช่นกัน เราแค่ต้องใช้โค้ดเพิ่มอีกหนึ่งบรรทัดและเราน่าจะไปได้ดี สมมติว่าเราจะดาวน์โหลดตารางนี้พร้อมหน้าเว็บไซต์ทั้งหมดของเราและประเภท JSON-LD เราสามารถไปที่เซลล์นี้หรือใครก็ได้ที่คุณต้องการ จากนั้นเราจะสร้างโค้ดบรรทัดใหม่

เราจำเป็นต้องใช้บางอย่างจาก Google Colab ที่เรียกว่าไฟล์นำเข้า นั่นคือสิ่งแรกที่เราจะทำ ต่อไป เราจะหา data frame นี้ ซึ่งก็คือ JSON-DF เราจะเพิ่มสิ่งนี้ด้านล่างและพูดว่า .2_CSV จากนั้นเราจะตั้งชื่อให้ เราสามารถเรียกสิ่งนี้ว่า JSON_DF.CSV เมื่อคุณพิมพ์รหัสนี้แล้ว แสดงว่าคุณได้สร้างไฟล์ CSV แล้ว ถ้าฉันดูที่โฟลเดอร์นี้ คุณจะเห็นไฟล์ตรงนี้

จากที่นี่ ฉันสามารถดำเนินการต่อเพื่อดาวน์โหลด หรืออาจใส่โค้ดที่ช่วยให้เราดาวน์โหลดได้เร็วขึ้น ฉันสามารถพูดว่า files.download แล้วฉันก็เรียกไฟล์นี้ซึ่งฉันเพิ่งสร้างขึ้นมา และขอให้ Colab ดาวน์โหลดไฟล์ให้ฉันโดยตรง เมื่อฉันเรียกใช้เซลล์นี้ มันจะดาวน์โหลดไฟล์นั้น และที่นี่ฉันมีมัน ฉันสามารถไปข้างหน้า คลิกเปิด และตอนนี้ฉันมีไฟล์ CSV ที่ฉันสามารถทำทุกอย่างที่ต้องการด้วยเครื่องมือสเปรดชีตชนิดใดก็ได้ที่ฉันมี ฉันยังสามารถเห็นสิ่งที่อาจขาดหายไป

ที่นั่นคุณมีมัน เราได้ดำเนินการและได้สร้างโปรแกรมรวบรวมข้อมูลของเราเอง เราได้ดึงข้อมูลที่กำหนดเองบางส่วน เราได้เห็นภาพข้อมูลนั้นแล้ว และเราได้ดาวน์โหลดข้อมูลนั้นเพื่อใช้ในโปรแกรมอื่น เราทำมาทั้งหมดแล้ว และฉันก็ไม่ใช่โปรแกรมเมอร์คอมพิวเตอร์ ฉันไม่พยายามแสร้งทำเป็นเป็นเหมือนกัน อย่างที่ฉันพูดไปก่อนหน้านี้ ฉันแค่คัดลอกและวางได้ดี พวกคุณสามารถเข้าใจสิ่งเหล่านี้ได้เช่นกัน

เมื่อคุณมีคำถาม ย่อมมีทางออกที่ดีเสมอ หากคุณอยากลองสิ่งใหม่ๆ และแตกต่าง เราขอแนะนำให้คุณลองเล่นใน Colab มีทรัพยากรที่ยอดเยี่ยมมากมาย มีผู้คนมากมายที่ฉลาดกว่าฉันมากในการทำสิ่งที่น่าทึ่งมากกว่านั้น ซึ่งฉันได้เรียนรู้อะไรมากมายจากมัน และได้ช่วยฉันในเกมการตลาด การวิจัย การรวบรวมข้อมูล และอื่นๆ อีกมากมาย

หากคุณมีคำถามเกี่ยวกับสิ่งที่เราทำในวันนี้ โปรดแสดงความคิดเห็นด้านล่าง ฉันจะให้สิทธิ์เข้าถึงไฟล์ CoLab เฉพาะนี้ด้วย และฉันจะแชร์โค้ดที่เราใช้ไปทีละขั้นตอนทีละขั้นตอน ขอบคุณมากสำหรับการรับชม อย่าลืมสมัครสมาชิกและจนกว่าจะถึงครั้งต่อไปการตลาดที่มีความสุข

นี่คือรหัสเต็มหากคุณสนใจ: