โครงสร้างข้อมูล BigQuery ใน Google: วิธีเริ่มต้นใช้งานที่เก็บข้อมูลบนคลาวด์

เผยแพร่แล้ว: 2022-04-12

Google BigQuery เป็นบริการพื้นที่เก็บข้อมูลบนคลาวด์ที่ให้คุณรวบรวมข้อมูลทั้งหมดของคุณในระบบเดียวและวิเคราะห์ได้อย่างง่ายดายโดยใช้การสืบค้น SQL เพื่อให้ข้อมูลสะดวกในการใช้งาน ควรจัดโครงสร้างให้ถูกต้อง ในบทความนี้ เราจะอธิบายวิธีสร้างตารางและชุดข้อมูลสำหรับการอัปโหลดไปยัง Google BigQuery

สารบัญ

  • ชุดข้อมูล: มันคืออะไรและจะสร้างได้อย่างไร
  • วิธีเพิ่มตารางเพื่อโหลดข้อมูลลงใน Google BigQuery
  • วิธีเปลี่ยนแปลงสคีมาของตาราง
  • ส่งออกและนำเข้าข้อมูลจาก/ไปยัง Google BigQuery
  • ส่งออกและนำเข้าข้อมูลโดยใช้โปรแกรมเสริมจาก OWOX BI
  • เหตุใดจึงต้องรวบรวมข้อมูลใน Google BigQuery
โบนัสสำหรับผู้อ่าน

สุดยอดเคสการตลาด OWOX BI

ดาวน์โหลด เลย

ชุดข้อมูล: มันคืออะไรและจะสร้างได้อย่างไร

หากต้องการใช้ Google BigQuery คุณต้องสร้างโครงการใน Google Cloud Platform (GCP) เมื่อลงทะเบียน คุณจะได้รับสิทธิ์เข้าถึงผลิตภัณฑ์ Cloud Platform ทั้งหมดในช่วงทดลองใช้งานฟรี และ $300 เพื่อใช้จ่ายในผลิตภัณฑ์เหล่านี้ภายใน 12 เดือนข้างหน้า

หลังจากสร้างโปรเจ็กต์ใน Google Cloud Platform แล้ว คุณต้องเพิ่มชุดข้อมูลอย่างน้อยหนึ่งชุดใน Google BigQuery

ชุดข้อมูลคือคอนเทนเนอร์ระดับบนสุดที่ใช้ในการจัดระเบียบและควบคุมการเข้าถึงข้อมูลของคุณ พูดง่ายๆ ก็คือ เป็นโฟลเดอร์ประเภทหนึ่งที่ข้อมูลของคุณถูกจัดเก็บไว้ในรูปแบบของตารางและมุมมอง

เปิดโครงการของคุณใน GCP ไปที่แท็บ BigQuery แล้วคลิก สร้างชุดข้อมูล :

ในหน้าต่างที่เปิดขึ้น ให้ระบุชื่อสำหรับชุดข้อมูลและอายุการเก็บรักษาของตาราง หากคุณต้องการให้ลบตารางที่มีข้อมูลโดยอัตโนมัติ ให้ระบุเวลาที่แน่นอน หรือปล่อยให้ ตัวเลือกถาวร เริ่มต้นเพื่อให้สามารถลบตารางด้วยตนเองได้เท่านั้น

ฟิลด์ ไซต์การประมวลผล เป็นทางเลือก โดยค่าเริ่มต้น จะถูกตั้งค่าเป็นหลายภูมิภาคของสหรัฐอเมริกา คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับภูมิภาคสำหรับการจัดเก็บข้อมูลได้ในส่วนวิธีใช้

วิธีเพิ่มตารางเพื่อโหลดข้อมูลลงใน Google BigQuery

หลังจากสร้างชุดข้อมูลแล้ว คุณต้องเพิ่มตารางที่จะรวบรวมข้อมูล ตารางคือชุดของแถว แต่ละแถวประกอบด้วยคอลัมน์ซึ่งเรียกอีกอย่างว่าฟิลด์ มีหลายวิธีในการสร้างตารางใน BigQuery ขึ้นอยู่กับแหล่งข้อมูล:

  • สร้างตารางว่างด้วยตนเองและตั้งค่า data schema สำหรับมัน
  • สร้างตารางโดยใช้ผลลัพธ์ของแบบสอบถาม SQL ที่คำนวณก่อนหน้านี้
  • อัปโหลดไฟล์จากคอมพิวเตอร์ของคุณ (ในรูปแบบ CSV, AVRO, JSON, Parquet, ORC หรือ Google ชีต)
  • แทนที่จะดาวน์โหลดหรือสตรีมข้อมูล คุณสามารถสร้างตารางที่อ้างถึงแหล่งที่มาภายนอก: Cloud Bigtable, Cloud Storage หรือ Google Drive

ในบทความนี้ เราจะพิจารณาวิธีแรกอย่างละเอียดยิ่งขึ้น: การสร้างตารางด้วยตนเอง

ขั้นตอนที่ 1 . เลือกชุดข้อมูลที่คุณต้องการเพิ่มตาราง จากนั้นคลิก Create Table :

ขั้นตอนที่ 2 ในฟิลด์ Source เลือก Empty Table และในฟิลด์ Table Type เลือก Table ในรูปแบบดั้งเดิมของวัตถุเป้าหมาย มาคิดชื่อโต๊ะกันเถอะ

สำคัญ : ชื่อของชุดข้อมูล ตาราง และฟิลด์ต้องเป็นอักขระละตินและมีเฉพาะตัวอักษร ตัวเลข และขีดล่างเท่านั้น

ขั้นตอนที่ 3 ระบุสคีมาของตาราง สคีมาประกอบด้วยสี่องค์ประกอบ: สองส่วนบังคับ (ชื่อคอลัมน์และชนิดข้อมูล) และสองทางเลือก (โหมดคอลัมน์และคำอธิบาย) ประเภทและโหมดฟิลด์ที่เลือกอย่างเหมาะสมจะอำนวยความสะดวกในการทำงานกับข้อมูล

ตัวอย่างสคีมาใน BigQuery:

ชื่อคอลัมน์
ในชื่อคอลัมน์ คุณต้องระบุพารามิเตอร์ที่แต่ละคอลัมน์รับผิดชอบ: วันที่ user_id ผลิตภัณฑ์ ฯลฯ ชื่อสามารถมีได้เฉพาะตัวอักษรละติน ตัวเลข และขีดล่าง (สูงสุด 128 อักขระ) ไม่อนุญาตให้ใช้ชื่อฟิลด์ที่เหมือนกัน แม้ว่ากรณีจะต่างกัน

ชนิด ข้อมูล
เมื่อสร้างตารางใน BigQuery คุณสามารถใช้ประเภทฟิลด์ต่อไปนี้:

โหมด
BigQuery รองรับโหมดต่อไปนี้สำหรับคอลัมน์ตาราง:

หมายเหตุ : ไม่จำเป็นต้องกรอกข้อมูลในช่องโหมด หากไม่ได้ระบุโหมดไว้ คอลัมน์เริ่มต้นจะเป็น NULLABLE

คำอธิบายคอลัมน์
หากต้องการ คุณสามารถเพิ่มคำอธิบายสั้นๆ (ไม่เกิน 1,024 อักขระ) สำหรับแต่ละคอลัมน์ในตารางเพื่ออธิบายว่าพารามิเตอร์ใดหมายถึงอะไร

เมื่อคุณสร้างตารางเปล่าใน BigQuery คุณต้องตั้งค่าสคีมาด้วยตนเอง สามารถทำได้สองวิธี:
1. คลิกปุ่ม เพิ่มฟิลด์ และกรอกชื่อ ประเภท และโหมดสำหรับแต่ละคอลัมน์

2. ป้อนสคีมาของตารางเป็นอาร์เรย์ JSON โดยใช้สวิตช์ แก้ไขเป็นข้อความ

นอกจากนี้ Google BigQuery ยังใช้การตรวจหาสคีมาอัตโนมัติเมื่อโหลดข้อมูลจากไฟล์ CSV และ JSON ได้อีกด้วย

ตัวเลือกนี้ทำงานบนหลักการต่อไปนี้: BigQuery จะเลือกไฟล์สุ่มจากแหล่งที่มาที่คุณระบุ สแกนข้อมูลในไฟล์สูงสุด 100 แถว และใช้ผลลัพธ์เป็นตัวอย่างที่เป็นตัวแทน จากนั้นจะตรวจสอบแต่ละฟิลด์ในไฟล์ที่อัปโหลดและพยายามกำหนดประเภทข้อมูลตามค่าในตัวอย่าง

เมื่อโหลดไฟล์ Google BigQuery สามารถเปลี่ยนชื่อคอลัมน์เพื่อให้เข้ากันได้กับไวยากรณ์ SQL ของตัวเอง ดังนั้น เราขอแนะนำให้คุณอัปโหลดตารางที่มีชื่อฟิลด์ภาษาอังกฤษ เช่น หากชื่อเป็นภาษารัสเซีย ระบบจะเปลี่ยนชื่อโดยอัตโนมัติ ตัวอย่างเช่น:

หากเมื่อโหลดข้อมูล ชื่อของคอลัมน์ถูกป้อนอย่างไม่ถูกต้อง หรือคุณต้องการเปลี่ยนชื่อและประเภทของคอลัมน์ในตารางที่มีอยู่ คุณสามารถทำได้ด้วยตนเอง เราจะบอกคุณว่าอย่างไร

วิธีเปลี่ยนแปลงสคีมาของตาราง

หลังจากโหลดข้อมูลลงใน Google BigQuery แล้ว เลย์เอาต์ตารางอาจแตกต่างไปจากเดิมเล็กน้อย ตัวอย่างเช่น ชื่อช่องอาจเปลี่ยนไปเนื่องจากอักขระที่ไม่รองรับใน BigQuery หรือประเภทช่องอาจเป็น INTEGER แทนที่จะเป็น STRING ในกรณีนี้ คุณสามารถปรับสคีมาได้ด้วยตนเอง

วิธีเปลี่ยนชื่อคอลัมน์

ใช้แบบสอบถาม SQL เลือกคอลัมน์ทั้งหมดในตารางและระบุชื่อใหม่สำหรับคอลัมน์ที่คุณต้องการเปลี่ยนชื่อ ในกรณีนี้ คุณสามารถเขียนทับตารางที่มีอยู่หรือสร้างตารางใหม่ได้ ขอตัวอย่าง:

    #legacySQL Select date, order_id, order___________ as order_type, -- new field name product_id from [project_name:dataset_name.owoxbi_sessions_20190314]
#legacySQL Select date, order_id, order___________ as order_type, -- new field name product_id from [project_name:dataset_name.owoxbi_sessions_20190314]
    #standardSQL Select * EXCEPT (orotp, ddat), orotp as order_id, ddat as date from `project_name.dataset_name.owoxbi_sessions_20190314`
#standardSQL Select * EXCEPT (orotp, ddat), orotp as order_id, ddat as date from `project_name.dataset_name.owoxbi_sessions_20190314`

วิธีเปลี่ยนแปลงประเภทข้อมูลในสคีมา

ใช้แบบสอบถาม SQL เลือกข้อมูลทั้งหมดจากตารางและแปลงคอลัมน์ที่เกี่ยวข้องเป็นชนิดข้อมูลอื่น คุณสามารถใช้ผลลัพธ์คิวรีเพื่อเขียนทับตารางที่มีอยู่หรือสร้างตารางใหม่ ขอตัวอย่าง:

    #standardSQL Select CAST (order_id as STRING) as order_id, CAST (date as TIMESTAMP) as date from `project_name.dataset_name.owoxbi_sessions_20190314`
#standardSQL Select CAST (order_id as STRING) as order_id, CAST (date as TIMESTAMP) as date from `project_name.dataset_name.owoxbi_sessions_20190314`

วิธีเปลี่ยนโหมดคอลัมน์

คุณสามารถเปลี่ยนโหมดคอลัมน์จาก REQUIRED เป็น NULLABLE ตามที่อธิบายไว้ในเอกสารวิธีใช้ ตัวเลือกที่ 2 คือการส่งออกข้อมูลไปยัง Cloud Storage จากนั้นส่งคืนไปยัง BigQuery ด้วยโหมดที่ถูกต้องสำหรับทุกคอลัมน์

วิธีลบคอลัมน์ออกจาก data schema

ใช้การสืบค้น SELECT * EXCEPT เพื่อยกเว้นคอลัมน์ (หรือคอลัมน์) จากนั้นเขียนผลลัพธ์การสืบค้นลงในตารางเก่าหรือสร้างใหม่ ขอตัวอย่าง:

    #standardSQL Select * EXCEPT (order_id) from `project_name.dataset_name.owoxbi_sessions_20190314`
#standardSQL Select * EXCEPT (order_id) from `project_name.dataset_name.owoxbi_sessions_20190314`

นอกจากนี้ยังมีวิธีที่สองในการเปลี่ยนสคีมาที่เหมาะกับงานทั้งหมดที่อธิบายไว้ข้างต้น นั่นคือ ส่งออกข้อมูลและโหลดลงในตารางใหม่ หากต้องการเปลี่ยนชื่อคอลัมน์ คุณสามารถอัปโหลดข้อมูลจาก BigQuery ไปยัง Cloud Storage จากนั้นส่งออกจาก Cloud Storage ไปยัง BigQuery ในตารางใหม่หรือเขียนทับข้อมูลในตารางเก่าโดยใช้พารามิเตอร์ขั้นสูง ดังนี้

คุณสามารถอ่านเกี่ยวกับวิธีอื่นๆ ในการเปลี่ยนโครงสร้างตารางได้ในเอกสารช่วยเหลือของ Google Cloud Platform

ส่งออกและนำเข้าข้อมูลจาก/ไปยัง Google BigQuery

คุณสามารถดาวน์โหลดข้อมูลจากและอัปโหลดข้อมูลไปยัง BigQuery ได้โดยไม่ต้องใช้ความช่วยเหลือจากนักพัฒนาผ่านอินเทอร์เฟซหรือโปรแกรมเสริมพิเศษจาก OWOX BI ลองพิจารณาแต่ละวิธีโดยละเอียด

นำเข้าข้อมูลผ่านอินเทอร์เฟซ Google BigQuery

ในการอัปโหลดข้อมูลที่จำเป็นไปยังที่จัดเก็บข้อมูล เช่น ข้อมูลเกี่ยวกับผู้ใช้และคำสั่งซื้อออฟไลน์ ให้เปิดชุดข้อมูล คลิกสร้างตาราง แล้วเลือกแหล่งข้อมูล: Cloud Storage, คอมพิวเตอร์, Google Drive หรือ Cloud Bigtable ระบุพาธไปยังไฟล์ รูปแบบ และชื่อของตารางที่จะโหลดข้อมูล:

หลังจากที่คุณคลิกสร้างตาราง ตารางจะปรากฏในชุดข้อมูลของคุณ

ส่งออกข้อมูลผ่านอินเทอร์เฟซ Google BigQuery

นอกจากนี้ยังสามารถอัปโหลดข้อมูลที่ประมวลผลแล้วจาก BigQuery เช่น เพื่อสร้างรายงานผ่านอินเทอร์เฟซระบบ ในการดำเนินการนี้ ให้เปิดตารางที่ต้องการพร้อมข้อมูลแล้วคลิกปุ่มส่งออก:

ระบบจะเสนอสองตัวเลือก: ดูข้อมูลใน Google Data Studio หรืออัปโหลดไปยัง Google Cloud Storage หากคุณเลือกตัวเลือกแรก คุณจะไปที่ Data Studio ทันที ซึ่งคุณสามารถบันทึกรายงานได้

การเลือกส่งออกไปยัง Google Cloud Storage จะเปิดหน้าต่างใหม่ ในนั้นคุณต้องระบุตำแหน่งที่จะบันทึกข้อมูลและในรูปแบบใด

ส่งออกและนำเข้าข้อมูลโดยใช้โปรแกรมเสริมจาก OWOX BI

โปรแกรมเสริม OWOX BI BigQuery Reports ฟรีช่วยให้คุณโอนข้อมูลโดยตรงจาก Google BigQuery ไปยัง Google ชีตได้อย่างรวดเร็วและสะดวก และในทางกลับกัน ดังนั้น คุณไม่จำเป็นต้องเตรียมไฟล์ CSV หรือใช้บริการของบุคคลที่สามแบบชำระเงิน

ตัวอย่างเช่น สมมติว่าคุณต้องการอัปโหลดข้อมูลคำสั่งซื้อออฟไลน์ไปยัง BigQuery เพื่อสร้างรายงาน ROPO สำหรับสิ่งนี้ คุณจะต้อง:

  1. ติดตั้งส่วนเสริมรายงาน BigQuery ในเบราว์เซอร์ของคุณ
  2. เปิดไฟล์ข้อมูลของคุณใน Google ชีตและในแท็บ ส่วนเสริม เลือก OWOX BI BigQuery Reports → อัปโหลดข้อมูลไปยัง BigQuery
  3. ในหน้าต่างที่เปิดขึ้น ให้เลือกโปรเจ็กต์และชุดข้อมูลใน BigQuery แล้วป้อนชื่อที่ต้องการสำหรับตาราง นอกจากนี้ เลือกฟิลด์ที่มีค่าที่คุณต้องการโหลด โดยค่าเริ่มต้น ประเภทของฟิลด์ทั้งหมดคือ STRING แต่เราแนะนำให้เลือกประเภทข้อมูลตามบริบท (เช่น สำหรับฟิลด์ที่มีตัวระบุตัวเลข ให้เลือก INTEGER สำหรับราคา ให้ใช้ FLOAT):
  1. คลิกปุ่มเริ่มการอัปโหลด และข้อมูลของคุณจะถูกโหลดเข้าสู่ Google BigQuery​

คุณยังใช้ส่วนเสริมนี้เพื่อส่งออกข้อมูลจาก BigQuery ไปยัง Google ชีตได้ เช่น แสดงข้อมูลเป็นภาพหรือแชร์กับเพื่อนร่วมงานที่ไม่มีสิทธิ์เข้าถึง BigQuery สำหรับสิ่งนี้:

  1. เปิด Google ชีต ในแท็บ Add-on ให้เลือก OWOX BI BigQuery Reports → เพิ่มรายงานใหม่:
  1. จากนั้นเข้าสู่โครงการของคุณใน Google BigQuery แล้วเลือกเพิ่มการสืบค้นใหม่
  2. ในหน้าต่างใหม่ ให้แทรกคิวรี SQL ของคุณ นี่อาจเป็นคิวรีที่อัปโหลดข้อมูลจากตารางไปยัง BigQuery หรือคิวรีที่ดึงและคำนวณข้อมูลที่จำเป็น
  3. เปลี่ยนชื่อการสืบค้นเพื่อให้ค้นหาและเปิดใช้ได้ง่ายโดยคลิกปุ่มบันทึกและเรียกใช้

หากต้องการอัปโหลดข้อมูลจาก BigQuery ไปยัง Google ชีตเป็นประจำ คุณจะเปิดใช้การอัปเดตข้อมูลตามกำหนดเวลาได้ดังนี้

  1. ในแท็บ Add-on ให้เลือก OWOX BI BigQuery Reportsกำหนดเวลารายงาน :
  1. ในหน้าต่างที่เปิดขึ้น ตั้งเวลาและความถี่สำหรับการอัปเดตรายงาน แล้วคลิก บันทึก :

เหตุใดจึงต้องรวบรวมข้อมูลใน Google BigQuery

หากคุณยังไม่ได้ชื่นชมประโยชน์ของที่เก็บข้อมูลบนคลาวด์ของ Google BigQuery เราขอแนะนำให้ลองใช้ ด้วยความช่วยเหลือของ OWOX BI คุณสามารถรวมข้อมูลจากเว็บไซต์ของคุณ แหล่งโฆษณา และระบบ CRM ภายในลงใน BigQuery เพื่อ:

  • ตั้งค่าการวิเคราะห์แบบ end-to-end และค้นหาผลตอบแทนที่แท้จริงจากการตลาดของคุณ โดยคำนึงถึงคำสั่งซื้อออฟไลน์ การคืนสินค้า และขั้นตอนทั้งหมดของผู้ใช้ในการซื้อสินค้า
  • สร้างรายงานเกี่ยวกับข้อมูลที่ไม่ได้สุ่มตัวอย่างที่สมบูรณ์พร้อมพารามิเตอร์และตัวบ่งชี้ใดๆ
  • ประเมินช่องทางการได้มาซึ่งลูกค้าโดยใช้การวิเคราะห์ตามการได้มา
  • ค้นหาว่าการโฆษณาออนไลน์ของคุณส่งผลต่อการขายออฟไลน์อย่างไร
  • ลดส่วนแบ่งของค่าโฆษณา ขยายวงจรชีวิตของลูกค้า และเพิ่ม LTV ของฐานลูกค้าโดยรวม
  • แบ่งกลุ่มลูกค้าตามกิจกรรมของพวกเขาและปรับแต่งการสื่อสารกับพวกเขา

OWOX BI มีช่วงทดลองใช้งานฟรีซึ่งคุณสามารถลองใช้คุณสมบัติทั้งหมดของบริการได้

ลอง OWOX BI