Structura datelor BigQuery în Google: Cum să începeți cu stocarea în cloud
Publicat: 2022-04-12Google BigQuery este un serviciu de stocare în cloud care vă permite să vă colectați toate datele într-un singur sistem și să le analizați cu ușurință folosind interogări SQL. Pentru ca datele să fie convenabil de lucrat, acestea ar trebui să fie structurate corect. În acest articol, vom explica cum să creați tabele și seturi de date pentru încărcare în Google BigQuery.
Cuprins
- Seturi de date: ce sunt acestea și cum să creați unul
- Cum să adăugați un tabel pentru a încărca date în Google BigQuery
- Cum se efectuează modificări în schema tabelului
- Exportați și importați date din/în Google BigQuery
- Exportați și importați date folosind un add-on de la OWOX BI
- De ce să colectați date în Google BigQuery?


Cele mai bune cazuri de marketing OWOX BI
DescărcațiSeturi de date: ce sunt acestea și cum să creați unul
Pentru a utiliza Google BigQuery, trebuie să creați un proiect în Google Cloud Platform (GCP). La înregistrare, veți primi acces la toate produsele Cloud Platform în timpul unei perioade de probă gratuită și 300 USD pentru a cheltui pe aceste produse în următoarele 12 luni.

După ce creați un proiect în Google Cloud Platform, trebuie să adăugați cel puțin un set de date la Google BigQuery.
Un set de date este un container de nivel superior care este folosit pentru a organiza și controla accesul la datele dvs. În termeni simpli, este un fel de folder în care informațiile tale sunt stocate sub formă de tabele și vizualizări.
Deschideți proiectul în GCP, accesați fila BigQuery și faceți clic pe Creare set de date :

În fereastra care se deschide, specificați un nume pentru setul de date și durata de valabilitate a unui tabel. Dacă doriți ca tabelele cu date să fie șterse automat, specificați când exact. Sau lăsați opțiunea implicită Perpetuă, astfel încât tabelele să poată fi șterse numai manual.

Câmpul Site de procesare este opțional. În mod implicit, este setat la mai multe regiuni din SUA. Puteți găsi mai multe informații despre regiunile pentru stocarea datelor în secțiunea de ajutor.
Cum să adăugați un tabel pentru a încărca date în Google BigQuery
După crearea unui set de date, trebuie să adăugați un tabel la care vor fi colectate datele. Un tabel este un set de rânduri. Fiecare rând este format din coloane, care sunt numite și câmpuri. Există mai multe moduri de a crea un tabel în BigQuery, în funcție de sursa de date:
- Creați manual un tabel gol și configurați o schemă de date pentru acesta
- Creați un tabel folosind rezultatul unei interogări SQL calculate anterior
- Încărcați un fișier de pe computer (în format CSV, AVRO, JSON, Parquet, ORC sau Foi de calcul Google)
- În loc să descărcați sau să transmiteți date în flux, puteți crea un tabel care se referă la o sursă externă: Cloud Bigtable, Cloud Storage sau Google Drive.
În acest articol, vom arunca o privire mai atentă asupra primei metode: crearea manuală a unui tabel.
Pasul 1 . Selectați setul de date la care doriți să adăugați tabelul, apoi faceți clic pe Creare tabel :

Pasul 2. În câmpul Sursă, selectați Tabel gol , iar în câmpul Tip tabel , selectați Tabel în formatul nativ al obiectului țintă. Vino cu un nume pentru masă.
Important : numele seturilor de date, tabelelor și câmpurilor trebuie să fie în caractere latine și să conțină numai litere, cifre și litere de subliniere.

Pasul 3 . Specificați schema tabelului. Schema constă din patru componente: două obligatorii (numele coloanei și tipul de date) și două opționale (modul coloanei și descrierea). Tipurile și modurile de câmp selectate corespunzător vor facilita lucrul cu datele.
Exemplu de schemă în BigQuery:

Numele coloanelor
În numele coloanei, trebuie să specificați parametrul pentru care este responsabilă fiecare coloană: data, user_id, products etc. Titlurile pot conține doar litere latine, cifre și liniuțe de subliniere (maximum 128 de caractere). Nume de câmpuri identice nu sunt permise, chiar dacă litera lor este diferită.
Tip de date
Când creați un tabel în BigQuery, puteți utiliza următoarele tipuri de câmpuri:
Moduri
BigQuery acceptă următoarele moduri pentru coloanele de tabel:
Notă : Nu este necesar să completați câmpul Mod. Dacă nu este specificat niciun mod, coloana implicită este NULLABLE.
Descrierile coloanelor
Dacă doriți, puteți adăuga o scurtă descriere (nu mai mult de 1024 de caractere) pentru fiecare coloană din tabel pentru a explica ce înseamnă un anumit parametru.
Când creați un tabel gol în BigQuery, trebuie să setați schema manual. Acest lucru se poate face în două moduri:
1. Faceți clic pe butonul Adăugare câmp și completați numele, tipul și modul pentru fiecare coloană.
2. Introduceți schema tabelului ca matrice JSON utilizând comutatorul Editare ca text .
În plus, Google BigQuery poate folosi detectarea automată a schemei atunci când încarcă date din fișiere CSV și JSON.
Această opțiune funcționează pe următorul principiu: BigQuery selectează un fișier aleatoriu din sursa pe care o specificați, scanează până la 100 de rânduri de date din acesta și utilizează rezultatele ca un eșantion reprezentativ. Apoi verifică fiecare câmp din fișierul încărcat și încearcă să îi atribuie un tip de date pe baza valorilor din eșantion.
Când încarcă fișiere Google, BigQuery poate schimba numele unei coloane pentru a o face compatibilă cu propria sa sintaxă SQL. Prin urmare, vă recomandăm să încărcați tabele cu nume de câmpuri în limba engleză; dacă numele sunt în rusă, de exemplu, sistemul le va redenumi automat. De exemplu:

Dacă, la încărcarea datelor, numele coloanelor au fost introduse incorect sau doriți să schimbați numele și tipurile coloanelor dintr-un tabel existent, puteți face acest lucru manual. Vă vom spune cum.
Cum se efectuează modificări în schema tabelului
După încărcarea datelor în Google BigQuery, aspectul tabelului poate fi ușor diferit de cel original. De exemplu, este posibil ca numele unui câmp să se fi modificat din cauza unui caracter care nu este acceptat în BigQuery sau tipul câmpului poate fi INTEGER în loc de ȘIR. În acest caz, puteți ajusta manual schema.
Cum se schimbă numele unei coloane
Folosind o interogare SQL, selectați toate coloanele din tabel și specificați un nume nou pentru coloana pe care doriți să o redenumiți. În acest caz, puteți suprascrie tabelul existent sau puteți crea unul nou. Solicitați exemple:
#legacySQL Select date, order_id, order___________ as order_type, -- new field name product_id from [project_name:dataset_name.owoxbi_sessions_20190314]
#legacySQL Select date, order_id, order___________ as order_type, -- new field name product_id from [project_name:dataset_name.owoxbi_sessions_20190314]
#standardSQL Select * EXCEPT (orotp, ddat), orotp as order_id, ddat as date from `project_name.dataset_name.owoxbi_sessions_20190314`
#standardSQL Select * EXCEPT (orotp, ddat), orotp as order_id, ddat as date from `project_name.dataset_name.owoxbi_sessions_20190314`
Cum se efectuează modificări tipului de date din schemă
Folosind o interogare SQL, selectați toate datele dintr-un tabel și convertiți coloana corespunzătoare într-un tip de date diferit. Puteți utiliza rezultatele interogării pentru a suprascrie un tabel existent sau pentru a crea unul nou. Exemplu de solicitare:

#standardSQL Select CAST (order_id as STRING) as order_id, CAST (date as TIMESTAMP) as date from `project_name.dataset_name.owoxbi_sessions_20190314`
#standardSQL Select CAST (order_id as STRING) as order_id, CAST (date as TIMESTAMP) as date from `project_name.dataset_name.owoxbi_sessions_20190314`
Cum se schimbă modul coloanei
Puteți schimba modul coloanei de la REQUIRED la NULLABLE așa cum este descris în documentația de ajutor. A doua opțiune este să exportați datele în Cloud Storage și de acolo să le returnați la BigQuery cu modul corect pentru toate coloanele.
Cum să eliminați o coloană din schema de date
Utilizați interogarea SELECT * EXCEPT pentru a exclude o coloană (sau coloane), apoi scrieți rezultatele interogării în tabelul vechi sau creați unul nou. Exemplu de solicitare:
#standardSQL Select * EXCEPT (order_id) from `project_name.dataset_name.owoxbi_sessions_20190314`
#standardSQL Select * EXCEPT (order_id) from `project_name.dataset_name.owoxbi_sessions_20190314`
În plus, există o a doua modalitate de a schimba schema care este potrivită pentru toate sarcinile descrise mai sus: exportați datele și încărcați-le într-un tabel nou. Pentru a redenumi o coloană, puteți să încărcați date din BigQuery în Cloud Storage, apoi să le exportați din Cloud Storage în BigQuery într-un tabel nou sau să suprascrieți datele din vechiul tabel utilizând Parametrii avansați:

Puteți citi despre alte modalități de a modifica structura tabelului în documentația de ajutor Google Cloud Platform.
Exportați și importați date din/în Google BigQuery
Puteți descărca și încărca date în BigQuery fără ajutorul dezvoltatorilor prin intermediul interfeței sau al unui supliment special de la OWOX BI. Să luăm în considerare fiecare metodă în detaliu.
Importați date prin interfața Google BigQuery
Pentru a încărca informațiile necesare în stocare – de exemplu, date despre utilizatori și comenzi offline – deschideți setul de date, faceți clic pe Creare tabel și selectați sursa de date: Cloud Storage, computerul dvs., Google Drive sau Cloud Bigtable. Specificați calea către fișier, formatul acestuia și numele tabelului în care vor fi încărcate datele:

După ce faceți clic pe Creare tabel, va apărea un tabel în setul de date.
Exportați date prin interfața Google BigQuery
De asemenea, este posibil să încărcați date procesate din BigQuery – de exemplu, pentru a crea un raport prin interfața sistemului. Pentru a face acest lucru, deschideți tabelul dorit cu date și faceți clic pe butonul Export:

Sistemul va oferi două opțiuni: vizualizați datele în Google Data Studio sau încărcați-le în Google Cloud Storage. Dacă selectați prima opțiune, veți accesa imediat Data Studio, unde puteți salva raportul.
Dacă alegeți să exportați în Google Cloud Storage, se va deschide o nouă fereastră. În el, trebuie să specificați unde să salvați datele și în ce format.
Exportați și importați date folosind un add-on de la OWOX BI
Suplimentul gratuit OWOX BI BigQuery Reports vă permite să transferați rapid și convenabil date direct de la Google BigQuery la Google Sheets și invers. Astfel, nu trebuie să pregătiți fișiere CSV sau să utilizați servicii plătite de la terți.
De exemplu, să presupunem că doriți să încărcați date despre comandă offline în BigQuery pentru a crea un raport ROPO. Pentru aceasta, va trebui să:
- Instalați suplimentul BigQuery Reports în browser.
- Deschideți fișierul de date în Foi de calcul Google și, în fila Suplimente , selectați Rapoarte OWOX BI BigQuery → Încărcați date în BigQuery.
- În fereastra care se deschide, selectați proiectul și setul de date în BigQuery și introduceți numele dorit pentru tabel. De asemenea, selectați câmpurile ale căror valori doriți să le încărcați. În mod implicit, tipul tuturor câmpurilor este ȘIR, dar vă recomandăm să alegeți tipul de date în funcție de context (de exemplu, pentru câmpurile cu identificatori numerici, alegeți INTEGER; pentru prețuri, FLOAT):

- Faceți clic pe butonul Porniți încărcarea și datele dvs. vor fi încărcate în Google BigQuery
De asemenea, puteți utiliza acest supliment pentru a exporta date din BigQuery în Foi de calcul Google – de exemplu, pentru a vizualiza date sau pentru a le partaja colegilor care nu au acces la BigQuery. Pentru asta:
- Deschide Foi de calcul Google. În fila Suplimente , selectați Rapoarte OWOX BI BigQuery → Adăugați un nou raport:

- Apoi introduceți proiectul dvs. în Google BigQuery și selectați Adăugați o interogare nouă.
- În fereastra nouă, introduceți interogarea SQL. Aceasta poate fi o interogare care încarcă date dintr-un tabel în BigQuery sau o interogare care extrage și calculează datele necesare.
- Redenumiți interogarea pentru a o găsi și a lansa ușor făcând clic pe butonul Salvare și rulare.

Pentru a încărca în mod regulat date din BigQuery în Foi de calcul Google, puteți activa actualizările programate ale datelor:
- În fila Suplimente , selectați Rapoarte OWOX BI BigQuery → Programați raport :

- În fereastra care se deschide, setați ora și frecvența actualizărilor rapoartelor și faceți clic pe Salvare :

De ce să colectați date în Google BigQuery?
Dacă nu ați apreciat încă beneficiile stocării în cloud Google BigQuery, vă recomandăm să o încercați. Cu ajutorul OWOX BI, puteți combina datele de pe site-ul dvs. web, sursele de publicitate și sistemele CRM interne în BigQuery pentru a:
- Configurați analize end-to-end și aflați rentabilitatea reală a marketingului dvs., ținând cont de comenzile offline, retururile și toți pașii utilizatorilor pe drumul către o achiziție;
- Creați rapoarte privind datele complete neeșantionate cu orice parametri și indicatori;
- Evaluați canalele de achiziție de clienți utilizând analiza de cohortă;
- Aflați cum publicitatea dvs. online afectează vânzările offline;
- Reduceți ponderea costurilor de publicitate, extindeți ciclul de viață al clienților și creșteți LTV-ul bazei dvs. de clienți în ansamblu;
- Segmentați clienții în funcție de activitatea lor și personalizați comunicarea cu aceștia.
OWOX BI are o perioadă de probă gratuită în care poți încerca toate caracteristicile serviciului.