Structure de données BigQuery dans Google : comment démarrer avec le stockage dans le cloud

Publié: 2022-04-12

Google BigQuery est un service de stockage dans le cloud qui vous permet de collecter toutes vos données dans un seul système et de les analyser facilement à l'aide de requêtes SQL. Pour que les données soient pratiques à utiliser, elles doivent être correctement structurées. Dans cet article, nous expliquerons comment créer des tables et des ensembles de données à télécharger sur Google BigQuery.

Table des matières

  • Ensembles de données : de quoi s'agit-il et comment en créer un
  • Comment ajouter une table pour charger des données dans Google BigQuery
  • Comment apporter des modifications au schéma de table
  • Exporter et importer des données depuis/vers Google BigQuery
  • Exporter et importer des données à l'aide d'un module complémentaire d'OWOX BI
  • Pourquoi collecter des données dans Google BigQuery ?
bonus pour les lecteurs

Meilleurs cas de marketing OWOX BI

Télécharger maintenant

Ensembles de données : de quoi s'agit-il et comment en créer un

Pour utiliser Google BigQuery, vous devez créer un projet dans Google Cloud Platform (GCP). Lors de votre inscription, vous aurez accès à tous les produits Cloud Platform pendant une période d'essai gratuite et 300 $ à dépenser sur ces produits au cours des 12 prochains mois.

Après avoir créé un projet dans Google Cloud Platform, vous devez ajouter au moins un ensemble de données à Google BigQuery.

Un jeu de données est un conteneur de niveau supérieur utilisé pour organiser et contrôler l'accès à vos données. En termes simples, c'est une sorte de dossier dans lequel vos informations sont stockées sous forme de tableaux et de vues.

Ouvrez votre projet dans GCP, accédez à l'onglet BigQuery , puis cliquez sur Créer un ensemble de données :

Dans la fenêtre qui s'ouvre, indiquez un nom pour le jeu de données et la durée de conservation d'une table. Si vous souhaitez que les tables contenant des données soient supprimées automatiquement, spécifiez quand exactement. Ou laissez l'option Perpétuel par défaut afin que les tables ne puissent être supprimées que manuellement.

Le champ Site de traitement est facultatif. Par défaut, il est défini sur multirégion US. Vous pouvez trouver plus d'informations sur les régions de stockage des données dans la section d'aide.

Comment ajouter une table pour charger des données dans Google BigQuery

Après avoir créé un jeu de données, vous devez ajouter une table dans laquelle les données seront collectées. Un tableau est un ensemble de lignes. Chaque ligne est constituée de colonnes, également appelées champs. Il existe plusieurs façons de créer une table dans BigQuery en fonction de la source de données :

  • Créer manuellement une table vide et configurer un schéma de données pour celle-ci
  • Créer une table en utilisant le résultat d'une requête SQL précédemment calculée
  • Téléchargez un fichier depuis votre ordinateur (au format CSV, AVRO, JSON, Parquet, ORC ou Google Sheets)
  • Au lieu de télécharger ou de diffuser des données, vous pouvez créer une table faisant référence à une source externe : Cloud Bigtable, Cloud Storage ou Google Drive.

Dans cet article, nous allons détailler la première méthode : créer une table manuellement.

Étape 1 . Sélectionnez le jeu de données auquel vous souhaitez ajouter la table, puis cliquez sur Créer une table :

Étape 2. Dans le champ Source, sélectionnez Table vide et, dans le champ Type de table , sélectionnez Table dans le format natif de l'objet cible. Trouvez un nom pour la table.

Important : Les noms des jeux de données, des tables et des champs doivent être en caractères latins et ne contenir que des lettres, des chiffres et des traits de soulignement.

Étape 3 . Spécifiez le schéma de table. Le schéma se compose de quatre composants : deux obligatoires (nom de colonne et type de données) et deux facultatifs (mode de colonne et description). Des types et des modes de champ correctement sélectionnés faciliteront le travail avec les données.

Exemple de schéma dans BigQuery :

Noms de colonne
Dans le nom de la colonne, vous devez spécifier le paramètre dont chaque colonne est responsable : date, user_id, produits, etc. Les titres ne peuvent contenir que des lettres latines, des chiffres et des traits de soulignement (maximum 128 caractères). Les noms de champs identiques ne sont pas autorisés, même si leur casse est différente.

Type de données
Lors de la création d'une table dans BigQuery, vous pouvez utiliser les types de champs suivants :

Modes
BigQuery est compatible avec les modes suivants pour les colonnes de table :

Note : Il n'est pas nécessaire de renseigner le champ Mode. Si aucun mode n'est spécifié, la colonne par défaut est NULLABLE.

Description des colonnes
Si vous le souhaitez, vous pouvez ajouter une courte description (pas plus de 1024 caractères) pour chaque colonne du tableau afin d'expliquer ce que signifie un paramètre particulier.

Lorsque vous créez une table vide dans BigQuery, vous devez définir le schéma manuellement. Ceci peut être fait de deux façons:
1. Cliquez sur le bouton Ajouter un champ et remplissez le nom, le type et le mode pour chaque colonne.

2. Entrez le schéma de table en tant que tableau JSON à l'aide du commutateur Modifier en tant que texte .

De plus, Google BigQuery peut utiliser la détection automatique de schéma lors du chargement de données à partir de fichiers CSV et JSON.

Cette option fonctionne sur le principe suivant : BigQuery sélectionne un fichier aléatoire à partir de la source que vous spécifiez, analyse jusqu'à 100 lignes de données et utilise les résultats comme échantillon représentatif. Il vérifie ensuite chaque champ du fichier téléchargé et tente de lui attribuer un type de données en fonction des valeurs de l'échantillon.

Lors du chargement de fichiers Google, BigQuery peut modifier le nom d'une colonne pour la rendre compatible avec sa propre syntaxe SQL. Par conséquent, nous vous recommandons de télécharger des tables avec des noms de champs en anglais ; si les noms sont en russe, par exemple, le système les renommera automatiquement. Par example:

Si, lors du chargement des données, les noms des colonnes ont été saisis de manière incorrecte ou si vous souhaitez modifier les noms et les types des colonnes dans une table existante, vous pouvez le faire manuellement. Nous vous dirons comment.

Comment apporter des modifications au schéma de table

Après le chargement des données dans Google BigQuery, la disposition du tableau peut être légèrement différente de l'original. Par exemple, un nom de champ peut avoir changé en raison d'un caractère non pris en charge dans BigQuery, ou le type de champ peut être INTEGER au lieu de STRING. Dans ce cas, vous pouvez ajuster manuellement le schéma.

Comment changer un nom de colonne

À l'aide d'une requête SQL, sélectionnez toutes les colonnes de la table et spécifiez un nouveau nom pour la colonne que vous souhaitez renommer. Dans ce cas, vous pouvez écraser la table existante ou en créer une nouvelle. Exemples de demandes :

    #legacySQL Select date, order_id, order___________ as order_type, -- new field name product_id from [project_name:dataset_name.owoxbi_sessions_20190314]
#legacySQL Select date, order_id, order___________ as order_type, -- new field name product_id from [project_name:dataset_name.owoxbi_sessions_20190314]
    #standardSQL Select * EXCEPT (orotp, ddat), orotp as order_id, ddat as date from `project_name.dataset_name.owoxbi_sessions_20190314`
#standardSQL Select * EXCEPT (orotp, ddat), orotp as order_id, ddat as date from `project_name.dataset_name.owoxbi_sessions_20190314`

Comment apporter des modifications au type de données dans le schéma

À l'aide d'une requête SQL, sélectionnez toutes les données d'une table et convertissez la colonne correspondante en un type de données différent. Vous pouvez utiliser les résultats de la requête pour remplacer une table existante ou en créer une nouvelle. Exemple de demande :

    #standardSQL Select CAST (order_id as STRING) as order_id, CAST (date as TIMESTAMP) as date from `project_name.dataset_name.owoxbi_sessions_20190314`
#standardSQL Select CAST (order_id as STRING) as order_id, CAST (date as TIMESTAMP) as date from `project_name.dataset_name.owoxbi_sessions_20190314`

Comment changer le mode colonne

Vous pouvez modifier le mode de colonne de REQUIRED à NULLABLE comme décrit dans la documentation d'aide. La deuxième option consiste à exporter les données vers Cloud Storage et à partir de là, à les renvoyer à BigQuery avec le mode correct pour toutes les colonnes.

Comment supprimer une colonne du schéma de données

Utilisez la requête SELECT * EXCEPT pour exclure une colonne (ou des colonnes), puis écrivez les résultats de la requête dans l'ancienne table ou créez-en une nouvelle. Exemple de demande :

    #standardSQL Select * EXCEPT (order_id) from `project_name.dataset_name.owoxbi_sessions_20190314`
#standardSQL Select * EXCEPT (order_id) from `project_name.dataset_name.owoxbi_sessions_20190314`

De plus, il existe une deuxième façon de modifier le schéma qui convient à toutes les tâches décrites ci-dessus : exporter des données et les charger dans une nouvelle table. Pour renommer une colonne, vous pouvez importer des données de BigQuery vers Cloud Storage, puis les exporter de Cloud Storage vers BigQuery dans une nouvelle table ou écraser les données de l'ancienne table à l'aide des paramètres avancés :

Vous pouvez en savoir plus sur les autres façons de modifier la structure du tableau dans la documentation d'aide de Google Cloud Platform.

Exporter et importer des données depuis/vers Google BigQuery

Vous pouvez télécharger et importer des données depuis et vers BigQuery sans l'aide de développeurs via l'interface ou un module complémentaire spécial d'OWOX BI. Examinons chaque méthode en détail.

Importer des données via l'interface Google BigQuery

Pour importer les informations nécessaires dans le stockage (par exemple, des données sur les utilisateurs et les commandes hors ligne), ouvrez votre ensemble de données, cliquez sur Créer une table et sélectionnez la source de données : Cloud Storage, votre ordinateur, Google Drive ou Cloud Bigtable. Spécifiez le chemin d'accès au fichier, son format et le nom de la table où les données seront chargées :

Après avoir cliqué sur Créer une table, une table apparaîtra dans votre jeu de données.

Exporter des données via l'interface Google BigQuery

Il est également possible de télécharger des données traitées à partir de BigQuery, par exemple pour créer un rapport via l'interface système. Pour ce faire, ouvrez le tableau souhaité avec les données et cliquez sur le bouton Exporter :

Le système offrira deux options : afficher les données dans Google Data Studio ou les télécharger sur Google Cloud Storage. Si vous sélectionnez la première option, vous accéderez immédiatement à Data Studio, où vous pourrez enregistrer le rapport.

Choisir d'exporter vers Google Cloud Storage ouvrira une nouvelle fenêtre. Dans celui-ci, vous devez spécifier où enregistrer les données et dans quel format.

Exporter et importer des données à l'aide d'un module complémentaire d'OWOX BI

Le module complémentaire gratuit OWOX BI BigQuery Reports vous permet de transférer rapidement et facilement des données directement de Google BigQuery vers Google Sheets et vice versa. Ainsi, vous n'avez pas besoin de préparer des fichiers CSV ou d'utiliser des services tiers payants.

Par exemple, imaginons que vous souhaitiez importer des données de commande hors ligne dans BigQuery pour créer un rapport ROPO. Pour cela, vous devrez :

  1. Installez le module complémentaire BigQuery Reports dans votre navigateur.
  2. Ouvrez votre fichier de données dans Google Sheets et dans l'onglet Add-ons , sélectionnez OWOX BI BigQuery Reports → Upload data to BigQuery.
  3. Dans la fenêtre qui s'ouvre, sélectionnez votre projet et votre ensemble de données dans BigQuery, puis saisissez le nom souhaité pour la table. Sélectionnez également les champs dont vous souhaitez charger les valeurs. Par défaut, le type de tous les champs est STRING, mais nous vous recommandons de choisir le type de données en fonction du contexte (par exemple, pour les champs avec des identifiants numériques, choisissez INTEGER ; pour les prix, FLOAT) :
  1. Cliquez sur le bouton Démarrer le téléchargement et vos données seront chargées dans Google BigQuery​

Vous pouvez également utiliser ce module complémentaire pour exporter des données de BigQuery vers Google Sheets, par exemple pour visualiser des données ou les partager avec des collègues qui n'ont pas accès à BigQuery. Pour ça:

  1. Ouvrez Google Sheets. Dans l'onglet Modules complémentaires , sélectionnez Rapports OWOX BI BigQuery → Ajouter un nouveau rapport :
  1. Entrez ensuite votre projet dans Google BigQuery et sélectionnez Ajouter une nouvelle requête.
  2. Dans la nouvelle fenêtre, insérez votre requête SQL. Il peut s'agir d'une requête qui importe des données d'une table vers BigQuery ou d'une requête qui extrait et calcule les données nécessaires.
  3. Renommez la requête pour faciliter sa recherche et lancez-la en cliquant sur le bouton Enregistrer et exécuter.

Pour importer régulièrement des données de BigQuery vers Google Sheets, vous pouvez activer les mises à jour de données planifiées :

  1. Dans l'onglet Add-ons , sélectionnez OWOX BI BigQuery ReportsSchedule report :
  1. Dans la fenêtre qui s'ouvre, définissez l'heure et la fréquence des mises à jour du rapport et cliquez sur Enregistrer :

Pourquoi collecter des données dans Google BigQuery ?

Si vous n'avez pas encore apprécié les avantages du stockage cloud Google BigQuery, nous vous recommandons de l'essayer. Avec l'aide d'OWOX BI, vous pouvez combiner les données de votre site Web, de vos sources publicitaires et de vos systèmes CRM internes dans BigQuery afin de :

  • Configurez des analyses de bout en bout et découvrez le retour réel sur votre marketing, en tenant compte des commandes hors ligne, des retours et de toutes les étapes de l'utilisateur sur le chemin d'un achat ;
  • Créer des rapports sur des données complètes non échantillonnées avec tous les paramètres et indicateurs ;
  • Évaluer les canaux d'acquisition de clients à l'aide d'analyses de cohorte ;
  • Découvrez l'impact de votre publicité en ligne sur les ventes hors ligne ;
  • Réduisez la part des coûts publicitaires, prolongez le cycle de vie des clients et augmentez la LTV de votre clientèle dans son ensemble ;
  • Segmentez les clients en fonction de leur activité et personnalisez la communication avec eux.

OWOX BI dispose d'une période d'essai gratuite pendant laquelle vous pouvez essayer toutes les fonctionnalités du service.

ESSAYEZ OWOX BI