Qu'est-ce que le prétraitement des données ? 4 étapes cruciales pour bien faire les choses

Publié: 2021-08-06

Les données du monde réel sont dans la plupart des cas incomplètes, bruyantes et incohérentes.

Avec la génération de données en croissance exponentielle et le nombre croissant de sources de données hétérogènes, la probabilité de collecter des données anormales ou incorrectes est assez élevée.

Mais seules des données de haute qualité peuvent conduire à des modèles précis et, en fin de compte, à des prévisions précises. Il est donc crucial de traiter les données pour la meilleure qualité possible. Cette étape de traitement des données s'appelle le prétraitement des données , et c'est l'une des étapes essentielles de la science des données,   l'apprentissage automatique et l'intelligence artificielle.

Qu'est-ce que le prétraitement des données ?

Le prétraitement des données est le processus de transformation des données brutes en un format utile et compréhensible. Les données réelles ou brutes ont généralement un formatage incohérent, des erreurs humaines et peuvent également être incomplètes. Le prétraitement des données résout ces problèmes et rend les ensembles de données plus complets et efficaces pour effectuer l'analyse des données.

Il s'agit d'un processus crucial qui peut affecter le succès des projets d'exploration de données et d'apprentissage automatique. Cela accélère la découverte de connaissances à partir d'ensembles de données et peut finalement affecter les performances des modèles d'apprentissage automatique.

45%

du temps d'un data scientist est consacré aux tâches de préparation des données.

Source : Datanami

En d'autres termes, le prétraitement des données transforme les données en une forme sur laquelle les ordinateurs peuvent facilement travailler. Il facilite l'analyse ou la visualisation des données et augmente la précision et la vitesse des algorithmes d'apprentissage automatique qui s'entraînent sur les données.

Pourquoi le prétraitement des données est-il nécessaire ?

Comme vous le savez, une base de données est une collection de points de données. Les points de données sont également appelés observations, échantillons de données, événements et enregistrements.

Chaque échantillon est décrit à l'aide de différentes caractéristiques, également appelées caractéristiques ou attributs . Le prétraitement des données est essentiel pour construire efficacement des modèles avec ces fonctionnalités.

De nombreux problèmes peuvent survenir lors de la collecte de données. Vous devrez peut-être agréger des données provenant de différentes sources de données, ce qui entraînera des formats de données incompatibles, tels que des nombres entiers et flottants.

Conseil : Utilisez les fonctionnalités d'automatisation de   logiciel d'apprentissage automatique   et dites adieu à ces tâches fastidieuses.

Si vous agrégez des données provenant de deux ensembles de données indépendants ou plus, le champ de genre peut avoir deux valeurs différentes pour les hommes : homme et homme. De même, si vous agrégez des données provenant de dix ensembles de données différents, un champ présent dans huit d'entre eux peut manquer dans les deux autres.

En prétraitant les données, nous facilitons leur interprétation et leur utilisation. Ce processus élimine les incohérences ou les doublons dans les données, qui peuvent autrement affecter négativement la précision d'un modèle. Le prétraitement des données garantit également qu'il n'y a pas de valeurs incorrectes ou manquantes dues à une erreur humaine ou à des bogues. En bref, l'utilisation de techniques de prétraitement des données rend la base de données plus complète et précise.

Caractéristiques des données de qualité

Pour les algorithmes d'apprentissage automatique, rien n'est plus important que la qualité   données d'entraînement. Leurs performances ou leur exactitude dépendent de la pertinence, de la représentativité et de l'exhaustivité des données.

Avant d'examiner comment les données sont prétraitées, examinons certains facteurs contribuant à la qualité des données.

  • Précision : Comme son nom l'indique, la précision signifie que l'information est correcte. Les informations obsolètes, les fautes de frappe et les redondances peuvent affecter la précision d'un ensemble de données.
  • Cohérence : Les données ne doivent pas avoir de contradictions. Des données incohérentes peuvent vous donner des réponses différentes à la même question.
  • Complétude : l'ensemble de données ne doit pas contenir de champs incomplets ni de champs vides. Cette caractéristique permet aux scientifiques des données d'effectuer des analyses précises car ils ont accès à une image complète de la situation décrite par les données.
  • Validité : un ensemble de données est considéré comme valide si les échantillons de données apparaissent dans le format correct, se situent dans une plage spécifiée et sont du bon type. Les ensembles de données non valides sont difficiles à organiser et à analyser.
  • Actualité : Les données doivent être collectées dès que l'événement qu'elles représentent se produit. Au fil du temps, chaque ensemble de données devient moins précis et utile car il ne représente pas la réalité actuelle. Par conséquent, l'actualité et la pertinence des données sont une caractéristique essentielle de la qualité des données.

Les quatre étapes du prétraitement des données

Pour les modèles d'apprentissage automatique, les données sont du fourrage.

Un ensemble de formation incomplet peut entraîner des conséquences imprévues telles que des biais, entraînant un avantage ou un désavantage injuste pour un groupe particulier de personnes. Des données incomplètes ou incohérentes peuvent également affecter négativement les résultats des projets d'exploration de données. Pour résoudre ces problèmes, le processus de prétraitement des données est utilisé.

Il existe quatre étapes de traitement des données : nettoyage, intégration, réduction et transformation.

1. Nettoyage des données

Le nettoyage ou le nettoyage des données est le processus de nettoyage des ensembles de données en tenant compte des valeurs manquantes, en supprimant les valeurs aberrantes, en corrigeant les points de données incohérents et en lissant les données bruyantes. Essentiellement, le but du nettoyage des données est d'offrir des échantillons complets et précis pour les modèles d'apprentissage automatique.

Les techniques utilisées dans le nettoyage des données sont spécifiques aux préférences du data scientist et au problème qu'il essaie de résoudre. Voici un bref aperçu des problèmes résolus lors du nettoyage des données et des techniques impliquées.

Valeurs manquantes

Le problème des valeurs de données manquantes est assez courant. Cela peut se produire lors de la collecte de données ou en raison d'une règle de validation de données spécifique. Dans de tels cas, vous devez collecter des échantillons de données supplémentaires ou rechercher des ensembles de données supplémentaires.

Le problème des valeurs manquantes peut également survenir lorsque vous concaténez deux ensembles de données ou plus pour former un ensemble de données plus volumineux. Si tous les champs ne sont pas présents dans les deux ensembles de données, il est préférable de supprimer ces champs avant de fusionner.

Voici quelques façons de tenir compte des données manquantes :

  • Remplissez manuellement les valeurs manquantes. Cette approche peut être fastidieuse et chronophage et n'est pas recommandée pour les grands ensembles de données.
  • Utilisez une valeur standard pour remplacer la valeur de données manquante. Vous pouvez utiliser une constante globale telle que "inconnu" ou "N/A" pour remplacer la valeur manquante. Bien qu'il s'agisse d'une approche simple, elle n'est pas infaillible.
  • Remplissez la valeur manquante avec la valeur la plus probable. Pour prédire la valeur probable, vous pouvez utiliser des algorithmes comme   régression logistique   ou des arbres de décision.
  • Utilisez une tendance centrale pour remplacer la valeur manquante. La tendance centrale est la tendance d'une valeur à se regrouper autour de sa moyenne, de son mode ou de sa médiane.

Si 50 % des valeurs de l'une des lignes ou des colonnes de la base de données sont manquantes, il est préférable de supprimer la ligne ou la colonne entière, sauf s'il est possible de remplir les valeurs à l'aide de l'une des méthodes ci-dessus.

Données bruyantes

Une grande quantité de données sans signification est appelée bruit . Plus précisément, il s'agit de la variance aléatoire d'une variable mesurée ou de données ayant des valeurs d'attribut incorrectes. Le bruit comprend les points de données en double ou semi-dupliqués, les segments de données sans valeur pour un processus de recherche spécifique ou les champs d'informations indésirables.

Par exemple, si vous devez prédire si une personne peut conduire, les informations sur sa couleur de cheveux, sa taille ou son poids ne seront pas pertinentes.

Une valeur aberrante peut être traitée comme du bruit, bien que certains la considèrent comme un point de données valide. Supposons que vous entraîniez un algorithme pour détecter les tortues dans les images. L'ensemble de données d'images peut contenir des images de tortues étiquetées à tort comme des tortues. Cela peut être considéré comme du bruit.

Cependant, il peut y avoir une image de tortue qui ressemble plus à une tortue qu'à une tortue. Cet échantillon peut être considéré comme une valeur aberrante et pas nécessairement comme un bruit. C'est parce que nous voulons enseigner à l'algorithme toutes les manières possibles de détecter les tortues, et donc, l'écart par rapport au groupe est essentiel.

Pour les valeurs numériques, vous pouvez utiliser un nuage de points ou une boîte à moustaches pour identifier les valeurs aberrantes.

Voici quelques méthodes utilisées pour résoudre le problème du bruit :

  • Régression : L'analyse de régression peut aider à déterminer les variables qui ont un impact. Cela vous permettra de travailler uniquement avec les fonctionnalités essentielles au lieu d'analyser de gros volumes de données. La régression linéaire et la régression linéaire multiple peuvent être utilisées pour lisser les données.
  • Regroupement : les méthodes de regroupement peuvent être utilisées pour une collection de données triées. Ils lissent une valeur triée en examinant les valeurs qui l'entourent. Les valeurs triées sont ensuite divisées en "bacs", ce qui signifie trier les données en segments plus petits de la même taille. Il existe différentes techniques de regroupement, y compris le lissage par des moyens de bin et le lissage par des médianes de bin.
  • Clustering : les algorithmes de clustering tels que le clustering k-means peuvent être utilisés pour regrouper les données et détecter les valeurs aberrantes dans le processus.

2. Intégration des données

Étant donné que les données sont collectées à partir de diverses sources, l'intégration des données est un élément crucial de la préparation des données. L'intégration peut conduire à plusieurs points de données incohérents et redondants, conduisant finalement à des modèles avec une précision inférieure.

Voici quelques approches pour intégrer les données :

  • Consolidation des données : Les données sont physiquement rassemblées et stockées en un seul endroit. Le fait d'avoir toutes les données au même endroit augmente l'efficacité et la productivité. Cette étape consiste généralement à utiliser   logiciel d'entrepôt de données.
  • Virtualisation des données : dans cette approche, une interface fournit une vue unifiée et en temps réel des données provenant de plusieurs sources. En d'autres termes, les données peuvent être visualisées d'un point de vue unique.
  • Propagation des données : consiste à copier des données d'un emplacement à un autre à l'aide d'applications spécifiques. Ce processus peut être synchrone ou asynchrone et est généralement piloté par des événements.

3. Réduction des données

Comme son nom l'indique, la réduction des données est utilisée pour réduire la quantité de données et ainsi réduire les coûts associés à l'exploration ou à l'analyse des données.

Il offre une représentation condensée du jeu de données. Bien que cette étape réduise le volume, elle maintient l'intégrité des données d'origine. Cette étape de prétraitement des données est particulièrement cruciale lorsque l'on travaille avec des données volumineuses, car la quantité de données impliquées serait gigantesque.

Voici quelques techniques utilisées pour la réduction des données.

Réduction de la dimensionnalité

La réduction de dimensionnalité , également appelée réduction de dimension, réduit le nombre d'entités ou de variables d'entrée dans un jeu de données.

Le nombre d'entités ou de variables d'entrée d'un jeu de données est appelé sa dimensionnalité. Plus le nombre de fonctionnalités est élevé, plus il est difficile de visualiser l'ensemble de données d'apprentissage et de créer un modèle prédictif.

Dans certains cas, la plupart de ces attributs sont corrélés, donc redondants ; par conséquent, des algorithmes de réduction de dimensionnalité peuvent être utilisés pour réduire le nombre de variables aléatoires et obtenir un ensemble de variables principales.

Il existe deux segments de réduction de dimensionnalité : la sélection de caractéristiques et l'extraction de caractéristiques.

Dans la sélection de fonctionnalités , nous essayons de trouver un sous-ensemble de l'ensemble de fonctionnalités d'origine. Cela nous permet d'obtenir un sous-ensemble plus petit qui peut être utilisé pour visualiser le problème à l'aide de la modélisation des données. D'autre part, l' extraction de caractéristiques réduit les données d'un espace de grande dimension à un espace de dimension inférieure, ou en d'autres termes, un espace avec un nombre inférieur de dimensions.

Voici quelques façons d'effectuer une réduction de dimensionnalité :

  • Analyse en composantes principales (ACP) : technique statistique utilisée pour extraire un nouvel ensemble de variables à partir d'un grand ensemble de variables. Les variables nouvellement extraites sont appelées composantes principales. Cette méthode ne fonctionne que pour les entités avec des valeurs numériques.
  • Filtre à corrélation élevée : technique utilisée pour rechercher des caractéristiques hautement corrélées et les supprimer ; sinon, une paire de variables hautement corrélées peut augmenter la multicolinéarité dans l'ensemble de données.
  • Taux de valeurs manquantes : cette méthode supprime les attributs ayant des valeurs manquantes supérieures à un seuil spécifié.
  • Filtre à faible variance : implique la suppression des attributs normalisés dont la variance est inférieure à une valeur seuil, car des modifications mineures des données se traduisent par moins d'informations.
  • Forêt aléatoire : cette technique est utilisée pour évaluer l'importance de chaque caractéristique dans un ensemble de données, ce qui nous permet de ne conserver que les caractéristiques les plus importantes.

D'autres techniques de réduction de la dimensionnalité comprennent l'analyse factorielle, l'analyse en composantes indépendantes et l'analyse discriminante linéaire (LDA).

Sélection de sous-ensembles de fonctionnalités

La sélection de sous-ensembles d'entités est le processus de sélection d'un sous-ensemble d'entités ou d'attributs qui contribuent le plus ou qui sont les plus importants.

Supposons que vous essayez de prédire si un élève réussira ou échouera en examinant les données historiques d'élèves similaires. Vous disposez d'un ensemble de données avec quatre caractéristiques : numéro de rôle, notes totales, heures d'étude et activités parascolaires.

Dans ce cas, les numéros de rôle n'affectent pas les performances des élèves et peuvent être éliminés. Le nouveau sous-ensemble n'aura que trois fonctionnalités et sera plus efficace que l'ensemble d'origine.

Cette approche de réduction des données peut aider à créer des modèles d'apprentissage automatique plus rapides et plus rentables. La sélection du sous-ensemble d'attributs peut également être effectuée à l'étape de transformation des données.

Réduction de la numéroté

La réduction de la numérosité est le processus de remplacement des données d'origine par une forme plus petite de représentation des données. Il existe deux façons de procéder : les méthodes paramétriques et non paramétriques.

Les méthodes paramétriques utilisent des modèles pour la représentation des données. Des méthodes log-linéaires et de régression sont utilisées pour créer de tels modèles. En revanche, les méthodes non paramétriques stockent des représentations de données réduites à l'aide du regroupement, des histogrammes, de l'agrégation de cubes de données et de l'échantillonnage des données.

4. Transformation des données

La transformation des données est le processus de conversion des données d'un format à un autre. Essentiellement, cela implique des méthodes pour transformer les données dans des formats appropriés dont l'ordinateur peut apprendre efficacement.

Par exemple, les unités de vitesse peuvent être des miles par heure, des mètres par seconde ou des kilomètres par heure. Par conséquent, un ensemble de données peut stocker des valeurs de la vitesse d'une voiture dans différentes unités en tant que telles. Avant de transmettre ces données à un algorithme, nous devons transformer les données dans la même unité.

Voici quelques stratégies de transformation des données.

Lissage

Cette approche statistique est utilisée pour éliminer le bruit des données à l'aide d'algorithmes. Il permet de mettre en évidence les fonctionnalités les plus précieuses d'un ensemble de données et de prévoir des modèles. Cela implique également d'éliminer les valeurs aberrantes de l'ensemble de données pour rendre les modèles plus visibles.

Agrégation

L'agrégation fait référence au regroupement de données provenant de plusieurs sources et à leur présentation dans un format unifié pour l'exploration ou l'analyse de données. L'agrégation de données provenant de diverses sources pour augmenter le nombre de points de données est essentielle, car ce n'est qu'alors que le modèle ML disposera de suffisamment d'exemples pour en tirer des enseignements.

Discrétisation

La discrétisation consiste à convertir des données continues en ensembles d'intervalles plus petits. Par exemple, il est plus efficace de placer les personnes dans des catégories telles que "adolescent", "jeune adulte", "âge moyen" ou "senior" que d'utiliser des valeurs d'âge continues.

Généralisation

La généralisation implique la conversion de caractéristiques de données de bas niveau en caractéristiques de données de haut niveau. Par exemple, les attributs catégoriels tels que l'adresse du domicile peuvent être généralisés à des définitions de niveau supérieur telles que la ville ou l'état.

Normalisation

La normalisation fait référence au processus de conversion de toutes les variables de données dans une plage spécifique. En d'autres termes, il est utilisé pour mettre à l'échelle les valeurs d'un attribut afin qu'il se situe dans une plage plus petite, par exemple, 0 à 1. La mise à l'échelle décimale, la normalisation min-max et la normalisation du score z sont quelques méthodes de normalisation des données.

Construction de fonctionnalités

La construction de fonctionnalités implique la construction de nouvelles fonctionnalités à partir de l'ensemble de fonctionnalités donné. Cette méthode simplifie l'ensemble de données d'origine et facilite l'analyse, l'exploration ou la visualisation des données.

Génération de la hiérarchie des concepts

La génération de hiérarchie de concepts vous permet de créer une hiérarchie entre les fonctionnalités, bien qu'elle ne soit pas spécifiée. Par exemple, si vous disposez d'un jeu de données d'adresse de domicile contenant des données sur la rue, la ville, l'état et le pays, cette méthode peut être utilisée pour organiser les données sous forme hiérarchique.

Des données précises, des résultats précis

Les algorithmes d'apprentissage automatique sont comme des enfants. Ils ont peu ou pas de compréhension de ce qui est favorable ou défavorable. Comme la façon dont les enfants commencent à répéter un langage grossier recueilli auprès des adultes, des données inexactes ou incohérentes influencent facilement les modèles ML. L'essentiel est de leur fournir des données précises et de qualité, pour lesquelles le prétraitement des données est une étape essentielle.

Les algorithmes d'apprentissage automatique sont généralement considérés comme des travailleurs acharnés. Mais il existe un algorithme qui est souvent qualifié de paresseux. C'est ce qu'on appelle l'algorithme du k plus proche voisin et c'est un excellent algorithme de classification.