¿Qué es el preprocesamiento de datos? 4 pasos cruciales para hacerlo bien

Publicado: 2021-08-06

Los datos del mundo real son en la mayoría de los casos incompletos, ruidosos e inconsistentes.

Con la generación de datos en crecimiento exponencial y el número cada vez mayor de fuentes de datos heterogéneas, la probabilidad de recopilar datos anómalos o incorrectos es bastante alta.

Pero solo los datos de alta calidad pueden conducir a modelos precisos y, en última instancia, a predicciones precisas. Por lo tanto, es crucial procesar los datos para obtener la mejor calidad posible. Este paso de procesamiento de datos se denomina preprocesamiento de datos y es uno de los pasos esenciales en la ciencia de datos, aprendizaje automático e inteligencia artificial.

¿Qué es el preprocesamiento de datos?

El preprocesamiento de datos es el proceso de transformar datos sin procesar en un formato útil y comprensible. Los datos sin procesar o del mundo real generalmente tienen un formato inconsistente, errores humanos y también pueden estar incompletos. El preprocesamiento de datos resuelve estos problemas y hace que los conjuntos de datos sean más completos y eficientes para realizar análisis de datos.

Es un proceso crucial que puede afectar el éxito de los proyectos de minería de datos y aprendizaje automático. Hace que el descubrimiento de conocimiento a partir de conjuntos de datos sea más rápido y, en última instancia, puede afectar el rendimiento de los modelos de aprendizaje automático.

45%

del tiempo de un científico de datos se dedica a tareas de preparación de datos.

Fuente: Datanami

En otras palabras, el preprocesamiento de datos transforma los datos en una forma en la que las computadoras pueden trabajar fácilmente. Facilita el análisis o la visualización de datos y aumenta la precisión y la velocidad de los algoritmos de aprendizaje automático que se entrenan con los datos.

¿Por qué es necesario el preprocesamiento de datos?

Como sabe, una base de datos es una colección de puntos de datos. Los puntos de datos también se denominan observaciones, muestras de datos, eventos y registros.

Cada muestra se describe utilizando diferentes características, también conocidas como características o atributos . El preprocesamiento de datos es esencial para construir modelos con estas características de manera efectiva.

Pueden surgir numerosos problemas durante la recopilación de datos. Es posible que deba agregar datos de diferentes fuentes de datos, lo que genera formatos de datos que no coinciden, como enteros y flotantes.

Sugerencia: Use las capacidades de automatización de software de aprendizaje automático y despídete de esas tediosas tareas.

Si está agregando datos de dos o más conjuntos de datos independientes, el campo de género puede tener dos valores diferentes para hombres: hombre y hombre. Del mismo modo, si está agregando datos de diez conjuntos de datos diferentes, es posible que falte un campo que está presente en ocho de ellos en los dos restantes.

Al preprocesar los datos, facilitamos su interpretación y uso. Este proceso elimina las inconsistencias o los duplicados en los datos, que de lo contrario pueden afectar negativamente la precisión de un modelo. El preprocesamiento de datos también garantiza que no haya valores incorrectos o faltantes debido a errores o errores humanos. En resumen, el empleo de técnicas de preprocesamiento de datos hace que la base de datos sea más completa y precisa.

Características de los datos de calidad

Para los algoritmos de aprendizaje automático, nada es más importante que la calidad datos de entrenamiento. Su rendimiento o precisión depende de cuán relevantes, representativos y completos sean los datos.

Antes de ver cómo se preprocesan los datos, veamos algunos factores que contribuyen a la calidad de los datos.

Precisión: como su nombre indica, precisión significa que la información es correcta. La información obsoleta, los errores tipográficos y las redundancias pueden afectar la precisión de un conjunto de datos.
Consistencia: Los datos no deben tener contradicciones. Los datos inconsistentes pueden darle diferentes respuestas a la misma pregunta.
Integridad: el conjunto de datos no debe tener campos incompletos ni carecer de campos vacíos. Esta característica permite a los científicos de datos realizar análisis precisos ya que tienen acceso a una imagen completa de la situación que describen los datos.
Validez: un conjunto de datos se considera válido si las muestras de datos aparecen en el formato correcto, están dentro de un rango específico y son del tipo correcto. Los conjuntos de datos no válidos son difíciles de organizar y analizar.
Oportunidad: Los datos deben recopilarse tan pronto como ocurra el evento que representan. A medida que pasa el tiempo, cada conjunto de datos se vuelve menos preciso y útil, ya que no representa la realidad actual. Por lo tanto, la actualidad y relevancia de los datos es una característica crítica de la calidad de los datos.

Las cuatro etapas del preprocesamiento de datos

Para los modelos de aprendizaje automático, los datos son forraje.

Un conjunto de entrenamiento incompleto puede tener consecuencias no deseadas, como sesgos, lo que genera una ventaja o desventaja injusta para un grupo particular de personas. Los datos incompletos o inconsistentes también pueden afectar negativamente el resultado de los proyectos de minería de datos. Para resolver tales problemas, se utiliza el proceso de preprocesamiento de datos.

Hay cuatro etapas de procesamiento de datos: limpieza, integración, reducción y transformación.

1. Limpieza de datos

La limpieza o limpieza de datos es el proceso de limpiar conjuntos de datos teniendo en cuenta los valores faltantes, eliminando valores atípicos, corrigiendo puntos de datos inconsistentes y suavizando datos ruidosos. En esencia, el motivo detrás de la limpieza de datos es ofrecer muestras completas y precisas para los modelos de aprendizaje automático.

Las técnicas utilizadas en la limpieza de datos son específicas para las preferencias del científico de datos y el problema que intentan resolver. Aquí hay un vistazo rápido a los problemas que se resuelven durante la limpieza de datos y las técnicas involucradas.

Valores faltantes

El problema de los valores de datos faltantes es bastante común. Puede ocurrir durante la recopilación de datos o debido a alguna regla de validación de datos específica. En tales casos, debe recopilar muestras de datos adicionales o buscar conjuntos de datos adicionales.

El problema de los valores faltantes también puede surgir cuando concatena dos o más conjuntos de datos para formar un conjunto de datos más grande. Si no todos los campos están presentes en ambos conjuntos de datos, es mejor eliminar dichos campos antes de fusionarlos.

Aquí hay algunas formas de tener en cuenta los datos que faltan:

Rellene manualmente los valores que faltan. Este puede ser un enfoque tedioso y lento y no se recomienda para grandes conjuntos de datos.
Utilice un valor estándar para reemplazar el valor de los datos faltantes. Puede usar una constante global como "desconocido" o "N/A" para reemplazar el valor faltante. Aunque es un enfoque sencillo, no es infalible.
Completa el valor faltante con el valor más probable. Para predecir el valor probable, puede usar algoritmos como Regresión logística o árboles de decisión.
Usa una tendencia central para reemplazar el valor faltante. La tendencia central es la tendencia de un valor a agruparse alrededor de su media, moda o mediana.

Si falta el 50 por ciento de los valores de cualquiera de las filas o columnas de la base de datos, es mejor eliminar toda la fila o columna, a menos que sea posible completar los valores con cualquiera de los métodos anteriores.

datos ruidosos

Una gran cantidad de datos sin sentido se llama ruido . Más precisamente, es la variación aleatoria en una variable medida o datos que tienen valores de atributo incorrectos. El ruido incluye duplicados o semiduplicados de puntos de datos, segmentos de datos sin valor para un proceso de investigación específico o campos de información no deseados.

Por ejemplo, si necesita predecir si una persona puede conducir, la información sobre su color de cabello, altura o peso será irrelevante.

Un valor atípico puede tratarse como ruido, aunque algunos lo consideran un punto de datos válido. Suponga que está entrenando un algoritmo para detectar tortugas en imágenes. El conjunto de datos de imágenes puede contener imágenes de tortugas etiquetadas incorrectamente como tortugas. Esto puede considerarse ruido.

Sin embargo, puede haber una imagen de tortuga que se parezca más a una tortuga que a una tortuga. Esa muestra puede considerarse un valor atípico y no necesariamente un ruido. Esto se debe a que queremos enseñarle al algoritmo todas las formas posibles de detectar tortugas y, por lo tanto, la desviación del grupo es esencial.

Para valores numéricos, puede usar un diagrama de dispersión o un diagrama de caja para identificar los valores atípicos.

Los siguientes son algunos métodos utilizados para resolver el problema del ruido:

Regresión: el análisis de regresión puede ayudar a determinar las variables que tienen un impacto. Esto le permitirá trabajar solo con las funciones esenciales en lugar de analizar grandes volúmenes de datos. Tanto la regresión lineal como la regresión lineal múltiple se pueden utilizar para suavizar los datos.
Agrupación: los métodos de agrupación se pueden utilizar para una colección de datos ordenados. Suavizan un valor ordenado observando los valores que lo rodean. Los valores ordenados luego se dividen en "contenedores", lo que significa clasificar los datos en segmentos más pequeños del mismo tamaño. Existen diferentes técnicas para el binning, incluido el suavizado por medio de bin y el suavizado por medianas de bin.
Agrupamiento: los algoritmos de agrupamiento, como el agrupamiento k-means, se pueden usar para agrupar datos y detectar valores atípicos en el proceso.

2. Integración de datos

Dado que los datos se recopilan de varias fuentes, la integración de datos es una parte crucial de la preparación de datos. La integración puede conducir a varios puntos de datos inconsistentes y redundantes, lo que en última instancia conduce a modelos con una precisión inferior.

Estos son algunos enfoques para integrar datos:

Consolidación de datos: los datos se reúnen físicamente y se almacenan en un solo lugar. Tener todos los datos en un solo lugar aumenta la eficiencia y la productividad. Este paso normalmente implica el uso de software de almacenamiento de datos.
Virtualización de datos: en este enfoque, una interfaz proporciona una vista unificada y en tiempo real de los datos de múltiples fuentes. En otras palabras, los datos se pueden ver desde un único punto de vista.
Propagación de datos: Implica copiar datos de una ubicación a otra con la ayuda de aplicaciones específicas. Este proceso puede ser síncrono o asíncrono y generalmente está basado en eventos.

3. Reducción de datos

Como sugiere el nombre, la reducción de datos se utiliza para reducir la cantidad de datos y, por lo tanto, reducir los costos asociados con la extracción o el análisis de datos.

Ofrece una representación condensada del conjunto de datos. Aunque este paso reduce el volumen, mantiene la integridad de los datos originales. Este paso de preprocesamiento de datos es especialmente crucial cuando se trabaja con big data, ya que la cantidad de datos involucrados sería gigantesca.

Las siguientes son algunas técnicas utilizadas para la reducción de datos.

Reducción de dimensionalidad

La reducción de dimensionalidad , también conocida como reducción de dimensión, reduce la cantidad de características o variables de entrada en un conjunto de datos.

La cantidad de características o variables de entrada de un conjunto de datos se denomina dimensionalidad. Cuanto mayor sea el número de características, más problemático será visualizar el conjunto de datos de entrenamiento y crear un modelo predictivo.

En algunos casos, la mayoría de estos atributos están correlacionados y, por lo tanto, son redundantes; por lo tanto, se pueden utilizar algoritmos de reducción de dimensionalidad para reducir el número de variables aleatorias y obtener un conjunto de variables principales.

Hay dos segmentos de reducción de dimensionalidad: selección de características y extracción de características.

En la selección de funciones , tratamos de encontrar un subconjunto del conjunto original de funciones. Esto nos permite obtener un subconjunto más pequeño que se puede usar para visualizar el problema mediante el modelado de datos. Por otro lado, la extracción de características reduce los datos en un espacio de alta dimensión a un espacio de menor dimensión, o en otras palabras, un espacio con un número menor de dimensiones.

Las siguientes son algunas formas de realizar la reducción de dimensionalidad:

Análisis de componentes principales (PCA): una técnica estadística utilizada para extraer un nuevo conjunto de variables de un gran conjunto de variables. Las variables recién extraídas se denominan componentes principales. Este método solo funciona para entidades con valores numéricos.
Filtro de alta correlación: una técnica utilizada para encontrar características altamente correlacionadas y eliminarlas; de lo contrario, un par de variables altamente correlacionadas pueden aumentar la multicolinealidad en el conjunto de datos.
Proporción de valores perdidos: este método elimina los atributos que tienen valores perdidos por encima de un umbral especificado.
Filtro de varianza baja: implica eliminar los atributos normalizados que tienen una varianza inferior a un valor de umbral, ya que los cambios menores en los datos se traducen en menos información.
Bosque aleatorio: esta técnica se utiliza para evaluar la importancia de cada característica en un conjunto de datos, lo que nos permite mantener solo las características más importantes.

Otras técnicas de reducción de dimensionalidad incluyen el análisis factorial, el análisis de componentes independientes y el análisis discriminante lineal (LDA).

Selección de subconjunto de características

La selección de subconjuntos de funciones es el proceso de seleccionar un subconjunto de funciones o atributos que contribuyen más o son los más importantes.

Suponga que está tratando de predecir si un estudiante aprobará o reprobará al observar datos históricos de estudiantes similares. Tiene un conjunto de datos con cuatro características: número de lista, calificaciones totales, horas de estudio y actividades extracurriculares.

En este caso, los números de lista no afectan el desempeño de los estudiantes y pueden eliminarse. El nuevo subconjunto tendrá solo tres características y será más eficiente que el conjunto original.

Este enfoque de reducción de datos puede ayudar a crear modelos de aprendizaje automático más rápidos y rentables. La selección de subconjuntos de atributos también se puede realizar en el paso de transformación de datos.

Reducción de numerosidad

La reducción de la numerosidad es el proceso de reemplazar los datos originales con una forma más pequeña de representación de datos. Hay dos formas de realizar esto: métodos paramétricos y no paramétricos.

Los métodos paramétricos utilizan modelos para la representación de datos. Los métodos logarítmicos lineales y de regresión se utilizan para crear dichos modelos. Por el contrario, los métodos no paramétricos almacenan representaciones de datos reducidas mediante agrupamiento, histogramas, agregación de cubos de datos y muestreo de datos.

4. Transformación de datos

La transformación de datos es el proceso de convertir datos de un formato a otro. En esencia, implica métodos para transformar datos en formatos apropiados de los que la computadora pueda aprender de manera eficiente.

Por ejemplo, las unidades de velocidad pueden ser millas por hora, metros por segundo o kilómetros por hora. Por lo tanto, un conjunto de datos puede almacenar valores de la velocidad de un automóvil en diferentes unidades como tal. Antes de enviar estos datos a un algoritmo, necesitamos transformar los datos en la misma unidad.

Las siguientes son algunas estrategias para la transformación de datos.

Suavizado

Este enfoque estadístico se utiliza para eliminar el ruido de los datos con la ayuda de algoritmos. Ayuda a resaltar las características más valiosas en un conjunto de datos y a predecir patrones. También implica eliminar los valores atípicos del conjunto de datos para que los patrones sean más visibles.

Agregación

La agregación se refiere a agrupar datos de múltiples fuentes y presentarlos en un formato unificado para la extracción o el análisis de datos. La agregación de datos de varias fuentes para aumentar la cantidad de puntos de datos es esencial, ya que solo entonces el modelo ML tendrá suficientes ejemplos para aprender.

discretización

La discretización implica convertir datos continuos en conjuntos de intervalos más pequeños. Por ejemplo, es más eficiente ubicar a las personas en categorías como "adolescente", "adulto joven", "mediana edad" o "mayor" que usar valores continuos de edad.

Generalización

La generalización implica convertir características de datos de bajo nivel en características de datos de alto nivel. Por ejemplo, los atributos categóricos, como la dirección de la casa, se pueden generalizar a definiciones de nivel superior, como la ciudad o el estado.

Normalización

La normalización se refiere al proceso de convertir todas las variables de datos en un rango específico. En otras palabras, se usa para escalar los valores de un atributo para que se encuentre dentro de un rango más pequeño, por ejemplo, de 0 a 1. La escala decimal, la normalización mínima-máxima y la normalización de puntuación z son algunos métodos de normalización de datos.

Construcción de características

La construcción de funciones implica la construcción de nuevas funciones a partir del conjunto dado de funciones. Este método simplifica el conjunto de datos original y facilita el análisis, la extracción o la visualización de los datos.

Generación de jerarquía de conceptos

La generación de jerarquía de conceptos le permite crear una jerarquía entre funciones, aunque no se especifica. Por ejemplo, si tiene un conjunto de datos de dirección de casa que contiene datos sobre la calle, la ciudad, el estado y el país, este método se puede usar para organizar los datos en formas jerárquicas.

Datos precisos, resultados precisos

Los algoritmos de aprendizaje automático son como niños. Tienen poca o ninguna comprensión de lo que es favorable o desfavorable. Al igual que los niños comienzan a repetir lenguaje obsceno recogido de los adultos, los datos inexactos o inconsistentes influyen fácilmente en los modelos de ML. La clave es proporcionarles datos precisos y de alta calidad, para lo cual el preprocesamiento de datos es un paso esencial.

Se suele hablar de los algoritmos de aprendizaje automático como trabajadores duros. Pero hay un algoritmo que a menudo se etiqueta como perezoso. Se llama algoritmo del vecino más cercano y es un excelente algoritmo de clasificación.