Comprensión de la ciencia de datos, análisis de datos y Big Data
Publicado: 2022-09-11Ciencia de datos, análisis de datos y Big Data
SOLO OTRO DIA
Su alarma suena a las 5:30 am el martes por la mañana. Te cepillas los dientes y enciendes tu géiser. Luego, mientras espera que la plancha se caliente, revisa sus correos electrónicos, pero se va la luz. Te las arreglas con una camisa arrugada. Debido a que el café y las tostadas son difíciles de preparar sin electricidad para su cónyuge, una modificación de última hora en el menú de la mañana: hojuelas de maíz y leche fría. Decides saltarte el gimnasio e ir directamente a la ducha.
Te subes a tu auto y emprendes el viaje al trabajo a las 8:15 am en punto, luego de un breve desayuno y una conversación apresurada. En el camino, te encuentras con una congestión de tráfico interminable sin salida. Una conversación con un compañero de viaje revela que hay una procesión y uno de los carriles se ha detenido.
Cuando otro comercial de una nueva casa de lujo se transmite por la radio, prometiendo un viaje de 15 minutos al trabajo, uno se pregunta qué pasó con los días en que esta calle estaba desierta. Luego escuchas una nueva canción de Bollywood y empiezas a tararear.
Finalmente, después de una hora y media de tráfico angustioso, llegas al trabajo justo a tiempo para la reunión diaria, pero estás frustrado y fatigado por el largo viaje.
LEA TAMBIÉN: 13 estrategias efectivas de SEO para implementar en 2021
COMO SON LAS COSAS
Este es un día normal en la India para muchos trabajadores de oficina. Se levantan, se visten y se dirigen al trabajo. Toman algunas decisiones en el camino, pero en su mayoría van con la corriente. Por lo general, son reactivos y, lamentablemente, solo se preocupan por pasar el día.
Sin embargo, no tiene por qué ser así.
IMAGINA ESTO
Es martes por la mañana y en lugar de las 5:30 a. m., la alarma suena a las 5:10 a. m. Se enteró de los cortes de energía planeados y ajustó su horario en consecuencia. Enciendes la plancha y luego el géiser tan pronto como te despiertas. Mientras se cepilla los dientes, su cónyuge ya ha comenzado a hacer tostadas francesas en la tostadora. Puedes oler la taza de café caliente que te espera mientras terminas de planchar tu camisa.
La corriente se corta abruptamente sin previo aviso. Sonríes mientras sales por la puerta para tu carrera matutina.
LEE TAMBIÉN |: ¿Cómo hacer un análisis SEO de la competencia?
Disfruta de un maravilloso desayuno caliente y café con una conversación entretenida después de hacer ejercicio y ducharse. Luego te preparas y te vas alrededor de las 8:30 a.m.
Tomas una ruta un poco más larga pero llegas al trabajo en menos de 40 minutos, lo que te da mucho tiempo antes de tu reunión diaria.
¿QUÉ ES DIFERENTE?
Fuiste con la corriente en el primer escenario. Hiciste cosas porque era una segunda naturaleza para ti. Estabas satisfecho con el statu quo. Antes de planificar su día, no tuvo en cuenta numerosas variables, como el corte de energía y el embotellamiento que hizo que llegara tarde. Usó una técnica estándar para un escenario único y los resultados estándar esperados.
En el segundo escenario, analizó los diversos factores que podrían tener un impacto en su rutina y ajustó su horario en consecuencia. Como estabas pendiente del corte de luz, te levantaste unos minutos antes de lo normal para encender el géiser y la plancha.
LEE TAMBIÉN: Inteligencia artificial: un enfoque moderno.
Su cónyuge también encendió la tostadora y la cafetera unos minutos antes. Luego, después de tener en cuenta las condiciones de tráfico del día, eligió tomar una ruta diferente.
Tienes hechos de los que sacaste conclusiones. Como resultado, ajustaste tus acciones y el resultado fue considerablemente mejor. Hiciste uso del poder de la analítica, aunque sin querer.
Hola, y bienvenidos al reino de la ciencia de datos.
¿QUÉ ES LA CIENCIA DE DATOS?
La ciencia de datos se refiere a la aplicación de herramientas y técnicas de matemáticas, estadísticas, computadoras y experiencia en el dominio para la recopilación, procesamiento, manipulación e interpretación de datos.

En otras palabras, la ciencia de datos es el proceso de usar datos para resolver problemas. Abarca todo, desde la recopilación de datos hasta la obtención de conocimientos a partir de la información que ha recopilado.
APLICACIÓN DE LA CIENCIA DE DATOS
Echemos un vistazo a la narración que acabas de leer.
Hipotéticamente, evitó que se repitiera el escenario 1 al utilizar los conocimientos recopilados a partir de una investigación sobre por qué sus mañanas eran tan apresuradas, para simplificar sus días y hacerlos mejores y más brillantes.
Para empezar, debes preguntarte: “¿Qué necesito para tener un día fantástico?”.
Es probable que las siguientes variables aparezcan en la lista:
- Electricidad
- Dormir
- Agua caliente
- Ropa
- Desayuno
- Transportación
- Tráfico
Esta confluencia de variables dicta el tipo de datos que necesitará recopilar, procesar, podar y evaluar para obtener información sobre cómo mejorar su rutina diaria. La ciencia de datos lo ayudará a determinar la influencia combinada de cada variable (punto de datos).


¿DATOS O 'BIG DATA'?
Analizamos siete criterios en nuestro ejemplo simple de rutina matutina. El conocimiento obtenido como resultado podría hacer que su día sea mucho mejor.

Pero, ¿y si estuvieras buscando algo más? ¿Qué pasaría si tuviera un modelo que fuera lo suficientemente complicado como para dar cuenta de todos los parámetros significativos (en lugar de solo siete)?

Ya no estarías lidiando solo con datos; estarías tratando con Big data.
Según wikipedia , los grandes datos se definen de la siguiente manera:
“Big data” se refiere a recopilaciones de datos que son tan masivas o complicadas que los programas típicos de procesamiento de datos son insuficientes para manejarlos. El análisis, la captura, la conservación de datos, la búsqueda, el intercambio, el almacenamiento, el transporte, la visualización, las consultas y la privacidad de la información son todos desafíos. La palabra generalmente alude al uso de análisis predictivos u otros enfoques avanzados para extraer valor de los datos, en lugar de un tamaño de conjunto de datos específico”.
Para decirlo de otra manera, los grandes datos consisten en trabajar con grandes conjuntos de datos y extraer información de ellos. Los enfoques tradicionales no funcionan con estos conjuntos de datos, ya que son muy grandes. Deberá recopilar, analizar, almacenar y procesar datos utilizando procedimientos diseñados adecuadamente.
En general, cuanto mayor sea el conjunto de datos, mejores serán los resultados, siempre que el conjunto de datos sea de calidad aceptable.
En un negocio de comercio electrónico, por ejemplo, el sitio web recopila una gran cantidad de datos, incluidos los sitios de referencia, el tiempo que pasa en el sitio, la tasa de rebote, la página de destino y el flujo de visitantes. Realizan un seguimiento de esta información persona por persona, lo que significa que, en el transcurso de unos años, podrán compilar un gran conjunto de datos que los enfoques estándar no podrán manejar. Ahí es cuando se dan cuenta de que están trabajando con 'Big Data'.
Como resultado, en nuestro ejemplo de rutina matutina, podría tener un conjunto de datos muy grande con muchos más parámetros para procesar y evaluar. Es posible que haya recopilado información de decenas de miles o tal vez millones de personas en su ciudad. Es posible que haya recopilado esta información durante un período de tiempo y documentado una serie de aspectos adicionales, como el clima, la hora del día, actualizaciones de tráfico, tweets, ingresos familiares, etc., que podría utilizar en su estudio.
Otro enfoque para poner en perspectiva el tamaño de los conjuntos de datos es considerar que un conjunto de datos de tamaño estándar podría tener el tamaño de un periódico.
Necesitaría 50 almacenes llenos de directorios telefónicos para imprimir un conjunto de datos de 'grandes datos'.
Las herramientas y los procedimientos tradicionales no serán suficientes cuando se trate de cantidades tan grandes de datos: se requiere un software especializado creado especialmente para este propósito.
ANALIZA ESTO
Una vez que haya recopilado toda esta información sobre su mañana, deberá investigarla e investigarla para sacar sus conclusiones; esto se conoce como análisis de datos. Puede extrapolar de nuestro ejemplo que ver 'Saas bhi kabhi bahun thi' el lunes por la noche hace que se despierte más tarde los martes por la mañana. Alternativamente, lavar la ropa el sábado en lugar del domingo le permitirá tener una camisa planchada adicional el martes.
Pero, ¿qué sucede si desea buscar en numerosos conjuntos de datos patrones más completos y complicados? Entonces estarías participando en el análisis de datos.

La aplicación de una serie de procedimientos (algoritmos) o transformaciones para obtener información de los conjuntos de datos procesados se conoce como análisis de datos.
Examinaría la complicada interacción de detalles específicos en nuestro ejemplo de rutina matutina. Por ejemplo, si compara la temperatura diaria con el uso del automóvil, puede encontrar que la temperatura tiene un impacto considerable en el uso del automóvil. Con un poco más de investigación, aprenderá que este modelo simple solo es válido durante los meses de verano. Durante la temporada de lluvias, la gente usa más sus automóviles. Con esta información, puede ver que se espera que la precipitación del día siguiente sea superior a la media, lo que implica que el tráfico será más denso.
Eso es análisis de datos en acción. En el trabajo, el análisis de datos se utiliza para decidir irse antes de lo habitual, ya que el tráfico será mayor.
CONCLUSIÓN
Las palabras de moda de la industria como análisis, big data y ciencia de datos se usan indistintamente con frecuencia y de manera incorrecta. El análisis de datos es una de las operaciones básicas que agrega valor a los datos que recopila, mientras que la ciencia de datos es el dominio en el que operaría. Y se trata de big data cuando se trata de grandes cantidades de datos que no se pueden procesar con herramientas y métodos típicos.
¿Cómo te sientes acerca de nuestra definición? ¿Es el mismo que el tuyo? ¿Funcionan los ejemplos de una “rutina diaria”? ¿Tienes un ejemplo personal que te gustaría compartir? Por favor, comparta sus pensamientos en el área de comentarios.