Comprendre la science des données, l'analyse des données et le Big Data
Publié: 2022-09-11Science des données, analyse de données et mégadonnées
JUSTE UN AUTRE JOUR
Votre alarme se déclenche à 5h30 le mardi matin. Vous vous brossez les dents et allumez votre geyser. Puis, en attendant que le fer chauffe, vous consultez vos mails, mais le courant s'éteint. Vous vous contentez d'une chemise froissée. Parce que le café et les toasts sont difficiles à faire sans électricité pour votre conjoint, une modification de dernière minute au menu du matin : corn flakes et lait froid. Vous décidez de sauter la salle de gym et d'aller directement à la douche.
Vous montez dans votre voiture et commencez le trajet pour vous rendre au travail à 8 h 15 précises, après un bref petit déjeuner et une conversation hâtive. Sur le chemin, vous rencontrez un embouteillage sans fin sans issue. Une conversation avec un autre navetteur révèle qu'une procession est en cours et que l'une des voies a été arrêtée.
Lorsqu'une autre publicité pour une nouvelle maison de luxe est diffusée à la radio, promettant un trajet de 15 minutes pour se rendre au travail, vous vous demandez ce qui est arrivé à l'époque où cette route était déserte. Ensuite, vous entendez une nouvelle chanson de Bollywood et commencez à fredonner.
Enfin, après une heure et demie de circulation angoissante, vous arrivez au travail juste à temps pour la réunion quotidienne, mais vous êtes frustré et fatigué par le long trajet.
A LIRE AUSSI : 13 stratégies de référencement efficaces à mettre en œuvre en 2021
LA FAÇON DONT LES CHOSES SONT
C'est une journée normale en Inde pour de nombreux employés de bureau. Ils se lèvent, s'habillent et se rendent au travail. Ils prennent quelques décisions en cours de route, mais ils suivent généralement le courant. Ils sont généralement réactifs et, malheureusement, ne se préoccupent que de passer la journée.
Il n'a pas à être de cette façon, cependant.
IMAGINE ÇA
Nous sommes mardi matin, et au lieu de 5h30, l'alarme se déclenche à 5h10. Vous avez pris connaissance des coupures de courant prévues et avez ajusté votre horaire en conséquence. Vous allumez le fer puis le geyser dès votre réveil. Pendant que vous vous brossez les dents, votre conjoint a déjà commencé à faire du pain perdu dans le grille-pain. Vous pouvez sentir la tasse de café chaud qui vous attend lorsque vous finissez de repasser votre chemise.
Le courant s'arrête brusquement sans préavis. Vous souriez en sortant pour votre jogging matinal.
A LIRE AUSSI | : Comment faire une analyse des concurrents SEO ?
Vous avez un merveilleux petit déjeuner chaud et un café avec une discussion divertissante après votre entraînement et votre douche. Vous vous préparez ensuite et partez vers 8h30
Vous empruntez un trajet un peu plus long mais arrivez au travail en moins de 40 minutes, ce qui vous laisse largement le temps avant votre rendez-vous quotidien.
QU'EST CE QUI EST DIFFERENT?
Vous avez suivi le courant dans le premier scénario. Vous avez fait des choses parce que c'était une seconde nature pour vous. Vous vous contentiez du statu quo. Avant de planifier votre journée, vous avez omis de prendre en compte de nombreuses variables telles que la panne de courant et les embouteillages qui vous ont amené à être en retard. Vous avez utilisé une technique standard pour un scénario unique en son genre et des résultats standard attendus.
Dans le deuxième scénario, vous avez analysé les différents facteurs pouvant avoir un impact sur votre routine et ajusté votre emploi du temps en conséquence. Parce que vous étiez au courant de la panne de courant, vous vous êtes levé quelques minutes plus tôt que d'habitude pour allumer le geyser et le fer à repasser.
A LIRE AUSSI : Intelligence artificielle : Une approche moderne.
Votre conjoint a également démarré le grille-pain et la machine à café quelques minutes à l'avance. Puis, après avoir pris en compte les conditions de circulation du jour, vous avez choisi d'emprunter un autre itinéraire.
Vous avez des faits dont vous avez tiré des conclusions. Vous avez ajusté vos actions en conséquence, et le résultat a été considérablement meilleur. Vous avez utilisé la puissance de l'analyse, même involontairement.
Bonjour et bienvenue dans le domaine de la science des données.
QU'EST-CE QUE LA SCIENCE DES DONNÉES ?
La science des données fait référence à l'application d'outils et de techniques issus des mathématiques, des statistiques, des ordinateurs et de l'expertise du domaine à la collecte, au traitement, à la manipulation et à l'interprétation des données.

En d'autres termes, la science des données est le processus d'utilisation des données pour résoudre des problèmes. Il couvre tout, de la collecte de données à l'obtention d'informations à partir des informations que vous avez recueillies.
APPLIQUER LA SCIENCE DES DONNÉES
Jetons un coup d'œil au récit que vous venez de lire.
En théorie, vous avez évité une répétition du scénario 1 en utilisant les informations recueillies lors d'une enquête sur les raisons pour lesquelles vos matinées étaient si pressées, afin de rationaliser vos journées et de les rendre meilleures et plus lumineuses.
Pour commencer, vous devez vous demander : « De quoi ai-je besoin pour passer une journée fantastique ?
Les variables suivantes sont susceptibles d'apparaître sur la liste :
- Électricité
- Dormir
- Eau chaude
- Vêtements
- Petit-déjeuner
- Transport
- Trafic
Cette confluence de variables dicte le type de données que vous devrez collecter, traiter, élaguer et évaluer afin d'obtenir un aperçu de la façon d'améliorer votre routine quotidienne. La science des données vous aidera à déterminer l'influence combinée de chaque variable (point de données).


DATA OU 'BIG DATA' ?
Nous avons analysé sept critères dans notre exemple de routine matinale simple. Les connaissances ainsi acquises pourraient rendre votre journée bien meilleure.

Et si vous cherchiez quelque chose de plus ? Et si vous disposiez d'un modèle suffisamment compliqué pour tenir compte de chaque paramètre significatif (plutôt que de sept seulement) ?

Vous ne traiteriez plus uniquement des données ; vous auriez affaire à des données volumineuses.
D'après Wikipédia , les mégadonnées sont définies comme suit :
Le « mégadonnées » fait référence à des collectes de données qui sont si massives ou compliquées que les programmes de traitement de données typiques sont insuffisants pour les gérer. L'analyse, la capture, la conservation des données, la recherche, le partage, le stockage, le transport, la visualisation, l'interrogation et la confidentialité des informations sont autant de défis. Le mot fait généralement allusion à l'utilisation d'analyses prédictives ou d'autres approches avancées pour extraire la valeur des données, plutôt qu'à une taille d'ensemble de données spécifique.
En d'autres termes, le big data consiste à travailler avec de grands ensembles de données et à en extraire des informations. Les approches traditionnelles ne fonctionnent pas avec ces ensembles de données car ils sont si volumineux. Vous devrez collecter, analyser, stocker et traiter les données en utilisant des procédures correctement conçues.
En général, plus l'ensemble de données est grand, meilleurs sont les résultats - tant que l'ensemble de données est de qualité acceptable.
Dans une entreprise de commerce électronique, par exemple, le site Web collecte une multitude de données, notamment les sites de référence, le temps passé sur le site, le taux de rebond, la page de destination et le flux de visiteurs. Ils gardent une trace de ces informations sur une base individuelle, ce qui signifie qu'au cours de quelques années, ils seront en mesure de compiler un grand ensemble de données que les approches standard ne pourront pas gérer. C'est alors qu'ils se rendent compte qu'ils travaillent avec le « Big Data ».
Par conséquent, dans notre exemple de routine du matin, vous pourriez avoir un très grand ensemble de données avec beaucoup plus de paramètres à traiter et à évaluer. Vous avez peut-être recueilli des informations auprès de dizaines de milliers, voire de millions de personnes dans votre ville. Vous avez peut-être recueilli ces informations sur une période de temps et documenté un certain nombre d'aspects supplémentaires, tels que la météo, l'heure de la journée, les mises à jour du trafic, les tweets, le revenu du ménage, etc., que vous pourriez utiliser dans votre étude.
Une autre approche pour mettre en perspective la taille des jeux de données consiste à considérer qu'un jeu de données de taille standard peut être aussi épais qu'un journal quotidien.
Vous auriez besoin de 50 entrepôts remplis d'annuaires téléphoniques pour imprimer un ensemble de données « big data ».
Les outils et procédures traditionnels ne suffiront pas face à de si grandes quantités de données : un logiciel spécialisé créé spécialement à cet effet est nécessaire.
ANALYSES ÇA
Une fois que vous avez rassemblé toutes ces informations sur votre matinée, vous devrez les étudier et les rechercher afin de créer vos conclusions. c'est ce qu'on appelle l'analyse des données. Vous pouvez extrapoler à partir de notre exemple que regarder 'Saas bhi kabhi bahun thi' le lundi soir vous fait vous réveiller plus tard le mardi matin. Alternativement, faire votre lessive le samedi plutôt que le dimanche vous permettra d'avoir une chemise repassée supplémentaire le mardi.
Mais que se passe-t-il si vous souhaitez rechercher dans de nombreux ensembles de données des modèles plus complets et plus complexes ? Ensuite, vous vous engageriez dans l'analyse de données.

L'application d'une série de procédures (algorithmes) ou de transformations pour obtenir des informations à partir d'ensembles de données traités est connue sous le nom d'analyse de données.
Vous examineriez l'interaction compliquée de détails spécifiques dans notre exemple de routine du matin. Par exemple, si vous comparez la température quotidienne à l'utilisation de la voiture, vous constaterez peut-être que la température a un impact considérable sur l'utilisation de la voiture. Avec un peu plus d'investigation, vous apprendrez que ce modèle simple n'est valable que pendant les mois d'été. Pendant la saison des pluies, les gens utilisent le plus leur voiture. Avec ces informations, vous pouvez voir que les précipitations du lendemain devraient être supérieures à la moyenne, ce qui implique que le trafic serait plus dense.
C'est l'analyse de données en action. Au travail, l'analyse des données est utilisée pour décider de partir plus tôt que d'habitude car le trafic sera plus élevé.
CONCLUSION
Les mots à la mode de l'industrie tels que l'analyse, le big data et la science des données sont fréquemment et à tort utilisés de manière interchangeable. L'analyse des données est l'une des opérations de base qui ajoute de la valeur aux données que vous collectez, tandis que la science des données est le domaine dans lequel vous opéreriez. Et vous avez affaire à des données volumineuses lorsque vous avez affaire à de grandes quantités de données qui ne peuvent pas être traitées à l'aide d'outils et de méthodes classiques.
Que pensez-vous de notre définition ? Est-ce le même que le vôtre ? Les exemples de « routine quotidienne » fonctionnent-ils ? Avez-vous un exemple personnel que vous aimeriez partager ? S'il vous plaît partager vos pensées dans la zone de commentaires.