Понимание науки о данных, аналитики данных и больших данных
Опубликовано: 2022-09-11Наука о данных, аналитика данных и большие данные
ПРОСТО ЕЩЕ ОДИН ДЕНЬ
Ваш будильник срабатывает в 5:30 утра во вторник. Вы чистите зубы и включаете гейзер. Затем, ожидая, пока нагреется утюг, вы проверяете электронную почту, но электричество отключается. Ты обходишься мятой рубашкой. Поскольку кофе и тосты трудно приготовить без электричества для супруга, последнее изменение утреннего меню: кукурузные хлопья и холодное молоко. Вы решаете пропустить спортзал и пойти сразу в душ.
Вы садитесь в машину и начинаете путь на работу ровно в 8:15, после короткого завтрака и скоропалительного разговора. По пути вы попадаете в нескончаемую пробку, из которой нет выхода. Разговор с другим пассажиром показывает, что идет процессия, и один из переулков был остановлен.
Когда по радио звучит еще одна реклама нового роскошного дома, обещающая 15 минут езды до работы, вы задаетесь вопросом, что случилось с теми днями, когда эта дорога была пустынной. Затем вы слышите новую горячую болливудскую песню и начинаете подпевать.
Наконец, после полутора часов мучительной пробки, вы прибываете на работу как раз вовремя для ежедневной встречи, но вы расстроены и устали от долгой поездки на работу.
ТАКЖЕ ЧИТАЙТЕ: 13 эффективных SEO-стратегий, которые нужно реализовать в 2021 году
КАК ДЕЛА ЕСТЬ
Это обычный день в Индии для многих офисных работников. Они встают, одеваются и идут на работу. Они принимают несколько решений по пути, но в основном плывут по течению. Обычно они реактивны и, к сожалению, озабочены только тем, чтобы прожить день.
Однако так быть не должно.
ПРЕДСТАВЬТЕ ЭТО
Утро вторника, и вместо 5:30 будильник срабатывает в 5:10 утра. Вы узнали о запланированных отключениях электроэнергии и соответственно скорректировали свой график. Вы включаете утюг, а затем гейзер, как только просыпаетесь. Пока вы чистите зубы, ваш супруг уже начал делать французские тосты в тостере. Вы можете почувствовать запах горячей чашки кофе, ожидающей вас, когда вы заканчиваете гладить рубашку.
Ток резко отключается без предупреждения. Ты улыбаешься, выходя из дома на утреннюю пробежку.
ТАКЖЕ ЧИТАЙТЕ |: Как провести SEO-анализ конкурентов?
У вас есть замечательный, горячий завтрак и кофе с интересной беседой после тренировки и душа. Затем вы готовитесь и уходите около 8:30 утра.
Вы выбираете немного более длинный маршрут, но прибываете на работу менее чем за 40 минут, что дает вам достаточно времени перед ежедневной встречей.
ЧТО ОТЛИЧАЕТСЯ?
Вы плыли по течению в первом сценарии. Вы делали что-то, потому что это было вашей второй натурой. Вы были довольны статус-кво. Прежде чем планировать свой день, вы не учли множество переменных, таких как отключение электроэнергии и пробки, из-за которых вы опоздали. Вы использовали стандартную технику для единственного в своем роде сценария и ожидаемых стандартных результатов.
Во втором сценарии вы проанализировали различные факторы, которые могут повлиять на вашу рутину, и соответствующим образом скорректировали расписание. Поскольку вы знали об отключении электроэнергии, вы встали на несколько минут раньше обычного, чтобы включить газовую колонку и утюг.
ТАКЖЕ ЧИТАЙТЕ: Искусственный интеллект: современный подход.
Ваш супруг также включил тостер и кофеварку на несколько минут раньше. Затем, приняв во внимание условия движения в течение дня, вы выбрали другой маршрут.
У вас есть факты, из которых вы сделали выводы. В результате вы скорректировали свои действия, и результат стал значительно лучше. Вы использовали силу аналитики, хотя и непреднамеренно.
Здравствуйте, и добро пожаловать в сферу науки о данных.
ЧТО ТАКОЕ НАУКА ДАННЫХ?
Наука о данных относится к применению инструментов и методов из математики, статистики, компьютеров и предметной области для сбора, обработки, манипулирования и интерпретации данных.

Другими словами, наука о данных — это процесс использования данных для решения проблем. Он охватывает все, от сбора данных до получения информации из собранной вами информации.
ПРИМЕНЕНИЕ НАУКИ О ДАННЫХ
Давайте посмотрим на рассказ, который вы только что прочитали.
Гипотетически вы избежали повторения сценария 1, используя информацию, полученную в ходе расследования того, почему ваше утро было таким торопливым, чтобы упорядочить свои дни и сделать их лучше и ярче.
Для начала вы должны спросить себя: «Что мне нужно, чтобы провести фантастический день?»
Вероятно, в списке появятся следующие переменные:
- Электричество
- Спать
- Горячая вода
- Одежда
- Завтрак
- Транспорт
- Движение
Это слияние переменных диктует тип данных, которые вам необходимо собрать, обработать, сократить и оценить, чтобы получить представление о том, как улучшить свою повседневную жизнь. Наука о данных поможет вам определить комбинированное влияние каждой переменной (точки данных).


ДАННЫЕ ИЛИ «БОЛЬШИЕ ДАННЫЕ»?
Мы проанализировали семь критериев в нашем простом примере утренней рутины. Знания, полученные в результате, могут сделать ваш день намного лучше.

Но что, если вы искали что-то большее? Что, если бы у вас была модель, достаточно сложная для учета каждого значимого параметра (а не только семи)?

Вы больше не будете иметь дело только с данными; вы будете иметь дело с большими данными.
Согласно Википедии , большие данные определяются следующим образом:
«Большие данные» — это наборы данных, которые настолько велики или сложны, что обычных программ обработки данных недостаточно для их обработки. Анализ, сбор, обработка данных, поиск, совместное использование, хранение, транспортировка, визуализация, запросы и конфиденциальность информации — все это проблемы. Это слово обычно указывает на использование предиктивной аналитики или других передовых подходов для извлечения ценности из данных, а не на конкретный размер набора данных».
Другими словами, большие данные — это работа с большими наборами данных и извлечение из них информации. Традиционные подходы не работают с этими наборами данных, поскольку они очень велики. Вам нужно будет собирать, анализировать, хранить и обрабатывать данные, используя правильно разработанные процедуры.
Как правило, чем больше набор данных, тем лучше результаты — при условии, что набор данных имеет приемлемое качество.
Например, в сфере электронной коммерции веб-сайт собирает множество данных, включая ссылающиеся сайты, время, проведенное на сайте, показатель отказов, целевую страницу и поток посетителей. Они отслеживают эту информацию от человека к человеку, а это значит, что в течение нескольких лет они смогут собрать большой набор данных, с которым не справятся стандартные подходы. Именно тогда они понимают, что работают с «большими данными».
В результате в нашем примере с утренней рутиной у вас может быть очень большой набор данных с гораздо большим количеством параметров для обработки и оценки. Возможно, вы собрали информацию от десятков тысяч или, может быть, миллионов жителей вашего города. Возможно, вы собирали эту информацию в течение определенного периода времени и документировали ряд дополнительных аспектов, таких как погода, время суток, обновления дорожного движения, твиты, доход семьи и т. д., которые вы могли бы использовать в своем исследовании.
Другой подход к оценке размера наборов данных состоит в том, чтобы учесть, что набор данных стандартного размера может быть таким же толстым, как ежедневная газета.
Вам потребуется 50 складов, заполненных телефонными справочниками, чтобы распечатать набор данных «больших данных».
Традиционных инструментов и процедур при работе с такими большими объемами данных недостаточно: требуется специализированное программное обеспечение, созданное специально для этой цели.
ПРОАНАЛИЗИРУЙТЕ ЭТО
После того, как вы соберете всю эту информацию о своем утре, вам нужно будет изучить и изучить ее, чтобы сделать выводы; это известно как анализ данных. Вы можете экстраполировать из нашего примера, что просмотр «Saas bhi kabhi bahun thi» в понедельник вечером заставляет вас просыпаться позже утром во вторник. В качестве альтернативы, стирая белье в субботу, а не в воскресенье, вы сможете получить дополнительную отглаженную рубашку во вторник.
Но что, если вы хотите найти в многочисленных наборах данных более полные и сложные закономерности? Тогда вы будете заниматься аналитикой данных.

Применение ряда процедур (алгоритмов) или преобразований для получения информации из обработанных наборов данных называется анализом данных.
Вы могли бы исследовать сложное взаимодействие конкретных деталей в нашем примере с утренней рутиной. Например, если вы сравните дневную температуру с использованием автомобиля, вы можете обнаружить, что температура оказывает значительное влияние на использование автомобиля. После небольшого дальнейшего изучения вы узнаете, что эта простая модель действительна только в летние месяцы. В сезон дождей люди больше всего используют свои автомобили. С помощью этой информации вы можете видеть, что количество осадков на следующий день, как ожидается, будет выше среднего, а это означает, что трафик будет более интенсивным.
Это аналитика данных в действии. На работе аналитика данных используется, чтобы принять решение уйти раньше, чем обычно, поскольку трафик будет выше.
ВЫВОД
Отраслевые модные слова, такие как аналитика, большие данные и наука о данных, часто и ошибочно используются как синонимы. Анализ данных — это одна из основных операций, которая повышает ценность собираемых вами данных, тогда как наука о данных — это область, в которой вы будете работать. И вы имеете дело с большими данными, когда имеете дело с большими объемами данных, которые невозможно обработать с помощью обычных инструментов и методов.
Как вы относитесь к нашему определению? Он такой же, как у вас? Работают ли примеры «повседневной рутины»? У вас есть личный пример, которым вы хотели бы поделиться? Пожалуйста, поделитесь своими мыслями в области комментариев.