了解数据科学、数据分析和大数据
已发表: 2022-09-11数据科学、数据分析和大数据
只是另一天
您的闹钟会在星期二早上 5:30 响起。 你刷牙并打开间歇泉。 然后,在等待熨斗加热时,您检查了您的电子邮件,但电源熄灭了。 你可以用一件皱褶的衬衫来凑合。 因为没有电源就很难为您的配偶制作咖啡和吐司,所以在最后一刻更改早上的菜单:玉米片和冷牛奶。 你决定跳过健身房,直接去洗澡。
早上 8 点 15 分,你上了车,开始了上班之旅,在简短的早餐和匆忙的谈话之后。 在途中,您会遇到永无止境的交通拥堵,无路可走。 与一位通勤者的对话显示,正在举行游行,其中一条车道已被停止。
当收音机播放另一则新豪宅广告,承诺开车 15 分钟即可上班时,你会想知道这条路荒芜的日子里发生了什么。 然后你听到一首热门的宝莱坞新歌并开始哼唱。
最后,经过一个半小时的交通拥堵后,您及时赶到上班参加日常会议,但您因漫长的通勤而感到沮丧和疲惫。
另请阅读:2021 年实施的 13 种有效 SEO 策略
事情的发展方式
对于许多上班族来说,这是印度的常规日子。 他们起床,穿好衣服,开始工作。 他们在此过程中做出了一些决定,但他们大多顺其自然。 他们通常是被动的,遗憾的是,他们只关心度过一天。
不过,不一定要那样。
想象一下
现在是星期二早上,而不是早上 5:30,闹钟在早上 5:10 响起 您了解了计划中的停电并相应地调整了您的日程安排。 你一醒来就打开熨斗,然后打开间歇泉。 当您刷牙时,您的配偶已经开始在烤面包机中制作法式吐司。 当你熨完衬衫时,你可以闻到等待你的热咖啡的味道。
电流突然关闭,恕不另行通知。 当你走出门进行晨跑时,你微笑着。
另请阅读|:如何进行 SEO 竞争对手分析?
锻炼和淋浴后,您将享用美味的热早餐和咖啡,并进行一些有趣的讨论。 然后您准备好并在上午 8:30 左右离开
您的路线稍长,但在 40 分钟内到达工作岗位,在日常会议之前为您提供充足的时间。
有什么不同?
在第一个场景中,您顺其自然。 你做事是因为它是你的第二天性。 你满足于现状。 在计划您的一天之前,您没有考虑到许多变量,例如导致您迟到的停电和交通拥堵。 您对独一无二的场景和预期的标准结果使用了标准技术。
在第二种情况下,您分析了可能对您的日常生活产生影响的各种因素,并相应地调整了您的时间表。 因为你知道停电,你比平时早起几分钟打开间歇泉和熨斗。
另请阅读:人工智能:一种现代方法。
您的配偶还提前几分钟启动了烤面包机和咖啡机。 然后,考虑到当天的交通情况,你选择了不同的路线。
你有从中得出结论的事实。 结果你调整了你的动作,结果好多了。 您无意中利用了分析的力量。
您好,欢迎来到数据科学领域。
什么是数据科学?
数据科学是指将数学、统计学、计算机和领域专业知识等工具和技术应用于数据的收集、处理、操作和解释。

换句话说,数据科学是使用数据解决问题的过程。 它涵盖了从数据收集到从您收集的信息中获得洞察力的所有内容。
应用数据科学
让我们来看看你刚刚读到的叙述。
假设您通过利用从调查中收集到的关于为什么您的早晨如此匆忙的见解来避免重复场景 1,以便简化您的日子并使它们变得更好、更明亮。
首先,您必须问自己:“为了度过美好的一天,我需要什么?”
以下变量可能会出现在列表中:
- 电
- 睡觉
- 热水
- 衣服
- 早餐
- 运输
- 交通
变量的这种融合决定了您需要收集、处理、修剪和评估的数据类型,以便深入了解如何改善您的日常生活。 数据科学将帮助您确定每个变量(数据点)的综合影响。


数据还是“大数据”?
我们在简单的早晨例行示例中分析了七个标准。 结果获得的知识可以使您的一天变得更好。

但是,如果您正在寻找更多东西怎么办? 如果您有一个足够复杂的模型来解释每个重要参数(而不是只有七个)怎么办?

您将不再只是处理数据; 你会处理大数据。
根据维基百科 ,大数据定义如下:
“大数据”是指海量或复杂的数据集合,以至于典型的数据处理程序不足以处理它们。 分析、捕获、数据管理、搜索、共享、存储、传输、可视化、查询和信息隐私都是挑战。 这个词通常暗示使用预测分析或其他高级方法从数据中提取价值,而不是特定的数据集大小。”
换句话说,大数据就是处理大型数据集并从中提取见解。 传统方法不适用于这些数据集,因为它们太大了。 您需要使用适当设计的程序来收集、分析、存储和处理数据。
一般来说,数据集越大,结果越好——只要数据集的质量可以接受。
例如,在电子商务业务中,网站会收集大量数据,包括引荐网站、在网站上花费的时间、跳出率、登录页面和访问者流量。 他们逐个人跟踪这些信息,这意味着在几年的时间里,他们将能够编译标准方法无法处理的大数据集。 那时他们意识到他们正在使用“大数据”。
因此,在我们早上的例行程序示例中,您可能拥有一个非常大的数据集,其中包含更多要处理和评估的参数。 您可能已经从您所在城市的数万甚至数百万人那里收集了信息。 您可能已经在一段时间内收集了这些信息,并记录了许多其他方面,例如天气、一天中的时间、交通更新、推文、家庭收入等,您可以在研究中使用这些信息。
另一种透视数据集大小的方法是考虑标准大小的数据集可能与日报一样厚。
您需要 50 个装满电话簿的仓库才能打印出“大数据”数据集。
在处理如此大量的数据时,传统的工具和程序是不够的:需要专门为此目的创建的专用软件。
分析这个
在你收集了关于你早上的所有这些信息之后,你需要调查和研究它以得出你的结论; 这被称为数据分析。 您可以从我们的示例中推断,周一晚上观看“Saas bhi kabhi bahun thi”会导致您在周二早上晚些时候醒来。 或者,周六而不是周日洗衣服可以让你在周二多熨一件衬衫。
但是,如果您想搜索大量数据集以寻找更全面、更复杂的模式怎么办? 然后,您将从事数据分析。

应用一系列程序(算法)或转换来从处理过的数据集中获得洞察力被称为数据分析。
您将在我们的早晨例行示例中检查特定细节的复杂相互作用。 例如,如果您将每日温度与汽车使用率进行比较,您可能会发现温度对汽车使用率有相当大的影响。 通过进一步调查,您将了解到这个简单的模型仅在夏季有效。 在雨季,人们用车最多。 有了这些信息,您可以看到第二天的降雨量预计会高于平均水平,这意味着交通会更加繁忙。
那就是数据分析在行动。 在工作中,数据分析用于决定比平时更早离开,因为流量会更高。
结论
分析、大数据和数据科学等行业流行语经常被错误地互换使用。 数据分析是为您收集的数据增加价值的基本操作之一,而数据科学是您将操作的领域。 当您处理无法使用典型工具和方法处理的大量数据时,您正在处理大数据。
您如何看待我们的定义? 和你的一样吗? “日常生活”的例子有用吗? 你有什么想分享的个人例子吗? 请在评论区分享你的想法。