探索性数据分析:对数据科学的影响
已发表: 2022-05-25美国数学家 John Tukey 最初在 1970 年代开发了探索性数据分析 (EDA)。 直到今天,EDA 技术仍然是数据发现过程中广泛使用的方法。 除了正式建模或假设检验之外,EDA 还为更好地理解数据集变量及其关系打开了大门。 它还有助于确定已考虑用于数据分析的统计技术是否合适。
什么是探索性数据分析?
探索性数据分析(EDA)被数据科学家在分析和调查数据集时广泛使用,将数据的主要特征总结为可视化方法。 它可以帮助数据科学家发现数据模式、发现异常、假设检验和/或假设。
因此,简单来说,它可以定义为一种方法,帮助数据科学家确定操作给定数据源的最佳方法,以获得作为目标所需的答案。
探索性数据分析对数据科学的重要性
EDA 的主要目的是帮助在做出任何假设之前深入研究数据集,识别明显的错误,更好地理解数据集中的模式,找出异常值和/或异常事件,最后但同样重要的是,找出变量之间令人兴奋的关系。
探索性数据分析对于数据科学领域的数据分析极为重要。 首先,EDA 用于确保数据科学家产生的结果是有效的并且适用于任何期望的目标。 其次,EDA 帮助利益相关者确保他们总是提出正确的问题。 它还有助于回答有关标准差、分类变量和置信区间的问题。 最后,一旦 EDA 完成并得出见解,它的功能就可以用于更复杂的数据分析或建模,包括机器学习。
探索性数据分析类型
那么主要有四种类型的EDA:
单变量非图形:
单变量非图形是最简单的数据分析形式。 这里它只包含一个变量。 作为单个变量,它不处理原因或关系。 相反,单变量分析的主要目的是描述数据并在其中找到模式。
单变量图形
非图形方法无法提供数据的完整图片。 因此这里需要图形方法。 单变量图形的常见类型有:
- 茎叶图:显示所有数据值和分布形状。
- 柱状图:其中每个条形代表一系列值的案例的频率(计数)或比例(计数/总计数)。
- 箱线图:以图形方式描绘最小值、第一四分位数、中位数、第三四分位数和最大值的五位数汇总。
多元非图形
多变量数据来自多个变量。 通常,多元非图形 EDA 技术通过交叉制表或统计显示两个或多个数据变量之间的关系。
多元图形
多元数据在显示两个或多个数据集之间的关系时使用图形。 最常用的图形是分组条形图或条形图,每组代表一个变量的一个水平,组内的每个条代表另一个变量的水平。

其他常见的多元图形类型包括:
- 散点图:用于在水平轴和垂直轴上绘制数据点,以显示一个变量受另一个变量的影响程度。
- 多元图表:是因素和响应之间关系的图形表示。
- 运行图表: 是随时间绘制的数据线图。
- 气泡图:是一种数据可视化,在二维图中显示多个圆圈(气泡)。
- 热图:是数据的图形表示,其中值以颜色表示。
探索性数据分析工具
有许多工具可用于探索性数据分析。 一些最受欢迎的是 R、Python 和 SAS。 但是,每个都有其优点和缺点,因此为工作选择正确的工具至关重要。
R 是用于可视化数据的出色工具。 它有各种各样的绘图和图表,可用于探索数据。 它还具有许多统计功能,可用于执行更高级的分析。
Python 是另一个很好的 EDA 工具。 它具有许多与 R 相同的功能,但也更加用户友好。 因此,对于想要开始数据分析的初学者来说,Python 是一个绝佳的选择。
SAS 是一个功能强大的统计软件包,可用于 EDA。 SAS 比 R 和 Python 更昂贵,但如果您需要执行更复杂的计算,则值得投资。
QuestionPro和探索性数据分析
您始终可以从不同的数据源获取数据,QuestionPro 绝对可以帮助您从多个渠道收集调查数据。 但是,当您想要超越已经收集的数据时会发生什么? 这就是探索性数据分析的用武之地。
QuestionPro 的内置分析工具使 EDA 入门变得容易。 您可以快速查看数据的汇总统计信息、创建交互式可视化等。 由于 QuestionPro 与 R 集成,您可以使用 R 提供的所有强大的统计工具。
因此,如果您准备好将数据分析提升到一个新的水平,那么 QuestionPro 是完美的工具之一。
结论
最后,我们可以说探索性数据分析是一种行之有效的方法,可以帮助数据科学家理解复杂的数据集。 通过使用可视化和其他方法,您可以发现您可能没有发现的模式和关系。
因此,EDA 是任何数据分析的重要组成部分,我们希望本文为您提供了对该主题的一个很好的介绍。
通过注册Questionpro.com了解更多关于 QuestionPro 和探索性数据分析的信息
作者: Musaddiq Shaikh & Abhishek Pachauri