常见的数据质量问题以及如何克服这些问题
已发表: 2022-04-12尽管我们处于数据驱动技术的时代,但超过 50% 的高管普遍对从分析中获得的价值不满意。 造成这种情况的主要原因之一是数据质量差。 此外,在任何任务的一开始就拥有低质量的数据会使进一步的行动变得毫无用处。 此外,做出的任何决定都将基于错误的信息,对于企业来说,这肯定是个坏消息。
这就是为什么我们决定分享我们多年来处理数据的经验和专业知识。 在过去的一年里,我们与分析师同行进行了很多交谈,并对世界级专家进行了很多采访。 现在,我们想就数据处理中最常见的问题以及如何克服这些问题提供指导。
在本文中,我们讨论了数据工作流的各个阶段、可能发生的错误以及原因。 最重要的是,我们分享解决数据质量难题的方法。
目录
- 数据质量问题从何而来?
- 步骤 1. 计划测量
- 步骤 2. 收集原始数据
- 步骤 3. 标准化原始数据
- 第 4 步:准备业务就绪数据
- 使用 OWOX BI 重新考虑您与数据的关系
- 步骤 5. 可视化数据
- 关键要点
开始之前的一些定义:
什么是质量数据? 简而言之(就营销数据而言),质量数据是相关的、最新的数据,没有错误和差异。 如果我们在 Wikipedia 上查找数据质量,我们会看到超过 10 个 (!) 定义。 此外,维基百科引用了 DAMA NL 对使用 ISO 9001 作为参考框架的数据质量维度定义的最新研究。

为什么质量数据对于营销人员、分析师和决策者来说是必须的? 如果没有质量可靠的数据,就不可能依靠营销分析做出决策。
数据质量问题从何而来?
在处理营销人员和分析师每天使用的大量数据时,完全消除错误和差异是一项挑战。 立即向最终用户提供高质量数据是极其困难的; 但是,可以主动消除和主动发现数据错误。 首先,让我们看一下处理数据的过程,并区分可能出现数据质量问题的步骤:
- 测量计划
- 主要数据收集
- 原始数据标准化
- 业务数据准备
- 数据可视化
根据我们的经验,事实数据错误通常出现在前两个步骤中,而数据滥用的情况在最后步骤中更频繁地发生。

让我们更详细地了解在这些步骤中会出现哪些数据质量问题以及如何解决这些问题。
步骤 1. 计划测量
即使这一步数据没有错误,我们也不能完全忽略它。 魔鬼在细节中,收集数据进行分析始于详细的计划。 我们的建议是始终从快速分析开始,并仔细计划您需要的所有营销数据的收集。
跳过计划步骤会导致采用非结构化方法并且没有足够的数据用于新任务或项目,而目标是从您使用的所有数据源中收集零散的数据。 如果您没有所有数据,那么您的决策和行动从一开始就存在缺陷。 让我们看看在开始新项目之前应该收集哪些数据:
- 来自您的网站和/或应用程序的用户行为数据
- 来自广告平台的成本数据
- 呼叫跟踪、聊天机器人和电子邮件数据
- 来自您的 CRM/ERP 系统等的实际销售数据。
步骤 2. 收集原始数据
创建测量计划后,让我们继续进行主要的数据收集步骤。 在此步骤中,除了您需要克服的所有其他挑战外,您还必须考虑控制对数据的访问(这完全与数据安全有关)并提前准备好创建数据存储或数据湖。
如果您想在不修改原始数据的情况下完全控制它,我们的建议是使用具有自动数据导入功能的单一存储。 对于营销需求,Google BigQuery 仍然是最佳选择之一。
在此步骤中您可能会遇到哪些数据质量难题:
1.1 从广告服务的 API 获取不完整和不正确的数据
这是什么?
广告平台和服务收集了大量有价值的用户行为数据,而当您试图从这些数据源中完整地获取所有这些信息而又不损害其完整性时,就会出现问题。
*应用程序编程接口 (API) 是服务器的一部分,用于传输数据(接收请求并发送响应),每次用户访问网站上的页面时都会与用户交互。 大多数现代网站至少使用几个第三方 API。
那有什么问题?
广告服务收集有关用户行为的数据; 但是,数据在传输后可能会发生追溯变化,并且服务 API 可能会更新或在一段时间内不可用。 结果,部分数据根本无法传递,数据的整体质量将受到破坏。 分析师可能不知道这一点,并可能使用不相关的数据来准备业务数据。 但是,不可能根据不完整和/或不准确的数据获得有用的见解或做出正确的决定。 简而言之,您可以投入大量时间和精力,但仍然发现自己回到了阶梯的底部,既没有有用的数据,也没有证明绩效对企业来说是成功和有利可图的。
原因是什么?
由于数据丢失、差异或重复,数据可能不完整或不正确。 这些问题的常见原因包括:
- 在广告平台上创建了一个新帐户,但不会通知分析师,也不会收集其中的数据。
- API 不支持 UTM 标签中的动态参数,也不收集或传输它们。 如果您在 UTM 标记中使用不受支持的参数,您将看到参数名称而不是它们的值 - 例如,{{geo}} 而不是实际的广告系列名称。
- 回顾性数据更新。 广告服务通常会追溯更新数据(关于广告帐户中的费用、点击次数和展示次数)。 然而,并非所有分析师都意识到这一点并考虑到这一点。
如何解决这个问题呢?
由于在使用 API 时无法直接控制代码,因此您可以通过以下方式解决这些问题:
- 在数据收集期间分配责任范围,以更好地控制数据收集。
- 使用支持API更改、动态参数等的自动化数据导入工具。在数据不可用的情况下,这些工具可以显示现有的数据差距并追溯下载数据。
1.2 从网站获取不完整和不正确的数据
这是什么?
通过分析来自广告服务的数据,我们知道我们在广告上花费了多少。 从网站用户行为数据中,我们获得了有关我们收入的信息。 由于商业问题通常听起来像“哪些广告有回报,哪些没有?” 了解收入/支出比率至关重要。
那有什么问题?
网站用户行为数据不同于广告服务收集的成本数据,因为网站用户行为数据:
- 由网站所有者直接收集
- 在数量上明显大于来自广告服务的成本数据
此外,如果我们没有注意到没有收集用户行为数据并且我们没有消除问题,那么这些数据将永远丢失。
与来自广告服务 API 的数据收集问题一样,不完整或不正确的信息会导致错误的解决方案。 反过来,不正确的管理决策会导致收入损失。
原因是什么?
收集网站数据时可能会出现错误,因为:
- 并非所有网站页面都有 Google 跟踪代码管理器 (GTM) 容器。 GTM 收集广告活动的结果和用户行为数据。 因此,如果页面上没有 GTM 容器,则不会收集任何数据。
- Google Cloud 项目未按时付款,因此数据收集被搁置。
- 网站用户在申请表中输入的数据(姓名、地址、电子邮件等)的正确性未经验证。
如何解决这个问题呢?
与从 API 收集数据一样,网站数据收集的解决方案包括:
- 在数据收集期间分配责任范围,以更好地控制数据收集
- 使用自动数据导入工具; 如果数据不可用,这些工具可以警告您现有的数据错误
2. 获取汇总的抽样数据
这是什么?
汇总和抽样数据是在并非所有数据都被处理并用于分析和报告的情况下出现的一般化数据。 当 Google Analytics 等服务仅分析部分数据以减少服务器负载并平衡数据处理的速度和准确性时,就会发生这种情况。 由于抽样会导致泛化,因此会导致对获得的结果缺乏信任。
那有什么问题?
抽样报告会扭曲绩效数据,当涉及到与金钱相关的指标(如目标、转化率和收入)时,这可能会让您损失惨重。 因此,您可能不会注意到盈利的广告活动,并且可能由于报告中的数据失真而将其关闭,反之亦然——您可能会将所有的钱花在低效的活动上。
换句话说,每次应用采样时,都有获得不准确结果的风险。 如果你试图只根据部分数据做出决定,你就会在公司的预算范围内玩猜谜游戏。
原因是什么?
为了尽快创建报告并节省资源,系统应用采样、聚合和过滤,而不是处理海量数据阵列。
如何解决这个问题呢?
避免数据采样的唯一方法是收集原始数据并不断检查所有报告中的数据完整性。 该过程监控优选地自动完成,作为避开人为因素的一种方式。 例如,您可以像 OZON 在 OWOX BI 的帮助下所做的那样,在您的网站上应用对正确指标收集的自动测试。
步骤 3. 标准化原始数据
在收集了所有必要的数据之后,是时候对其进行标准化了。 在这一步,分析师将可用信息转换为业务所需的形式。 例如,我们必须将电话号码转换为单一格式。
数据规范化是一项手动和例行的“猴子工作”,通常使分析师无法完成更令人兴奋的任务,例如提取有用的数据洞察力。 更不用说标准化困难通常会占用分析师整体工作时间的 50%。
在这一阶段可能会遇到的数据质量困难:
1、插入、更新、删除依赖
这是什么?
这些是在非结构化数据标准化过程中出现的麻烦副作用。
那有什么问题?
这些数据依赖性的共同结果是报告系统在分析这些不正确的数据时会丢弃这些数据。 因此,我们最终会得到不基于完整数据的不准确报告。 例如,假设我们有一个会话对象和一个广告对象。 在会话中,我们有第 10 天到第 20 天的数据,而在广告中,有第 10 天到第 15 天的数据(出于某种原因,没有第 16 天到第 20 天的费用数据)。 因此,要么我们丢失了第 16 天到第 20 天的广告数据,要么只有第 10 天到第 15 天的会话数据可用。
原因是什么?
当广告服务 API 更改、不可用或返回不正确的数据时,会出现不良副作用。
如何解决这个问题呢?
同样,您检查数据收集错误时,您应该始终验证您使用的数据。 此外,如果用户不知道数据合并的细节,那么在规范化数据时很可能会出现错误。 在实践中,这一步的最佳决策是开发一个数据质量监控系统,在数据异常的情况下向负责数据质量的人员发出警报。 为此,您可以使用 OWOX BI 等服务及其嵌入式数据监控功能。

我们的客户
生长 快22%
通过衡量在您的营销中最有效的方法来更快地增长
分析您的营销效率,找到增长领域,提高投资回报率
获取演示2. 不同的数据格式、结构和详细程度
这是什么?
每个广告平台或服务使用不同的数据格式、货币和结构。 因此,在从所有来源收集数据后,您必须将其规范化为单一格式/结构。
那有什么问题?
当你只有圆形和椭圆形的碎片时,建造一个三角形的堡垒是一项艰巨的任务。 当您拥有大量不同格式的数据集时,您根本无法在统一数据之前创建报告。
原因是什么?
跨广告服务有不同的数据方案。 例如,不同平台的同一列可以命名为产品名称和产品类别。 另一个例子是在成本数据中使用不同的货币:例如 Twitter 广告的美元和 Facebook 上的英镑。

如何解决这个问题呢?

在分析数据之前,必须将其转换为单一格式; 否则,您的分析将不会产生任何好处。 例如,您应该将用户会话数据与广告费用数据合并,以衡量每个特定流量来源或营销渠道的影响,并查看哪些广告活动为您带来更多收入。 当然,这可以通过使用脚本和 SQL 手动完成,但应用自动化解决方案是更好的选择。
第 4 步:准备业务就绪数据
业务就绪数据是结构中与业务模型相对应的经过清理的最终数据集。 换句话说,如果您已经完成了处理数据的所有步骤并完成了所有工作,那么您应该得到最终的数据集。 它的现成数据可以发送到任何数据可视化服务(Power BI、Tableau、Google Data Studio 等)。
但是,您不应将其与可以尝试构建报告的原始数据混淆。 这是一种错误的方法,会导致许多重复出现的问题:查找错误和差异原因需要很长时间,并且业务逻辑需要在所有 SQL 查询中不断重复。 当然,如此大量的原始、非结构化数据很难保持最新状态并控制转换逻辑的变化。 例如,您可能会遇到广告服务调整后更新成本数据历史记录等问题。 另一个例子可能是回购已完成的交易。 在这种情况下,需要时间来了解交易是否已被赎回,但我们必须将此状态归因于订单时刻。
不幸的是,通常的做法是跳过这一步并直接开始创建报告。 但是,我们的经验表明,必须使用最终数据集并为现代分析世界准备业务就绪数据。 从长远来看,使用准备好的数据比在原始数据上一遍又一遍地做同样的事情更便宜、更容易。
在此步骤中可能会出现哪些数据质量问题:
1. 缺乏数据定义导致差异
这是什么?
由于在整个数据处理过程中所需的数据类型定义不一致或不存在,因此很难控制转换逻辑的变化。
那有什么问题?
当数据没有明确定义时,用户就不会在数据使用方面达成一致:他们不确定要查询哪个表或列,使用哪个过滤器,或者向谁询问有关数据对象的信息。 此外,从原始数据中导航和理解所有数据对象需要很长时间,包括它们的属性、它们在数据模型中的位置以及它们之间的相关性。
原因是什么?
企业没有明确定义其核心数据和数据模型。 因此,合并数据的逻辑是不可理解的。
如何解决这个问题呢?
首先,不要将业务逻辑应用于每个报表或数据集,而是在公司级别使用数据建模。 在公司内部,应该有一个透明的业务数据模型和对数据生命周期的控制。 这意味着使用的所有定义都必须清楚。 例如,最终用户应该知道转化和网站访问者指标代表什么。
除此之外,由于准备和维护最新的模拟数据具有挑战性,因此答案在于应用可以收集、清理、规范化和监控数据质量的自动化解决方案(例如数据构建工具 (dbt))所以它已经做好了商业准备。
使用 OWOX BI 重新考虑您与数据的关系
OWOX BI 团队比任何人都更清楚数据问题的严重性,因为我们的每个客户都会遇到它。 我们制作了一款产品,使分析师能够自动化日常工作,从数据中传递商业价值,并确保数据质量。
OWOX BI 是一个统一平台,使您能够收集、准备和分析所有营销数据。 它可以自动将数据从孤立的来源传输到您的分析目的地,确保数据始终准确且最新。

通过应用 OWOX BI,您可以根据您的业务模型获取业务就绪数据,并通过透明的数据质量监控和易于使用的报告构建器来解锁洞察力,无需 SQL 或代码。
让我们看看 OWOX BI 如何在我们上面提到的所有步骤中为您提供帮助。
- 计划你的测量。 在我们专家的帮助下,为您的业务制定衡量计划或开发一个指标系统,特别是针对您的业务需求。
- 收集原始数据。 OWOX BI 从您的数据存储中的 Google Analytics、广告服务、网站、线下商店、呼叫跟踪系统和 CRM 系统收集原始数据。 该平台可与大型广告帐户顺利配合,并上传所有数据,无论活动数量如何。 除了自动导入成本数据外,OWOX BI还能识别UTM标签中的动态参数,将成本转换为一种货币,并监控数据的相关性。
您不再需要寻找各种连接器,如有必要,我们的团队甚至可以为您设置自定义集成。

- 标准化原始数据。 使用 OWOX BI 时,您无需手动清理、结构化和处理数据。 您将收到结构最清晰、最方便的现成数据集。 此外,您可以随时获取上传到 Google Analytics 的广告服务数据相关性的可视化报告。

- 准备业务数据。 借助 OWOX BI,您可以轻松获得值得信赖的业务就绪数据。 不再需要为每个新报告创建新数据集,因为您可以获得根据业务数据模型准备的预构建最终数据集。 借助可用于进一步数据细分的最新统一数据,您可以深入了解业务速度并提高数据价值。

- 可视化数据。 OWOX BI 平台可让您随时随地分析和可视化您的数据。 一旦您的营销数据准备就绪,您只需单击几下即可将其发送到您选择的 BI 或可视化工具。

预订免费演示,了解 OWOX BI 如何保证数据质量以及您如何从今天的全自动数据管理中受益!
步骤 5. 可视化数据
直观地展示关键指标是使数据发挥作用的最后一步,因此您的数据展示应该既能提供信息又便于用户使用。 自动化和正确配置的可视化可以显着减少发现问题的时间; 也就是说,您可以在同一时期以更少的努力执行更多的迭代以提高数据质量。
此外,重要的是要记住像流行的谷歌数据工作室这样的数据可视化服务不能合并或转换数据。 如果您需要基于多个数据源的报告,我们的建议是预先将您需要的所有数据收集到一个数据存储中以避免任何困难。
在此步骤中您可能会遇到的数据质量问题:
1. 事实数据错误
这些是什么?
当数据收集和规范化的先前级别出现问题时,数据错误最终会出现在数据可视化服务显示的报告中。
那有什么问题?
使用事实数据错误创建的报告是浪费时间和金钱。 它们不会为企业的风险和增长区域提供任何利润或有价值的见解。 对不起,马里奥,但公主在另一座城堡里!
原因是什么?
简单地说,可视化的数据是不相关的。 但是,要找出这些错误的来源,您应该一直回到再次验证您的数据。
如何解决这个问题呢?
解决此问题的唯一方法是在创建报告之前彻底准备数据并监控其质量。
2. 损坏的 SQL 查询或对报告(和/或 SQL 查询)的过多编辑
这是什么?
数据需求在不断变化,SQL 查询也在变化。 结果,报告系统变得越复杂,就越容易崩溃。
那有什么问题?
更改并没有错,除非更改太多以至于无法记住更改的内容,地点和时间。 最终,所有精心构建的报告系统都会消失,因为 SQL 查询不起作用并且没有正确的数据可以可视化。
原因是什么?
记住每一件小事是一个相当大的挑战,所以典型的错误是忘记在需要编辑的所有数据集上应用编辑。
如何解决这个问题呢?
理想情况下,用户应该能够生成营销报告,而无需使用大量 SQL 查询,也无需应用大量更改和/或编辑。
3. 对收集数据的误解和误用
这是什么?
最常见的问题之一是误解数据(因此,滥用数据)。 当可以以多种方式解释特定指标或参数时,就会发生这种情况。 例如,假设报告中有一个转化指标,并且该报告由不同的用户使用。 其中一位用户认为转化意味着访问网站,而另一位用户认为转化意味着下订单。 然而,还有第三个人认为这个转化指标是关于交付和购买的订单。 如您所见,有很多潜在的解释,因此您必须明确报告中提供了哪些信息。
那有什么问题?
如果没有清楚地了解报告和仪表板中使用了哪些数据,则无法保证您的决定将基于实际情况。
原因是什么?
对报告中使用的指标和参数的解释不明确或数据可视化类型不合适可能会导致糟糕的决策。
如何解决这个问题呢?
当您确保输入数据正确且相关时,数据验证不会结束。 这些数据仍然可能被滥用。 为避免此问题,最终用户必须能够访问完整、最新、业务就绪的数据,并清楚准确地解释报告中提供的信息。

我们的客户
生长 快22%
通过衡量在您的营销中最有效的方法来更快地增长
分析您的营销效率,找到增长领域,提高投资回报率
获取演示关键要点
质量分析始于质量数据。 您的数据工作应该是有价值和值得信赖的。 这就是为什么您应该主动识别和消除数据错误和差异,以获得全面的绩效报告并提高数据质量。 一般来说,提高数据质量是一个迭代过程,其中可以区分三个步骤:
- 检查数据的状态
- 定位降低数据质量的问题
- 解决问题
最耗时的是前两个步骤。 很难确定存在问题并了解在哪些情况下会出现错误。 在弄清楚问题是什么以及问题所在之后,事实证明它相对容易解决。
最后,您可以创建三个文档来改进您的数据:
- 数据移动方案
- 责任矩阵(谁负责什么)
- 业务数据模型