常見的數據質量問題以及如何克服這些問題

已發表: 2022-04-12

儘管我們處於數據驅動技術的時代,但超過 50% 的高管普遍對從分析中獲得的價值不滿意。 造成這種情況的主要原因之一是數據質量差。 此外,在任何任務的一開始就擁有低質量的數據會使進一步的行動變得毫無用處。 此外,做出的任何決定都將基於錯誤的信息,對於企業來說,這肯定是個壞消息。

這就是為什麼我們決定分享我們多年來處理數據的經驗和專業知識。 在過去的一年裡,我們與分析師同行進行了很多交談,並對世界級專家進行了很多采訪。 現在,我們想就數據處理中最常見的問題以及如何克服這些問題提供指導。

在本文中,我們討論了數據工作流的各個階段、可能發生的錯誤以及原因。 最重要的是,我們分享解決數據質量難題的方法。

目錄

  • 數據質量問題從何而來?
    • 步驟 1. 計劃測量
    • 步驟 2. 收集原始數據
    • 步驟 3. 標準化原始數據
    • 第 4 步:準備業務就緒數據
  • 使用 OWOX BI 重新考慮您與數據的關係
    • 步驟 5. 可視化數據
  • 關鍵要點

開始之前的一些定義:

什麼是質量數據? 簡而言之(就營銷數據而言),質量數據是相關的、最新的數據,沒有錯誤和差異。 如果我們在 Wikipedia 上查找數據質量,我們會看到超過 10 個 (!) 定義。 此外,維基百科引用了 DAMA NL 對使用 ISO 9001 作為參考框架的數據質量維度定義的最新研究。

為什麼質量數據對於營銷人員、分析師和決策者來說是必須的? 如果沒有質量可靠的數據,就不可能依靠營銷分析做出決策。


數據質量問題從何而來?

在處理營銷人員和分析師每天使用的大量數據時,完全消除錯誤和差異是一項挑戰。 立即向最終用戶提供高質量數據是極其困難的; 但是,可以主動消除和主動發現數據錯誤。 首先,讓我們看一下處理數據的過程,並區分可能出現數據質量問題的步驟:

  1. 測量計劃
  2. 主要數據收集
  3. 原始數據標準化
  4. 業務數據準備
  5. 數據可視化

根據我們的經驗,事實數據錯誤通常出現在前兩個步驟中,而數據濫用的情況在最後步驟中更頻繁地發生。

數據處理工作流程

讓我們更詳細地了解在這些步驟中會出現哪些數據質量問題以及如何解決這些問題。

步驟 1. 計劃測量

即使這一步數據沒有錯誤,我們也不能完全忽略它。 魔鬼在細節中,收集數據進行分析始於詳細的計劃。 我們的建議是始終從快速分析開始,並仔細計劃您需要的所有營銷數據的收集。

跳過計劃步驟會導致採用非結構化方法並且沒有足夠的數據用於新任務或項目,而目標是從您使用的所有數據源中收集零散的數據。 如果您沒有所有數據,那麼您的決策和行動從一開始就存在缺陷。 讓我們看看在開始新項目之前應該收集哪些數據:

  • 來自您的網站和/或應用程序的用戶行為數據
  • 來自廣告平台的成本數據
  • 呼叫跟踪、聊天機器人和電子郵件數據
  • 來自您的 CRM/ERP 系統等的實際銷售數據。

步驟 2. 收集原始數據

創建測量計劃後,讓我們繼續進行主要的數據收集步驟。 在此步驟中,除了您需要克服的所有其他挑戰外,您還必須考慮控制對數據的訪問(這完全與數據安全有關)並提前準備好創建數據存儲或數據湖。

如果您想在不修改原始數據的情況下完全控制它,我們的建議是使用具有自動數據導入功能的單一存儲。 對於營銷需求,Google BigQuery 仍然是最佳選擇之一。

在此步驟中您可能會遇到哪些數據質量難題:

1.1 從廣告服務的 API 獲取不完整和不正確的數據

這是什麼?

廣告平台和服務收集了大量有價值的用戶行為數據,而當您試圖從這些數據源中完整地獲取所有這些信息而又不損害其完整性時,就會出現問題。

*應用程序編程接口 (API) 是服務器的一部分,用於傳輸數據(接收請求並發送響應),每次用戶訪問網站上的頁面時都會與用戶交互。 大多數現代網站至少使用幾個第三方 API。

那有什麼問題?

廣告服務收集有關用戶行為的數據; 但是,數據在傳輸後可能會發生追溯變化,並且服務 API 可能會更新或在一段時間內不可用。 結果,部分數據根本無法傳遞,數據的整體質量將受到破壞。 分析師可能不知道這一點,並可能使用不相關的數據來準備業務數據。 但是,不可能根據不完整和/或不准確的數據獲得有用的見解或做出正確的決定。 簡而言之,您可以投入大量時間和精力,但仍然發現自己回到了階梯的底部,既沒有有用的數據,也沒有證明績效對企業來說是成功和有利可圖的。

原因是什麼?

由於數據丟失、差異或重複,數據可能不完整或不正確。 這些問題的常見原因包括:

  • 在廣告平台上創建了一個新帳戶,但不會通知分析師,也不會收集其中的數據。
  • API 不支持 UTM 標籤中的動態參數,也不收集或傳輸它們。 如果您在 UTM 標記中使用不受支持的參數,您將看到參數名稱而不是它們的值 - 例如,{{geo}} 而不是實際的廣告系列名稱。
  • 回顧性數據更新。 廣告服務通常會追溯更新數據(關於廣告帳戶中的費用、點擊次數和展示次數)。 然而,並非所有分析師都意識到這一點並考慮到這一點。

如何解決這個問題呢?

由於在使用 API 時無法直接控制代碼,因此您可以通過以下方式解決這些問題:

  • 在數據收集期間分配責任範圍,以更好地控制數據收集。
  • 使用支持API更改、動態參數等的自動化數據導入工具。在數據不可用的情況下,這些工具可以顯示現有的數據差距並追溯下載數據。

1.2 從網站獲取不完整和不正確的數據

這是什麼?

通過分析來自廣告服務的數據,我們知道我們在廣告上花費了多少。 從網站用戶行為數據中,我們獲得了有關我們收入的信息。 由於商業問題通常聽起來像“哪些廣告有回報,哪些沒有?” 了解收入/支出比率至關重要。

那有什麼問題?

網站用戶行為數據不同於廣告服務收集的成本數據,因為網站用戶行為數據:

  • 由網站所有者直接收集
  • 在數量上明顯大於來自廣告服務的成本數據

此外,如果我們沒有註意到沒有收集用戶行為數據並且我們沒有消除問題,那麼這些數據將永遠丟失。

與來自廣告服務 API 的數據收集問題一樣,不完整或不正確的信息會導致錯誤的解決方案。 反過來,不正確的管理決策會導致收入損失。

原因是什麼?

收集網站數據時可能會出現錯誤,因為:

  • 並非所有網站頁面都有 Google 跟踪代碼管理器 (GTM) 容器。 GTM 收集廣告活動的結果和用戶行為數據。 因此,如果頁面上沒有 GTM 容器,則不會收集任何數據。
  • Google Cloud 項目未按時付款,因此數據收集被擱置。
  • 網站用戶在申請表中輸入的數據(姓名、地址、電子郵件等)的正確性未經驗證。

如何解決這個問題呢?

與從 API 收集數據一樣,網站數據收集的解決方案包括:

  • 在數據收集期間分配責任範圍,以更好地控制數據收集
  • 使用自動數據導入工具; 如果數據不可用,這些工具可以警告您現有的數據錯誤

2. 獲取匯總的抽樣數據

這是什麼?

匯總和抽樣數據是在並非所有數據都被處理並用於分析和報告的情況下出現的一般化數據。 當 Google Analytics 等服務僅分析部分數據以減少服務器負載並平衡數據處理的速度和準確性時,就會發生這種情況。 由於抽樣會導致泛化,因此會導致對獲得的結果缺乏信任。

那有什麼問題?

抽樣報告會扭曲績效數據,當涉及到與金錢相關的指標(如目標、轉化率和收入)時,這可能會讓您損失慘重。 因此,您可能不會注意到盈利的廣告活動,並且可能由於報告中的數據失真而將其關閉,反之亦然——您可能會將所有的錢花在低效的活動上。

換句話說,每次應用採樣時,都有獲得不准確結果的風險。 如果你試圖只根據部分數據做出決定,你就會在公司的預算範圍內玩猜謎遊戲。

原因是什麼?

為了盡快創建報告並節省資源,系統應用採樣、聚合和過濾,而不是處理海量數據陣列。

如何解決這個問題呢?

避免數據採樣的唯一方法是收集原始數據並不斷檢查所有報告中的數據完整性。 該過程監控優選地自動完成,作為避開人為因素的一種方式。 例如,您可以像 OZON 在 OWOX BI 的幫助下所做的那樣,在您的網站上應用對正確指標收集的自動測試。

步驟 3. 標準化原始數據

在收集了所有必要的數據之後,是時候對其進行標準化了。 在這一步,分析師將可用信息轉換為業務所需的形式。 例如,我們必須將電話號碼轉換為單一格式。

數據規範化是一項手動和例行的“猴子工作”,通常使分析師無法完成更令人興奮的任務,例如提取有用的數據洞察力。 更不用說標準化困難通常會佔用分析師整體工作時間的 50%。

在這一階段可能會遇到的數據質量困難:

1、插入、更新、刪除依賴

這是什麼?

這些是在非結構化數據標準化過程中出現的麻煩副作用。

那有什麼問題?

這些數據依賴性的共同結果是報告系統在分析這些不正確的數據時會丟棄這些數據。 因此,我們最終會得到不基於完整數據的不准確報告。 例如,假設我們有一個會話對象和一個廣告對象。 在會話中,我們有第 10 天到第 20 天的數據,而在廣告中,有第 10 天到第 15 天的數據(出於某種原因,沒有第 16 天到第 20 天的費用數據)。 因此,要么我們丟失了第 16 天到第 20 天的廣告數據,要么只有第 10 天到第 15 天的會話數據可用。

原因是什麼?

當廣告服務 API 更改、不可用或返回不正確的數據時,會出現不良副作用。

如何解決這個問題呢?

同樣,您檢查數據收集錯誤時,您應該始終驗證您使用的數據。 此外,如果用戶不知道數據合併的細節,那麼在規範化數據時很可能會出現錯誤。 在實踐中,這一步的最佳決策是開發一個數據質量監控系統,在數據異常的情況下向負責數據質量的人員發出警報。 為此,您可以使用 OWOX BI 等服務及其嵌入式數據監控功能。

我們的客戶
生長 22%

通過衡量在您的營銷中最有效的方法來更快地增長

分析您的營銷效率,找到增長領域,提高投資回報率

獲取演示

2. 不同的數據格式、結構和詳細程度

這是什麼?

每個廣告平台或服務使用不同的數據格式、貨幣和結構。 因此,在從所有來源收集數據後,您必須將其規範化為單一格式/結構。

那有什麼問題?

當你只有圓形和橢圓形的碎片時,建造一個三角形的堡壘是一項艱鉅的任務。 當您擁有大量不同格式的數據集時,您根本無法在統一數據之前創建報告。

原因是什麼?

跨廣告服務有不同的數據方案。 例如,不同平台的同一列可以命名為產品名稱和產品類別。 另一個例子是在成本數據中使用不同的貨幣:例如 Twitter 廣告的美元和 Facebook 上的英鎊。


如何解決這個問題呢?

在分析數據之前,必須將其轉換為單一格式; 否則,您的分析將不會產生任何好處。 例如,您應該將用戶會話數據與廣告費用數據合併,以衡量每個特定流量來源或營銷渠道的影響,並查看哪些廣告活動為您帶來更多收入。 當然,這可以通過使用腳本和 SQL 手動完成,但應用自動化解決方案是更好的選擇。

第 4 步:準備業務就緒數據

業務就緒數據是結構中與業務模型相對應的經過清理的最終數據集。 換句話說,如果您已經完成了處理數據的所有步驟並完成了所有工作,那麼您應該得到最終的數據集。 它的現成數據可以發送到任何數據可視化服務(Power BI、Tableau、Google Data Studio 等)。

但是,您不應將其與可以嘗試構建報告的原始數據混淆。 這是一種錯誤的方法,會導致許多重複出現的問題:查找錯誤和差異原因需要很長時間,並且業務邏輯需要在所有 SQL 查詢中不斷重複。 當然,如此大量的原始、非結構化數據很難保持最新狀態並控制轉換邏輯的變化。 例如,您可能會遇到廣告服務調整後更新成本數據歷史記錄等問題。 另一個例子可能是回購已完成的交易。 在這種情況下,需要時間來了解交易是否已被贖回,但我們必須將此狀態歸因於訂單時刻。

不幸的是,通常的做法是跳過這一步並直接開始創建報告。 但是,我們的經驗表明,必須使用最終數據集並為現代分析世界準備業務就緒數據。 從長遠來看,使用準備好的數據比在原始數據上一遍又一遍地做同樣的事情更便宜、更容易。

在此步驟中可能會出現哪些數據質量問題:


1. 缺乏數據定義導致差異

這是什麼?

由於在整個數據處理過程中所需的數據類型定義不一致或不存在,因此很難控制轉換邏輯的變化。

那有什麼問題?

當數據沒有明確定義時,用戶就不會在數據使用方面達成一致:他們不確定要查詢哪個表或列,使用哪個過濾器,或者向誰詢問有關數據對象的信息。 此外,從原始數據中導航和理解所有數據對象需要很長時間,包括它們的屬性、它們在數據模型中的位置以及它們之間的相關性。

原因是什麼?

企業沒有明確定義其核心數據和數據模型。 因此,合併數據的邏輯是不可理解的。

如何解決這個問題呢?

首先,不要將業務邏輯應用於每個報表或數據集,而是在公司級別使用數據建模。 在公司內部,應該有一個透明的業務數據模型和對數據生命週期的控制。 這意味著使用的所有定義都必須清楚。 例如,最終用戶應該知道轉化和網站訪問者指標代表什麼。

除此之外,由於準備和維護最新的模擬數據具有挑戰性,答案在於應用可以收集、清理、規範化和監控數據質量的自動化解決方案(例如數據構建工具 (dbt))所以它已經做好了商業準備。


使用 OWOX BI 重新考慮您與數據的關係

OWOX BI 團隊比任何人都更清楚數據問題的嚴重性,因為我們的每個客戶都會遇到它。 我們製作了一款產品,使分析師能夠自動化日常工作,從數據中傳遞商業價值,並確保數據質量。

OWOX BI 是一個統一平台,使您能夠收集、準備和分析所有營銷數據。 它可以自動將數據從孤立的來源傳輸到您的分析目的地,確保數據始終準確且最新。

通過應用 OWOX BI,您可以根據您的業務模型獲取業務就緒數據,並通過透明的數據質量監控和易於使用的報告構建器來解鎖洞察力,無需 SQL 或代碼。

讓我們看看 OWOX BI 如何在我們上面提到的所有步驟中為您提供幫助。

  • 計劃你的測量。 在我們專家的幫助下,為您的業務制定衡量計劃或開發一個指標系統,特別是針對您的業務需求。
  • 收集原始數據。 OWOX BI 從您的數據存儲中的 Google Analytics、廣告服務、網站、線下商店、呼叫跟踪系統和 CRM 系統收集原始數據。 該平台可與大型廣告帳戶順利配合,並上傳所有數據,無論活動數量如何。 除了自動導入成本數據外,OWOX BI還能識別UTM標籤中的動態參數,將成本轉換為一種貨幣,並監控數據的相關性。

您不再需要尋找各種連接器,如有必要,我們的團隊甚至可以為您設置自定義集成。

  • 標準化原始數據。 使用 OWOX BI 時,您無需手動清理、結構化和處理數據。 您將收到結構最清晰、最方便的現成數據集。 此外,您可以隨時獲取上傳到 Google Analytics 的廣告服務數據相關性的可視化報告。

  • 準備業務數據。 借助 OWOX BI,您可以輕鬆獲得值得信賴的業務就緒數據。 不再需要為每個新報告創建新數據集,因為您可以獲得根據業務數據模型準備的預構建最終數據集。 借助可用於進一步數據細分的最新統一數據,您可以深入了解業務速度並提高數據價值。


  • 可視化數據。 OWOX BI 平台可讓您隨時隨地分析和可視化您的數據。 一旦您的營銷數據準備就緒,您只需單擊幾下即可將其發送到您選擇的 BI 或可視化工具。

預訂免費演示,了解 OWOX BI 如何保證數據質量以及您如何從今天的全自動數據管理中受益!

預約演示

步驟 5. 可視化數據

直觀地展示關鍵指標是使數據發揮作用的最後一步,因此您的數據展示應該既能提供信息又便於用戶使用。 自動化和正確配置的可視化可以顯著減少發現問題的時間; 也就是說,您可以在同一時期以更少的努力執行更多的迭代來提高數據質量。

此外,重要的是要記住像流行的谷歌數據工作室這樣的數據可視化服務不能合併或轉換數據。 如果您需要基於多個數據源的報告,我們的建議是預先將您需要的所有數據收集到一個數據存儲中以避免任何困難。

在此步驟中您可能會遇到的數據質量問題:

1. 事實數據錯誤

這些是什麼?

當數據收集和規範化的先前級別出現問題時,數據錯誤最終會出現在數據可視化服務顯示的報告中。

那有什麼問題?

使用事實數據錯誤創建的報告是浪費時間和金錢。 它們不會為企業的風險和增長區域提供任何利潤或有價值的見解。 對不起,馬里奧,但公主在另一座城堡裡!

原因是什麼?

簡單地說,可視化的數據是不相關的。 但是,要找出這些錯誤的來源,您應該一直回到再次驗證您的數據。

如何解決這個問題呢?

解決此問題的唯一方法是在創建報告之前徹底準備數據並監控其質量。

2. 損壞的 SQL 查詢或對報告(和/或 SQL 查詢)的過多編輯

這是什麼?

數據需求在不斷變化,SQL 查詢也在變化。 結果,報告系統變得越複雜,就越容易崩潰。

那有什麼問題?

更改並沒有錯,除非更改太多以至於無法記住更改的內容,地點和時間。 最終,所有精心構建的報告系統都會消失,因為 SQL 查詢不起作用並且沒有正確的數據可以可視化。

原因是什麼?

記住每一件小事是一個相當大的挑戰,所以典型的錯誤是忘記在需要編輯的所有數據集上應用編輯。

如何解決這個問題呢?

理想情況下,用戶應該能夠生成營銷報告,而無需使用大量 SQL 查詢,也無需應用大量更改和/或編輯。

3. 對收集數據的誤解和誤用

這是什麼?

最常見的問題之一是誤解數據(因此,濫用數據)。 當可以以多種方式解釋特定指標或參數時,就會發生這種情況。 例如,假設報告中有一個轉化指標,並且該報告由不同的用戶使用。 其中一位用戶認為轉化意味著訪問網站,而另一位用戶認為轉化意味著下訂單。 然而,還有第三個人認為這個轉化指標是關於交付和購買的訂單。 如您所見,有很多潛在的解釋,因此您必須明確報告中提供了哪些信息。

那有什麼問題?

如果沒有清楚地了解報告和儀表板中使用了哪些數據,則無法保證您的決定將基於實際情況。

原因是什麼?

對報告中使用的指標和參數的解釋不明確或數據可視化類型不合適可能會導致糟糕的決策。

如何解決這個問題呢?

當您確保輸入數據正確且相關時,數據驗證不會結束。 這些數據仍然可能被濫用。 為避免此問題,最終用戶必須能夠訪問完整、最新、業務就緒的數據,並清楚準確地解釋報告中提供的信息。


我們的客戶
生長 22%

通過衡量在您的營銷中最有效的方法來更快地增長

分析您的營銷效率,找到增長領域,提高投資回報率

獲取演示

關鍵要點

質量分析始於質量數據。 您的數據工作應該是有價值和值得信賴的。 這就是為什麼您應該主動識別和消除數據錯誤和差異,以獲得全面的績效報告並提高數據質量。 一般來說,提高數據質量是一個迭代過程,其中可以區分三個步驟:

  1. 檢查數據的狀態
  2. 定位降低數據質量的問題
  3. 解決問題

最耗時的是前兩個步驟。 很難確定存在問題並了解在哪些情況下會出現錯誤。 在弄清楚問題是什麼以及問題所在之後,事實證明它相對容易解決。

最後,您可以創建三個文檔來改進您的數據:

  • 數據移動方案
  • 責任矩陣(誰負責什麼)
  • 業務數據模型