일반적인 데이터 품질 문제 및 해결 방법
게시 됨: 2022-04-12우리는 데이터 기반 기술의 시대에 살고 있지만 고위 경영진의 50% 이상이 일반적으로 분석을 통해 얻은 가치에 불만을 갖고 있습니다. 이것의 주된 이유 중 하나는 열악한 데이터 품질 입니다. 더욱이 작업 초기에 데이터 품질이 좋지 않으면 추가 작업이 무의미해집니다. 또한 모든 결정은 잘못된 정보를 기반으로 하므로 기업 입장에서 이는 분명 나쁜 소식입니다.
이것이 우리가 다년간의 데이터 작업 경험과 전문 지식을 공유하기로 결정한 이유입니다. 지난 1년 동안 우리는 동료 분석가들과 많은 이야기를 나누었고 세계 정상급 전문가들과 많은 인터뷰를 진행했습니다. 이제 데이터 작업에서 가장 자주 발생하는 문제와 이를 극복하는 방법에 대한 지침을 제공하고자 합니다.
이 기사에서는 데이터 워크플로의 단계, 발생할 수 있는 오류 및 이유에 대해 설명합니다. 그리고 가장 중요한 것은 데이터 품질 문제를 해결하기 위한 접근 방식을 공유한다는 것입니다.
목차
- 데이터 품질 문제는 어디에서 발생합니까?
- 1단계. 측정 계획
- 2단계. 기본 데이터 수집
- 3단계. 원시 데이터 정규화
- 4단계. 비즈니스용 데이터 준비
- OWOX BI로 데이터와의 관계를 재고하십시오
- 5단계. 데이터 시각화
- 핵심 테이크아웃
시작하기 전에 몇 가지 정의:
품질 데이터란 무엇입니까? 간단히 말해서(마케팅 데이터 측면에서) 품질 데이터는 관련성이 있고 오류와 불일치가 없는 최신 데이터 입니다. Wikipedia에서 데이터 품질을 조회하면 10개 이상의 정의(!)를 볼 수 있습니다. 또한 Wikipedia는 ISO 9001을 참조 프레임으로 사용하여 데이터 품질 차원의 정의에 대한 DAMA NL의 최신 연구를 인용합니다.

마케터, 분석가, 의사결정자에게 양질의 데이터가 필요한 이유는 무엇입니까? 품질과 신뢰할 수 있는 데이터가 없으면 마케팅 분석에 의존하여 의사 결정을 내리는 것이 불가능합니다.
데이터 품질 문제는 어디에서 발생합니까?
마케터와 분석가가 매일 사용하는 방대한 양의 데이터를 처리할 때 오류와 불일치를 완전히 제거하는 것은 어려운 일입니다. 최종 사용자에게 양질의 데이터를 즉시 제공하는 것은 극히 어렵습니다. 그러나 데이터 오류는 능동적으로 대처하고 사전에 발견할 수 있습니다. 우선 데이터 작업 프로세스를 살펴보고 데이터 품질 문제가 나타날 수 있는 단계를 구분해 보겠습니다.
- 측정 계획
- 기본 데이터 수집
- 원시 데이터 정규화
- 비즈니스 데이터 준비
- 데이터 시각화
경험상 사실 데이터 오류는 일반적으로 처음 두 단계에서 나타나는 반면 데이터 오용 사례는 마지막 단계에서 더 자주 발생합니다.

이러한 단계에서 발생할 수 있는 데이터 품질 문제와 해결 방법에 대해 자세히 알아보겠습니다.
1단계. 측정 계획
이 단계에서 데이터에 오류가 없더라도 완전히 생략할 수는 없습니다. 악마는 디테일에 있고, 분석을 위한 데이터 수집은 디테일한 계획에서 시작됩니다. 항상 빠른 분석으로 시작하여 필요한 모든 마케팅 데이터 수집을 신중하게 계획하는 것이 좋습니다.
계획 단계를 건너뛰면 구조화되지 않은 접근 방식이 발생하고 새로운 작업이나 프로젝트를 위한 데이터가 충분하지 않은 반면, 목표는 작업하는 모든 데이터 소스에서 조각난 데이터를 수집하는 것입니다. 모든 데이터가 없으면 처음부터 결정과 행동에 결함이 생깁니다. 새 프로젝트를 시작하기 전에 어떤 데이터를 수집해야 하는지 알아보겠습니다.
- 웹사이트 및/또는 애플리케이션의 사용자 행동 데이터
- 광고 플랫폼의 비용 데이터
- 통화 추적, 챗봇 및 이메일 데이터
- CRM/ERP 시스템 등의 실제 판매 데이터
2단계. 기본 데이터 수집
측정 계획을 만든 후에는 기본 데이터 수집 단계를 진행해 보겠습니다. 이 단계에서 극복해야 하는 다른 모든 과제 중에서 데이터에 대한 액세스 제어(모든 것은 데이터 보안에 관한 것임)와 데이터 저장소 또는 데이터 레이크 생성을 미리 준비하는 것을 고려해야 합니다.
원시 데이터를 수정하지 않고 완벽하게 제어하려면 자동화된 데이터 가져오기가 있는 단일 저장소를 사용하는 것이 좋습니다. 마케팅 요구 사항의 경우 Google BigQuery가 최고의 옵션 중 하나로 남아 있습니다.
이 단계에서 발생할 수 있는 데이터 품질 문제:
1.1 광고 서비스의 API에서 불완전하고 잘못된 데이터 가져오기
이게 뭔가요?
광고 플랫폼과 서비스는 방대한 양의 귀중한 사용자 행동 데이터를 수집하며, 이러한 데이터 소스의 완전성을 손상시키지 않으면서 이 모든 정보를 완전히 얻으려고 할 때 문제가 발생합니다.
*API(응용 프로그래밍 인터페이스)는 사용자가 웹사이트의 페이지를 방문할 때마다 사용자와 상호 작용하는 데이터를 전송(요청 수신 및 응답 전송)하는 서버의 일부입니다. 대부분의 최신 웹사이트는 최소한 여러 타사 API를 사용합니다.
그게 무슨 문제야?
광고 서비스는 사용자의 행동에 대한 데이터를 수집합니다. 단, 데이터는 전송 후 소급하여 변경될 수 있으며, 서비스 API가 업데이트되거나 일정 기간 사용이 불가능할 수 있습니다. 결과적으로 데이터의 일부가 단순히 전달되지 않고 데이터의 전반적인 품질이 손상됩니다. 분석가는 이에 대해 알지 못할 수 있으며 관련 없는 데이터를 사용하여 비즈니스 데이터를 준비할 수 있습니다. 그러나 불완전하거나 부정확한 데이터를 기반으로 유용한 통찰력을 얻거나 올바른 결정을 내리는 것은 불가능합니다. 간단히 말해서, 많은 시간과 노력을 투자해도 유용한 데이터도 없고 성과가 비즈니스에 성공하고 수익성이 있다는 증거도 없이 여전히 사다리의 맨 아래로 돌아갈 수 있습니다.
이유는 무엇입니까?
데이터 손실, 불일치 또는 중복으로 인해 데이터가 불완전하거나 부정확할 수 있습니다. 이러한 문제의 일반적인 이유는 다음과 같습니다.
- 광고 플랫폼에 새 계정이 생성되지만 분석가에게 알리지 않고 해당 계정의 데이터가 수집되지 않습니다.
- API는 UTM 태그의 동적 매개변수를 지원하지 않으며 이를 수집하거나 전송하지 않습니다. UTM 태그에서 지원되지 않는 매개변수를 사용하면 값 대신 매개변수 이름이 표시됩니다(예: 실제 캠페인 이름 대신 {{geo}}).
- 소급 데이터 업데이트. 광고 서비스는 종종 데이터(광고 계정의 비용, 클릭 및 노출)를 소급하여 업데이트합니다. 그러나 모든 분석가가 이를 인지하고 고려하는 것은 아닙니다.
이 문제를 해결하는 방법은 무엇입니까?
API로 작업할 때 코드를 직접 제어하는 것은 불가능하므로 다음을 통해 이러한 문제를 해결할 수 있습니다.
- 데이터 수집 동안 책임 영역을 분산하여 데이터 수집을 더 잘 제어할 수 있습니다.
- API 변경, 동적 매개변수 등을 지원하는 자동화된 데이터 가져오기 도구를 사용합니다. 데이터를 사용할 수 없는 경우 이러한 도구는 기존 데이터 격차를 표시하고 소급하여 데이터를 다운로드할 수 있습니다.
1.2 웹사이트에서 불완전하고 잘못된 데이터 가져오기
이게 뭔가요?
광고 서비스의 데이터를 분석함으로써 우리는 광고에 얼마를 지출하는지 알 수 있습니다. 웹사이트 사용자 행동 데이터를 통해 우리는 수입에 대한 정보를 얻습니다. 비즈니스 질문은 일반적으로 "어떤 광고가 효과가 있고 어떤 광고가 효과가 없습니까?"와 같이 들리기 때문입니다. 수입/지출 비율을 아는 것은 필수적입니다.
그게 무슨 문제야?
웹사이트 사용자 행동에 대한 데이터는 다음과 같은 이유로 광고 서비스에서 수집한 비용 데이터와 다릅니다.
- 웹사이트 소유자가 직접 수집
- 광고 서비스의 비용 데이터보다 볼륨이 훨씬 큽니다.
또한 사용자 행동 데이터 수집이 없다는 사실을 인지하지 못하고 문제를 제거하지 않으면 이 데이터는 영원히 손실됩니다.
광고 서비스 API의 데이터 수집 문제와 마찬가지로 불완전하거나 잘못된 정보는 잘못된 솔루션으로 이어집니다. 잘못된 경영 결정은 차례로 소득 손실로 이어집니다.
이유는 무엇입니까?
다음과 같은 이유로 웹사이트 데이터를 수집할 때 오류가 발생할 수 있습니다.
- 모든 웹사이트 페이지에 Google 태그 관리자(GTM) 컨테이너가 있는 것은 아닙니다. GTM은 광고 캠페인의 결과와 사용자 행동 데이터를 수집합니다. 따라서 페이지에 GTM 컨테이너가 없으면 데이터가 수집되지 않습니다.
- GCP 프로젝트가 정시에 지불되지 않아 데이터 수집이 보류됩니다.
- 웹사이트 사용자가 지원서에 입력한 데이터(이름, 주소, 이메일 등)의 정확성은 검증되지 않습니다.
이 문제를 해결하는 방법은 무엇입니까?
API에서 데이터를 수집할 때와 마찬가지로 웹사이트 데이터 수집을 위한 솔루션에는 다음이 포함됩니다.
- 데이터 수집에 대한 더 나은 제어를 얻기 위해 데이터 수집 중 책임 영역을 분산
- 자동화된 데이터 가져오기 도구 사용 데이터를 사용할 수 없는 경우 이러한 도구는 기존 데이터 오류에 대해 경고할 수 있습니다.
2. 집계되고 샘플링된 데이터 가져오기
이게 뭔가요?
집계 및 샘플링 데이터는 모든 데이터가 분석 및 보고를 위해 처리 및 사용되지 않는 경우에 나타나는 일반화된 데이터입니다. 이는 Google Analytics와 같은 서비스가 데이터의 일부만 분석하여 서버의 부하를 줄이고 데이터 처리 속도와 정확성의 균형을 맞출 때 발생합니다. 표본추출은 일반화의 결과를 가져오기 때문에 얻은 결과에 대한 신뢰 부족으로 이어진다.
그게 무슨 문제야?
샘플링된 보고서는 실적 데이터를 왜곡하고 목표, 전환 및 수익과 같은 금전 관련 측정항목과 관련하여 막대한 비용을 초래할 수 있습니다. 이 때문에 수익성 있는 광고 캠페인을 알아차리지 못할 위험이 있으며 보고서의 왜곡된 데이터로 인해 광고 캠페인을 끌 수 있으며 그 반대의 경우도 마찬가지입니다. 모든 비용을 비효율적인 캠페인에 지출할 수 있습니다.
즉, 샘플링을 적용할 때마다 부정확한 결과를 얻을 위험이 있습니다. 그리고 데이터의 일부만을 기반으로 결정을 내리려고 하면 회사의 예산으로 추측 게임을 하게 됩니다.
이유는 무엇입니까?
가능한 한 빨리 보고서를 만들고 리소스를 절약하기 위해 시스템은 방대한 데이터 배열을 처리하는 대신 샘플링, 집계 및 필터링을 적용합니다.
이 문제를 해결하는 방법은 무엇입니까?
데이터 샘플링을 피하기 위해 할 수 있는 유일한 방법은 원시 데이터를 수집하고 모든 보고서에서 데이터 완전성을 지속적으로 확인하는 것입니다. 이 프로세스 모니터링은 인적 요소를 피하기 위해 자동으로 수행되는 것이 좋습니다. 예를 들어, OWOX BI의 도움으로 OZON이 했던 것처럼 웹사이트에서 올바른 메트릭 수집에 대한 자동 테스트를 적용할 수 있습니다.
3단계. 원시 데이터 정규화
필요한 모든 데이터를 수집한 후 정규화할 차례입니다. 이 단계에서 분석가는 사용 가능한 정보를 비즈니스에서 요구하는 형식으로 바꿉니다. 예를 들어 전화번호를 단일 형식으로 가져와야 합니다.
데이터 정규화는 일반적으로 유용한 데이터 통찰력 추출과 같은 더 흥미로운 작업에서 분석가를 유지하는 수동적이고 일상적인 "원숭이 작업"입니다. 정상화의 어려움은 일반적으로 분석가 전체 작업 시간의 최대 50%를 차지합니다.
이 단계에서 발생할 수 있는 데이터 품질 문제:
1. 삽입, 업데이트 및 삭제 종속성
이게 뭔가요?
이는 비정형 데이터의 정규화 과정에서 나타나는 골치 아픈 부작용입니다.
그게 무슨 문제야?
이러한 데이터 종속성의 일반적인 결과는 보고 시스템이 분석하는 동안 잘못된 데이터를 폐기한다는 것입니다. 결과적으로 전체 데이터를 기반으로 하지 않는 부정확한 보고서가 생성됩니다. 예를 들어 세션 개체와 광고 개체가 있다고 가정합니다. 세션에는 10일부터 20일까지의 데이터가 있고 광고에는 10일부터 15일까지의 데이터가 있습니다(어떤 이유로 16일부터 20일까지는 비용 데이터가 없습니다). 따라서 16~20일 동안 광고 데이터가 손실되거나 세션 데이터는 10~15일 동안만 사용할 수 있습니다.
이유는 무엇입니까?
광고 서비스 API가 변경되거나 사용할 수 없거나 잘못된 데이터를 반환하면 바람직하지 않은 부작용이 나타납니다.
이 문제를 해결하는 방법은 무엇입니까?
같은 방식으로 데이터 수집 오류를 확인하고 작업하는 데이터를 항상 확인해야 합니다. 또한 사용자가 데이터 병합의 세부 사항을 알지 못하면 데이터를 정규화하는 동안 실수가 발생할 가능성이 있습니다. 실제로, 이 단계에서 최선의 결정은 데이터 이상 시 데이터 품질 책임자에게 경고하는 데이터 품질 모니터링 시스템을 개발하는 것입니다. 이를 위해 데이터 모니터링 기능이 내장된 OWOX BI와 같은 서비스를 사용할 수 있습니다.

우리의 클라이언트
자라다 22% 더 빠름
마케팅에서 가장 효과적인 것을 측정하여 더 빠르게 성장
마케팅 효율성 분석, 성장 영역 찾기, ROI 증가
데모 받기2. 다양한 데이터 형식, 구조 및 세부 수준
이게 뭔가요?
각 광고 플랫폼 또는 서비스는 서로 다른 데이터 형식, 통화 및 구조를 사용합니다. 결과적으로 모든 소스에서 데이터를 수집한 후 단일 형식/구조로 정규화해야 합니다.
그게 무슨 문제야?
가지고 있는 모든 것이 원형 및 타원형 조각일 때 삼각형 요새를 건설하는 것은 힘든 작업입니다. 다양한 형식의 데이터 세트가 많으면 데이터를 통합하기 전에 보고서를 작성할 수 없습니다.
이유는 무엇입니까?
광고 서비스에는 다양한 데이터 체계가 있습니다. 예를 들어, 다른 플랫폼에 있는 동일한 열의 이름을 제품 이름 및 제품 범주로 지정할 수 있습니다. 또 다른 예는 비용 데이터에 다른 통화를 사용하는 것입니다. 예를 들어 Twitter 광고의 경우 달러, Facebook의 경우 파운드입니다.


이 문제를 해결하는 방법은 무엇입니까?
데이터를 분석하기 전에 단일 형식으로 변환해야 합니다. 그렇지 않으면 분석에서 좋은 결과가 나오지 않습니다. 예를 들어, 사용자 세션 데이터를 광고 비용 데이터와 병합하여 각 특정 트래픽 소스 또는 마케팅 채널의 영향을 측정하고 더 많은 수익을 가져다 주는 광고 캠페인을 확인해야 합니다. 물론 이것은 스크립트와 SQL을 활용하여 수동으로 수행할 수 있지만 자동화된 솔루션을 적용하는 것이 더 나은 선택입니다.
4단계. 비즈니스용 데이터 준비
비즈니스 준비 데이터는 비즈니스 모델에 해당하는 구조의 정리된 최종 데이터 세트입니다. 즉, 데이터 작업의 모든 단계를 거쳤고 모든 작업을 완료했다면 최종 데이터 세트를 가져와야 합니다. 모든 데이터 시각화 서비스(Power BI, Tableau, Google Data Studio 등)로 보낼 수 있는 기성 데이터입니다.
그러나 보고서 작성을 시도할 수 있는 원시 데이터와 혼동해서는 안 됩니다. 이는 많은 반복적인 문제를 수반하는 잘못된 접근 방식입니다. 오류와 불일치의 원인을 찾는 데 오랜 시간이 걸리고 비즈니스 논리가 모든 SQL 쿼리에서 지속적으로 복제되어야 합니다. 물론, 구조화되지 않은 원시 데이터의 이러한 볼륨은 최신 상태를 유지하고 변환 논리의 변경 사항을 제어하기가 어렵습니다. 예를 들어 광고 서비스에서 비용 데이터 내역을 조정한 후 비용 데이터 내역을 업데이트하는 등의 문제가 발생할 수 있습니다. 또 다른 예는 완료된 거래를 재구매하는 것입니다. 이 경우 거래가 상환되었는지 여부를 이해하는 데 시간이 걸리지만 이 상태를 주문 순간에 귀속시켜야 합니다.
유감스럽게도 이 단계를 건너뛰고 바로 보고서 작성으로 넘어가는 것이 일반적입니다. 그러나 우리의 경험은 최종 데이터 세트를 사용하고 최신 분석 세계를 위한 비즈니스 준비 데이터를 준비하는 것이 필수라는 것을 보여줍니다. 장기적으로 보면 원시 데이터에서 동일한 작업을 반복해서 수행하는 대신 준비된 데이터로 작업하는 것이 더 저렴하고 쉽습니다.
이 단계에서 나타날 수 있는 데이터 품질 문제:
1. 데이터 정의의 부족은 불일치로 이어진다
이게 뭔가요?
데이터 처리 전반에 걸쳐 필요한 데이터 유형에 대한 정의가 일관되지 않거나 부재하기 때문에 변환 논리의 변경을 제어하기가 어렵습니다.
그게 무슨 문제야?
데이터가 명확하게 정의되지 않은 경우 사용자는 데이터 사용에 대해 같은 페이지에 있지 않습니다. 쿼리할 테이블이나 열, 사용할 필터 또는 데이터 개체에 대한 정보를 요청할 사람이 확실하지 않습니다. 게다가 속성, 데이터 모델에서의 위치, 서로 관련성을 포함하여 원시 데이터의 모든 데이터 개체를 탐색하고 이해하는 데 너무 오랜 시간이 걸립니다.
이유는 무엇입니까?
기업은 핵심 데이터와 데이터 모델을 명확하게 정의하지 않았습니다. 따라서 데이터 병합 논리를 이해할 수 없습니다.
이 문제를 해결하는 방법은 무엇입니까?
먼저 각 보고서나 데이터셋에 비즈니스 로직을 적용하지 말고 기업 차원의 데이터 모델링을 활용하라. 회사 내에는 투명한 비즈니스 데이터 모델과 데이터 수명 주기 제어가 있어야 합니다. 이것은 사용된 모든 정의가 명확해야 함을 의미합니다. 예를 들어 최종 사용자는 전환 및 웹사이트 방문자 측정항목이 무엇을 나타내는지 알고 있어야 합니다.
이와 함께 최신 시뮬레이션 데이터를 준비하고 유지 관리하는 것이 어렵기 때문에 데이터의 품질을 수집, 정리, 정규화 및 모니터링할 수 있는 자동화 솔루션(예: dbt(데이터 빌드 도구))을 적용하는 것이 답입니다. 따라서 비즈니스에 사용할 수 있습니다.
OWOX BI로 데이터와의 관계를 재고하십시오
OWOX BI 팀은 각 고객이 데이터 문제에 직면하기 때문에 데이터 문제가 얼마나 심각한지 누구보다 잘 알고 있습니다. 우리는 분석가가 일상을 자동화하고 데이터에서 비즈니스 가치를 제공하며 데이터 품질을 보장할 수 있는 제품을 만들었습니다.
OWOX BI는 모든 마케팅 데이터를 수집, 준비 및 분석할 수 있는 통합 플랫폼입니다. 격리된 소스에서 분석 대상으로 데이터 전달을 자동화하여 데이터가 항상 정확하고 최신 상태로 유지되도록 합니다.

OWOX BI를 적용하면 투명한 데이터 품질 모니터링과 SQL 또는 코드 없이 통찰력을 확보하기 위한 사용하기 쉬운 보고서 작성기를 통해 비즈니스 모델에 따라 비즈니스 준비 데이터를 얻을 수 있습니다.
위에서 언급한 모든 단계에서 OWOX BI가 어떻게 도움이 되는지 살펴보겠습니다.
- 측정을 계획하십시오 . 당사 전문가의 도움을 받아 귀하의 비즈니스를 위한 측정 계획을 수립하거나 특히 귀하의 비즈니스 요구에 맞는 측정 시스템을 개발하십시오.
- 기본 데이터를 수집합니다 . OWOX BI는 Google Analytics, 광고 서비스, 웹사이트, 오프라인 매장, 통화 추적 시스템 및 CRM 시스템에서 데이터 저장소의 원시 데이터를 수집합니다. 플랫폼은 대규모 광고 계정과 원활하게 작동하며 캠페인 수에 관계없이 모든 데이터를 업로드합니다. 비용 데이터를 자동으로 가져오는 것 외에도 OWOX BI는 UTM 태그의 동적 매개변수를 인식하고 비용을 하나의 통화로 변환하며 데이터의 관련성을 모니터링합니다.
더 이상 다양한 커넥터를 찾을 필요가 없으며, 필요한 경우 당사 팀에서 맞춤형 통합을 설정할 수도 있습니다.

- 원시 데이터를 정규화합니다 . OWOX BI를 사용하면 데이터를 수동으로 정리, 구조화 및 처리할 필요가 없습니다. 가장 명확하고 편리한 구조로 준비된 데이터 세트를 받게 됩니다. 또한 Google Analytics에 업로드된 광고 서비스의 데이터 관련성에 대한 시각적 보고서를 언제든지 얻을 수 있습니다.

- 비즈니스 데이터를 준비합니다 . OWOX BI를 사용하면 신뢰할 수 있는 비즈니스용 데이터를 손쉽게 사용할 수 있습니다. 비즈니스 데이터 모델에 따라 준비된 사전 빌드된 최종 데이터 세트를 얻을 수 있으므로 더 이상 모든 새 보고서에 대해 새 데이터 세트를 생성할 필요가 없습니다. 추가 데이터 세분화를 위해 준비된 최신 통합 데이터를 통해 비즈니스 속도에 대한 통찰력을 얻고 데이터 가치를 높일 수 있습니다.

- 데이터 시각화 . OWOX BI 플랫폼을 사용하면 원하는 곳 어디에서나 데이터를 분석하고 시각화할 수 있습니다. 마케팅 데이터가 준비되면 클릭 몇 번으로 원하는 BI 또는 시각화 도구로 보낼 수 있습니다.

무료 데모를 예약하여 OWOX BI가 데이터 품질을 보장하는 방법과 완전히 자동화된 데이터 관리의 이점을 지금 확인하세요!
5단계. 데이터 시각화
주요 지표를 시각적으로 제시하는 것은 데이터를 작동시키는 마지막 단계이므로 데이터 프레젠테이션은 유익하고 사용자 친화적이어야 합니다. 자동화되고 적절하게 구성된 시각화는 문제를 찾는 시간을 크게 줄일 수 있습니다. 즉, 데이터 품질을 개선하기 위해 동일한 기간 동안 적은 노력으로 더 많은 반복을 수행할 수 있습니다.
또한 인기 있는 Google 데이터 스튜디오와 같은 데이터 시각화 서비스는 데이터를 병합하거나 변환할 수 없다는 점을 기억하는 것이 중요합니다. 많은 데이터 소스를 기반으로 한 보고서가 필요한 경우 어려움을 피하기 위해 필요한 모든 데이터를 단일 데이터 저장소에 미리 수집하는 것이 좋습니다.
이 단계에서 발생할 수 있는 데이터 품질 문제:
1. 실제 데이터 오류
이것들은 무엇입니까?
데이터 수집 및 정규화의 이전 수준에서 문제가 발생하면 데이터 시각화 서비스에서 표시하는 보고서에 데이터 오류가 발생할 수 있습니다.
그게 무슨 문제야?
실제 데이터 오류로 작성된 보고서는 시간과 비용 낭비입니다. 그들은 비즈니스의 위험 및 성장 영역에 대한 이익이나 가치 있는 통찰력을 제공하지 않습니다. 죄송합니다, 마리오. 하지만 공주는 다른 성에 있습니다!
이유는 무엇입니까?
간단히 말해서 시각화된 데이터는 관련이 없습니다. 그러나 이러한 오류의 원인을 찾으려면 데이터를 다시 확인하는 단계로 돌아가야 합니다.
이 문제를 해결하는 방법은 무엇입니까?
이 문제를 해결하는 유일한 방법은 보고서를 작성하기 전에 데이터를 철저히 준비하고 품질을 모니터링하는 것입니다.
2. 깨진 SQL 쿼리 또는 보고서(및/또는 SQL 쿼리)에 대한 너무 많은 편집
이게 뭔가요?
데이터 요구 사항은 지속적으로 변경되고 SQL 쿼리도 변경됩니다. 결과적으로 보고 시스템이 복잡할수록 무너지기 쉽습니다.
그게 무슨 문제야?
변경 사항이 너무 많아 변경 사항이 무엇인지, 어디서, 언제 변경되었는지 기억할 수 없는 경우가 아니라면 변경 사항에 문제가 없습니다. 결국 SQL 쿼리가 작동하지 않고 시각화할 올바른 데이터가 없기 때문에 신중하게 구축된 모든 보고 시스템이 사라질 수 있습니다.
이유는 무엇입니까?
모든 작은 것을 기억하는 것은 꽤 어려운 일이므로 일반적인 실수는 필요한 모든 데이터 세트에 편집 내용을 적용하는 것을 잊어버리는 것입니다.
이 문제를 해결하는 방법은 무엇입니까?
이상적으로는 사용자가 많은 SQL 쿼리를 사용하지 않고 많은 변경 및/또는 편집을 적용할 필요 없이 마케팅 보고서를 생성할 수 있어야 합니다.
3. 수집된 데이터의 오용 및 오용
이게 뭔가요?
가장 일반적인 문제 중 하나는 데이터에 대한 오해(따라서 오용)입니다. 이는 특정 측정항목 또는 매개변수가 둘 이상의 방식으로 해석될 수 있는 경우에 발생합니다. 예를 들어 보고서에 전환 측정항목이 있고 이 보고서를 다른 사용자가 사용한다고 가정해 보겠습니다. 한 사용자는 전환이 웹사이트 방문을 의미한다고 생각하고 다른 사용자는 주문을 의미한다고 생각합니다. 그러나 이 전환 측정항목이 배송 및 구매 주문에 관한 것이라고 생각하는 제3자도 있습니다. 보시다시피, 잠재적인 해석이 많이 있으므로 보고서에 어떤 정보가 표시되는지 명확히 해야 합니다.
그게 무슨 문제야?
보고서 및 대시보드에 사용되는 데이터에 대한 명확한 이해가 없으면 현장의 사실을 기반으로 결정을 내릴 수 있다는 보장이 없습니다.
이유는 무엇입니까?
보고서에 사용된 측정항목 및 매개변수에 대한 불명확한 설명이나 부적절한 유형의 데이터 시각화는 잘못된 결정으로 이어질 수 있습니다.
이 문제를 해결하는 방법은 무엇입니까?
데이터 검증은 입력 데이터가 정확하고 관련성이 있는지 확인하는 것으로 끝나지 않습니다. 이 데이터는 여전히 오용될 수 있습니다. 이 문제를 피하기 위해 최종 사용자는 보고서에 표시되는 정보에 대한 명확하고 정확한 설명과 함께 완전한 최신 비즈니스 준비 데이터에 액세스할 수 있어야 합니다.

우리의 클라이언트
자라다 22% 더 빠름
마케팅에서 가장 효과적인 것을 측정하여 더 빠르게 성장
마케팅 효율성 분석, 성장 영역 찾기, ROI 증가
데모 받기핵심 테이크아웃
품질 분석은 품질 데이터에서 시작됩니다. 데이터 노력은 가치 있고 신뢰할 수 있어야 합니다. 따라서 데이터 오류 및 불일치를 사전에 식별하고 해결하여 전체적인 성능 보고를 얻고 데이터 품질을 개선해야 합니다. 일반적으로 데이터 품질 개선은 다음 세 단계를 구분할 수 있는 반복적인 프로세스입니다.
- 데이터 상태 검사
- 데이터 품질을 저하시키는 문제 현지화
- 문제 해결
가장 시간이 많이 걸리는 것은 처음 두 단계입니다. 문제가 있음을 식별하고 어떤 상황에서 오류가 발생하는지 이해하기 어렵습니다. 문제가 무엇인지, 어디에 문제가 있는지 명확해지면 비교적 쉽게 고칠 수 있습니다.
마지막으로 세 가지 문서를 만들어 데이터를 개선할 수 있습니다.
- 데이터 이동 방식
- 책임 매트릭스(누가 무엇을 책임지는가)
- 비즈니스 데이터 모델