데이터 과학, 데이터 분석 및 빅 데이터 이해

게시 됨: 2022-09-11

데이터 과학, 데이터 분석 및 빅 데이터

또 하루

화요일 아침 오전 5시 30분에 알람이 울립니다. 이를 닦고 간헐천을 켭니다. 그런 다음 다리미가 가열되기를 기다리는 동안 이메일을 확인하지만 전원이 꺼집니다. 당신은 구겨진 셔츠로 해결합니다. 커피와 토스트는 배우자를 위한 힘 없이는 만들기 어렵기 때문에 아침 메뉴에 마지막 순간 변경: 콘플레이크와 차가운 우유. 당신은 체육관을 건너뛰고 바로 샤워를 하기로 결정했습니다.

간단한 아침 식사와 성급한 대화를 마치고 차에 올라 정확히 오전 8시 15분에 출근을 시작합니다. 도중에 출구가 없는 끝없는 교통 체증에 직면하게 됩니다. 동료 통근자와의 대화에 따르면 행렬이 진행 중이며 차선 중 하나가 중지되었습니다.

새로운 호화 주택에 대한 또 다른 광고가 라디오에서 방송되어 직장까지 자동차로 15분 거리에 있다고 약속하면 이 길이 텅 비어 있던 날에 무슨 일이 일어났는지 궁금해집니다. 그런 다음 뜨거운 새로운 볼리우드 노래를 듣고 따라 흥얼거리기 시작합니다.

마침내 1시간 30분의 험난한 교통 체증을 마치고 매일의 회의 시간에 맞춰 출근하지만 긴 통근에 지치고 답답합니다.

또한 읽기: 2021년에 구현해야 할 13가지 효과적인 SEO 전략

현재 상황

이것은 많은 사무원에게 인도의 평범한 날입니다. 그들은 일어나 옷을 입고 일하러 갑니다. 그들은 도중에 몇 가지 결정을 내리지만 대부분은 흐름에 따릅니다. 그들은 일반적으로 반응적이며 유감스럽게도 하루를 보내는 데만 관심이 있습니다.

하지만 그렇게 할 필요는 없습니다.

이것을 상상해보십시오.

화요일 아침이고 오전 5시 30분 대신 오전 5시 10분에 알람이 울립니다. 계획된 정전에 대해 알고 그에 따라 일정을 조정했습니다. 일어나자마자 다리미를 켠 다음 간헐천을 켭니다. 양치질을 하는 동안 배우자는 이미 토스터기로 프렌치 토스트를 만들기 시작했습니다. 당신이 셔츠를 다릴 때 당신을 기다리는 뜨거운 커피 잔의 냄새를 맡을 수 있습니다.

전류는 예고 없이 갑자기 차단됩니다. 아침 달리기를 위해 문을 나서면서 미소를 짓습니다.

또한 읽기|: SEO 경쟁자 분석은 어떻게 합니까?

운동과 샤워 후에 재미있는 토론과 함께 훌륭하고 따뜻한 아침 식사와 커피를 드실 수 있습니다. 그런 다음 준비하고 오전 8시 30분쯤 출발합니다.

조금 더 긴 경로를 사용하지만 40분 이내에 직장에 도착하므로 매일 회의 전에 충분한 시간을 할애할 수 있습니다.

무엇이 다른가?

첫 번째 시나리오에서 흐름을 따라갔습니다. 그것은 당신에게 제 2의 천성이기 때문에 당신은 일을했습니다. 당신은 현상 유지에 만족했습니다. 하루를 계획하기 전에 정전과 교통 체증과 같은 다양한 변수를 고려하지 못했습니다. 당신은 독특한 시나리오와 예상되는 표준 결과에 표준 기법을 사용했습니다.

두 번째 시나리오에서는 일상에 영향을 줄 수 있는 다양한 요인을 분석하고 그에 따라 일정을 조정했습니다. 정전을 알고 있었기 때문에 평소보다 몇 분 일찍 일어나 간헐천과 다리미를 켰습니다.

또한 읽어보십시오. 인공 지능: 현대적인 접근 방식.

배우자도 몇 분 전에 토스터와 커피 머신을 시작했습니다. 그런 다음 그날의 교통 상황을 고려한 후 다른 경로를 선택했습니다.

결론을 도출한 사실이 있습니다. 결과적으로 행동을 조정했고 결과가 상당히 좋아졌습니다. 그러나 의도하지 않게 분석의 힘을 사용했습니다.

안녕하세요. 데이터 과학의 영역에 오신 것을 환영합니다.

데이터 과학이란 무엇입니까?

데이터 과학은 수학, 통계, 컴퓨터 및 도메인 전문 지식에서 데이터 수집, 처리, 조작 및 해석에 이르기까지 도구와 기술을 적용하는 것을 말합니다.

data science
데이터 과학

다시 말해 데이터 과학은 데이터를 사용하여 문제를 해결하는 과정입니다. 데이터 수집에서 수집한 정보에서 통찰력을 얻는 것까지 모든 것을 다룹니다.

데이터 과학 적용

방금 읽은 이야기를 살펴보겠습니다.

가설적으로, 당신은 하루를 합리화하고 더 좋고 더 밝게 만들기 위해 왜 그렇게 급하게 아침을 보냈는지에 대한 조사에서 수집한 통찰력을 활용하여 시나리오 1의 반복을 피했습니다.

시작하려면 "환상적인 하루를 보내기 위해 내가 필요한 것은 무엇인가?"라고 자문해야 합니다.

다음 변수가 목록에 나타날 수 있습니다.

  • 전기
  • 뜨거운 물
  • 아침
  • 교통
  • 교통

이러한 변수의 합류는 일상 생활을 개선하는 방법에 대한 통찰력을 얻기 위해 수집, 처리, 정리 및 평가해야 하는 데이터 유형을 나타냅니다. 데이터 과학은 각 변수(데이터 포인트)의 결합된 영향을 결정하는 데 도움이 됩니다.

seo-toolsOpens in a new tab.
검색엔진 최적화 도구

데이터 또는 '빅 데이터'?

우리는 간단한 아침 루틴 예제에서 7가지 기준을 분석했습니다. 결과적으로 얻은 지식은 당신의 하루를 훨씬 더 좋게 만들 수 있습니다.

그러나 더 많은 것을 찾고 있다면 어떨까요? 모든 단일 중요 매개변수(단 7개가 아닌)를 설명할 만큼 충분히 복잡한 모델이 있다면 어떨까요?

Big Data
빅 데이터

더 이상 데이터만 다루지 않을 것입니다. 빅 데이터를 다룰 것입니다.

위키피디아에 따르면 Opens in a new tab. , 빅 데이터는 다음과 같이 정의됩니다.

“빅데이터”는 너무 방대하거나 복잡하여 일반적인 데이터 처리 프로그램이 처리하기에 불충분한 데이터 수집을 의미합니다. 분석, 캡처, 데이터 큐레이션, 검색, 공유, 저장, 전송, 시각화, 쿼리 및 정보 개인 정보 보호는 모두 도전 과제입니다. 이 단어는 일반적으로 특정 데이터 세트 크기보다는 데이터에서 가치를 추출하기 위해 예측 분석 또는 기타 고급 접근 방식을 사용하는 것을 암시합니다.”

다시 말해, 빅 데이터는 대규모 데이터 세트로 작업하고 그 데이터에서 통찰력을 추출하는 것입니다. 기존 접근 방식은 이러한 데이터 세트가 너무 크기 때문에 작동하지 않습니다. 적절하게 설계된 절차를 사용하여 데이터를 수집, 분석, 저장 및 처리해야 합니다.

일반적으로 데이터 세트의 품질이 허용되는 한 데이터 세트가 클수록 더 나은 결과를 얻을 수 있습니다.

예를 들어 전자 상거래 비즈니스에서 웹 사이트는 추천 사이트, 사이트에 머문 시간, 이탈률, 방문 페이지 및 방문자 흐름을 포함하여 수많은 데이터를 수집합니다. 그들은 이 정보를 개인별로 추적합니다. 즉, 몇 년 동안 표준 접근 방식으로는 처리할 수 없는 큰 데이터 세트를 컴파일할 수 있습니다. 그때 그들이 '빅 데이터'와 함께 일하고 있다는 것을 깨달았습니다.

결과적으로 아침 루틴 예제에서 처리하고 평가할 매개변수가 훨씬 더 많은 매우 큰 데이터 세트를 가질 수 있습니다. 당신은 당신의 도시에 있는 수만 또는 수백만 명의 사람들로부터 정보를 수집했을 수 있습니다. 일정 기간 동안 이 정보를 수집하고 날씨, 하루 중 시간, 교통 업데이트, 트윗, 가계 소득 등과 같은 여러 추가 측면을 문서화하여 연구에 활용할 수 있습니다.

데이터 세트의 크기를 고려하는 또 다른 접근 방식은 표준 크기의 데이터 세트가 일간 신문만큼 두꺼울 수 있다고 생각하는 것입니다.

'빅 데이터' 데이터 세트를 인쇄하려면 전화번호부로 가득 찬 50개의 창고가 필요합니다.

이러한 많은 양의 데이터를 처리할 때 기존의 도구와 절차로는 충분하지 않습니다. 이러한 목적을 위해 특별히 제작된 특수 소프트웨어가 필요합니다.

이것을 분석하라

아침에 관한 이 모든 정보를 수집한 후에는 결론을 내리기 위해 조사하고 조사해야 합니다. 이것을 데이터 분석이라고 합니다. 월요일 밤에 'Saas bhi kabhi bahun thi'를 시청하면 화요일 아침에 늦게 깨게 된다는 우리의 예에서 추론할 수 있습니다. 또는 일요일이 아닌 토요일에 세탁을 하면 화요일에 다림질 셔츠를 추가로 입을 수 있습니다.

하지만 더 포괄적이고 복잡한 패턴을 찾기 위해 수많은 데이터 세트를 검색하려면 어떻게 해야 할까요? 그런 다음 데이터 분석에 참여하게 됩니다.

Data Analytics
데이터 분석
 처리된 데이터 세트에서 통찰력을 도출하기 위해 일련의 절차(알고리즘) 또는 변환을 적용하는 것을 데이터 분석이라고 합니다.

우리의 아침 루틴 예제에서 특정 세부 사항의 복잡한 상호 작용을 조사할 것입니다. 예를 들어, 일일 온도를 자동차 이용률과 비교하면 온도가 자동차 이용률에 상당한 영향을 미친다는 것을 알 수 있습니다. 조금 더 조사하면 이 간단한 모델이 여름에만 유효하다는 것을 알게 될 것입니다. 장마철에는 사람들이 자동차를 가장 많이 이용합니다. 이 정보를 통해 다음 날의 강우량이 평균보다 많을 것으로 예상되어 교통량이 많을 것으로 예상된다는 것을 알 수 있습니다.

그것이 바로 데이터 분석이 실행되는 것입니다. 직장에서 데이터 분석은 트래픽이 더 높을 것이기 때문에 평소보다 빨리 떠나기로 결정하는 데 사용됩니다.

결론

분석, 빅 데이터 및 데이터 과학과 같은 업계 유행어는 종종 혼용되어 잘못 사용됩니다. 데이터 분석은 수집한 데이터에 가치를 추가하는 기본 작업 중 하나인 반면 데이터 과학은 작업 영역입니다. 그리고 일반적인 도구와 방법을 사용하여 처리할 수 없는 대량의 데이터를 처리할 때 빅 데이터를 처리하는 것입니다.

우리의 정의에 대해 어떻게 생각하십니까? 니꺼랑 똑같니? "일상"의 예가 효과가 있습니까? 공유하고 싶은 개인적인 사례가 있습니까? 의견 영역에서 생각을 공유하십시오.