웹 스크래핑이 귀중한 데이터 소스가 될 수 있는 방법
게시 됨: 2022-11-11웹 스크래핑. 고된 일처럼 들리지만 고된 것보다 더 영리합니다.
이 기술은 간단한 사실을 이용합니다. 사용자가 보는 웹 사이트의 프런트 엔드는 데이터를 추출하고 표시하기 위해 백 엔드와 통신해야 합니다. 웹 크롤러 또는 봇이 이 정보를 수집할 수 있습니다. 추가 작업은 분석을 위해 데이터를 구성할 수 있습니다.
디지털 마케터는 소비자 선호도와 시장 동향을 더 잘 파악하기 위해 끊임없이 데이터를 찾고 있습니다. 웹 스크래핑은 이를 위한 또 하나의 도구입니다.
먼저 크롤링한 다음 긁어냅니다.
“일반적으로 모든 웹 스크래핑 프로그램은 1) 데이터 로드 및 2) 데이터 구문 분석이라는 동일한 두 가지 작업을 수행합니다. 사이트에 따라 첫 번째 또는 두 번째 부분이 더 어렵거나 복잡할 수 있습니다.” 웹 스크래핑 서비스 회사인 Marquee Data의 파트너인 Ed Mclaughlin은 설명했습니다.
웹 스크래핑은 이전 기술인 웹 크롤링과 약간 유사합니다. 인터넷이 사이버 공간을 덜 차지하던 1990년대에 웹 크롤링 봇은 웹 사이트 목록을 컴파일했습니다. 프로세스 자동화 및 웹 스크래핑 회사인 Rentech Digital의 영업 이사인 Himanshu Dhameliya는 이 기술을 여전히 Google에서 검색 엔진을 강화하기 위한 키워드를 긁는 데 사용하고 있다고 말했습니다.
Rentech의 경우 웹 스크래핑은 "다양한 소스의 혼합에서 구조화된 데이터"를 얻는 것뿐이라고 Dhameliya는 말했습니다. "우리는 뉴스 웹사이트, 재무 데이터 및 위치 보고서를 스크랩합니다."
웹 스크레이퍼 Datamam의 프로젝트 관리자인 George Tskaroveli는 "웹 스크래핑 데이터는 소규모로 수집됩니다. 여전히 수백만 개의 데이터 포인트에 이르지만 매일 또는 더 자주 수집합니다."라고 말했습니다.
스크래핑 및 데이터 추출 회사인 Apify의 COO인 Ondra Urban은 "현대 웹 스크래핑의 정의 기능은 헤드리스 브라우저, 주거용 프록시, 확장 가능한 클라우드 플랫폼 사용입니다. "헤드리스 브라우저를 사용하면 인간과 똑같이 행동하는 스크레이퍼를 만들고, 모든 웹사이트를 열고, 모든 데이터를 추출할 수 있습니다. [AWS, GCP 또는 Apify와 같은 최신 클라우드 플랫폼을 사용하면 기반으로 수백 또는 수천 개의 스크레이퍼를 즉시 시작할 수 있습니다. 데이터에 대한 현재 수요."
어느 파티 데이터? 그리고 그것을 얻는 방법
제로 파티에서 제3자 데이터에 이르기까지 마케터가 다음 통찰력을 위해 영원히 선택하는 데이터 수집 스펙트럼이 있습니다. 그렇다면 웹 스크래핑은 이 연속체의 어디에 해당합니까?
"웹 스크랩 데이터는 타사 데이터와 가장 밀접하게 관련되어 있습니다." Mclaughlin은 마케팅 담당자가 이 데이터를 기존 데이터 세트와 결합할 수 있다고 말했습니다. "웹 스크래핑은 또한 구매 목록의 경우처럼 경쟁업체가 많이 사용하지 않는 고유한 데이터 소스를 제공할 수 있습니다." 그는 말했다.
Dhameliya는 "우리가 수행하는 작업의 95%는 타사 [데이터]입니다. 스크래핑은 웹 사이트의 프런트 엔드와 백 엔드 사이에서 트래피킹되는 데이터를 목표로 합니다. 이를 위해서는 이 데이터 스트림을 활용하거나 Selenium 드라이버와 함께 JavaScript를 사용하도록 제작된 API가 필요할 수 있다고 그는 설명했습니다.
Rentech의 작업은 대부분 마케팅 인텔리전스 및 분석을 원하는 기업을 위한 것입니다. Dharmeliya는 봇이 웹 사이트를 주기적으로 방문하여 때때로 제품 정보를 찾는 임무를 수행한다고 말했습니다. 일부 웹 사이트는 단일 소스에서 오는 쿼리 수를 제한합니다. 이를 해결하기 위해 Rentech는 AWS Lambda를 사용하여 쿼리 제한을 해결하기 위해 여러 시스템에서 쿼리를 시작하는 봇을 실행할 것이라고 Dhameliya는 설명했습니다.
Tskaroveli는 "무효와 속임수"를 제거하기 위해 모든 데이터를 검토하는 것은 인간적으로 불가능하다고 말했습니다. “많은 고객들이 자신의 기기로 데이터를 수집하거나 프리랜서를 사용합니다. 깨끗한 데이터를 받지 못하는 것이 큰 문제”라고 말했다. Datamam은 자체 내장 알고리즘에 의존하여 "행과 열"을 통과하여 품질 보증을 자동화합니다.
“우리는 웹사이트를 스크랩하기 위해 맞춤형 파이썬 스크립트를 작성합니다. 일반적으로 각 웹사이트는 특정 웹사이트를 처리하도록 맞춤화되며 필요한 경우 맞춤 입력을 제공할 수 있습니다.”라고 McLaughlin은 말했습니다. "우리는 이러한 스크립트의 생성을 자동화하기 위해 AI 또는 기계 학습을 사용하지 않지만 해당 기술은 미래에 사용될 수 있습니다."
수동으로 복사하여 붙여넣을 수 있는 모든 데이터는 자동으로 스크랩할 수 있습니다." 맥클라우글린이 덧붙였다. "[나는]잠재적인 리드 목록이 있는 웹사이트를 찾으면 웹 스크래핑을 사용하여 해당 웹사이트를 다운스트림 마케팅 프로세스에 사용할 수 있는 리드 스프레드시트로 쉽게 변환할 수 있습니다."
“소셜 미디어는 다른 짐승입니다. 그들의 웹 및 모바일 애플리케이션은 수백 개의 API와 동적 구조로 매우 복잡하며 정기적인 업데이트와 A/B 테스트 덕분에 자주 변경됩니다.”라고 Ondra가 말했습니다. "[] 대규모 사내 팀을 교육하고 지원할 수 없다면 가장 좋은 방법은 숙련된 개발자로부터 서비스로 구매하는 것입니다."
“[클라이언트]가 전자 상거래에 있다면 AI 기반 제품 스크레이퍼로 벗어날 수 있습니다. 데이터 품질이 떨어질 위험이 있지만 수백 또는 수천 개의 웹 사이트에 쉽게 배포할 수 있습니다.”라고 Ondra가 덧붙였습니다.
웹을 스크랩하되 상식을 사용하십시오.
웹 스크래핑에는 한계와 기회가 있습니다. 개인 정보 보호를 고려하여 쿼리를 완화해야 합니다. 웹 스크래핑은 집합적인 드래그 그물이 아니라 선택적인 드래그 그물입니다.
데이터 개인 정보 보호는 이러한 제한 중 하나입니다. Dharmeliya는“가족에 대한 의견이나 정치적 견해 또는 정보 또는 개인 데이터를 수집하지 마십시오. 긁기 전에 법적 위험을 평가하십시오. 법적으로 위험한 데이터를 수집하지 마십시오.
웹 스크래핑은 개인 식별 정보를 수집하는 것이 아니라 법적 이유로 해서는 안 된다는 점을 이해하는 것이 중요합니다. 사실, 모든 데이터의 웹 스크래핑은 논란의 여지가 있지만 법적 조사에서 크게 살아남았습니다. 특히 웹 브라우저와 웹 스크래퍼를 법적으로 구분하기 어렵기 때문에 웹사이트에서 데이터를 요청하고 관련 작업을 수행합니다. 이는 최근 소송이 제기된 바 있다.
페이스북, 인스타그램, 링크드인에는 어떤 데이터를 스크랩할 수 있고 어떤 데이터가 금지되는지에 대한 규칙이 있다고 Dharmeliya는 말했습니다. 예를 들어 폐쇄된 개별 Facebook 및 Instagram 계정은 비공개 계정입니다. 그는 "뉴욕 타임즈, 트위터, 사용자가 논평이나 리뷰를 게시할 수 있는 공간 등 공공 세계에 데이터를 제공하는 모든 것은 공정한 게임"이라고 덧붙였다.
"저희는 법률 자문을 제공하지 않으므로 고객이 관할 지역의 법적 고려 사항에 대해 자문을 구하도록 권장합니다." 맥러플린이 말했다.
자세히 알아보기: 마케터가 소비자 개인 정보 보호에 관심을 가져야 하는 이유
웹 스크래핑은 여전히 다른 형태의 데이터 수집과 함께 유용한 부속물입니다.
Datamam 고객의 경우 웹 스크래핑은 리드 생성의 한 형태라고 Tskaroveli는 말했습니다. 그는 여러 소스에서 새로운 리드를 생성하거나 마케팅 담당자가 고객을 더 잘 이해할 수 있도록 데이터를 보강하는 데 사용할 수 있다고 말했습니다.
웹 스크래핑 봇의 또 다른 목표는 인플루언서 마케팅 캠페인이라고 Dhameliya는 말했습니다. 여기서 목표는 마케터의 프로필에 적합한 인플루언서를 식별하는 것입니다.
“천천히 시작하여 데이터 소스를 점진적으로 추가하십시오. 기업 고객의 경우에도 마치 마법의 총알처럼 웹 스크래핑을 시작하려는 열의가 대단하지만 데이터가 전혀 필요하지 않다는 것을 깨닫기 때문에 나중에 스크래퍼의 일부를 중단하는 것을 보고 있습니다.”라고 Ondra가 말했습니다. “한 경쟁자 모니터링을 시작하고 효과가 있으면 두 번째 경쟁자를 추가하십시오. 또는 Instagram에서 인플루언서로 시작하여 나중에 TikTok을 추가하세요. 웹 스크래핑 데이터를 다른 데이터 소스와 마찬가지로 부지런히 다루면 확실히 경쟁력이 생깁니다.”
마테크를 잡아라! 일일. 무료. 받은편지함

약관을 참조하십시오.
이 기사에 표현된 의견은 게스트 저자의 의견이며 반드시 MarTech가 아닙니다. 직원 저자가 여기에 나열됩니다.

관련 기사
마테크의 새로운 소식