การขูดเว็บเป็นแหล่งข้อมูลที่มีค่าได้อย่างไร
เผยแพร่แล้ว: 2022-11-11การขูดเว็บ ฟังดูเหมือนทำงานหนัก แต่ฉลาดกว่าลำบาก
เทคนิคนี้ใช้ประโยชน์จากความจริงง่ายๆ: ส่วนหน้าของเว็บไซต์ที่คุณเห็นจะต้องพูดคุยกับส่วนหลังเพื่อดึงข้อมูลและแสดง โปรแกรมรวบรวมข้อมูลเว็บหรือบอทสามารถรวบรวมข้อมูลนี้ได้ งานเพิ่มเติมสามารถจัดระเบียบข้อมูลสำหรับการวิเคราะห์
นักการตลาดดิจิทัลกำลังมองหาข้อมูลอยู่เสมอเพื่อให้เข้าใจถึงความชอบของผู้บริโภคและแนวโน้มของตลาดได้ดีขึ้น การขูดเว็บเป็นอีกหนึ่งเครื่องมือในตอนท้าย
คลานก่อนแล้วค่อยขูด
“โดยทั่วไป โปรแกรมขูดเว็บทั้งหมดทำงานสองอย่างเดียวกัน: 1) การโหลดข้อมูล และ 2) การแยกวิเคราะห์ข้อมูล ส่วนแรกหรือส่วนที่สองอาจยากหรือซับซ้อนกว่า ทั้งนี้ขึ้นอยู่กับไซต์ Ed Mclaughlin หุ้นส่วนที่ Marquee Data บริษัทให้บริการขูดเว็บอธิบาย
การขูดเว็บมีความคล้ายคลึงกับเทคนิคก่อนหน้านี้: การรวบรวมข้อมูลเว็บ ย้อนกลับไปในปี 1990 เมื่ออินเทอร์เน็ตครอบครองพื้นที่ไซเบอร์น้อยลง บอทรวบรวมข้อมูลเว็บได้รวบรวมรายชื่อเว็บไซต์ Himanshu Dhameliya ผู้อำนวยการฝ่ายขายของกระบวนการอัตโนมัติและบริษัท Rentech Digital กล่าว เทคนิคนี้ยังคงใช้โดย Google เพื่อขูดคำสำคัญเพื่อขับเคลื่อนเครื่องมือค้นหา
สำหรับ Rentech การขูดเว็บเป็นเพียงการรับ "ข้อมูลที่มีโครงสร้างจากแหล่งต่างๆ" Dhameliya กล่าว “เราขูดเว็บไซต์ข่าว ข้อมูลทางการเงิน และรายงานตำแหน่ง”
George Tskaroveli ผู้จัดการโครงการที่เครื่องขูดเว็บ Datamam กล่าวว่า "ข้อมูลการขูดเว็บถูกรวบรวมในระดับที่เล็กกว่า แต่ยังรวบรวมเป็นรายวันหรือบ่อยครั้งมากขึ้น" เขากล่าว
"คุณสมบัติที่กำหนดของการขูดเว็บสมัยใหม่คือเบราว์เซอร์ที่ไม่มีส่วนหัว พร็อกซีที่อยู่อาศัย และการใช้แพลตฟอร์มคลาวด์ที่ปรับขนาดได้" Ondra Urban, COO ของ Apify บริษัท ขูดและดึงข้อมูลกล่าว “ด้วยเบราว์เซอร์แบบไม่มีหัว คุณสามารถสร้างแครปเปอร์ที่มีลักษณะเหมือนมนุษย์ เปิดเว็บไซต์ใดๆ และดึงข้อมูลใดๆ… [M]แพลตฟอร์มคลาวด์ที่แปลกใหม่ เช่น AWS, GCP หรือ Apify ช่วยให้คุณเริ่มแครปเปอร์นับร้อยหรือหลายพันได้ทันที ความต้องการข้อมูลในปัจจุบัน”
ข้อมูลฝ่ายใด แล้วจะรับได้อย่างไร
มีการรวบรวมข้อมูลหลากหลายตั้งแต่ข้อมูลที่ไม่มีบุคคลที่เป็นศูนย์ไปจนถึงข้อมูลของบุคคลที่สามที่นักการตลาดมักจะหยิบขึ้นมาเพื่อข้อมูลเชิงลึกครั้งต่อไป ดังนั้นการขูดเว็บจะพอดีกับความต่อเนื่องนี้ที่ไหน?
“ข้อมูลที่คัดลอกมาจากเว็บมีความเกี่ยวข้องอย่างใกล้ชิดกับข้อมูลบุคคลที่สามมากที่สุด” แมคลาฟลินกล่าว เนื่องจากนักการตลาดสามารถรวมข้อมูลนี้เข้ากับชุดข้อมูลที่มีอยู่ได้ “การขูดเว็บยังสามารถให้แหล่งข้อมูลเฉพาะที่คู่แข่งไม่ได้ใช้มากนัก เช่นเดียวกับรายการที่ซื้อ” เขาพูดว่า.
“เก้าสิบห้าเปอร์เซ็นต์ของงานที่เราทำคือ [ข้อมูล] ของบุคคลที่สาม” Dhameliya กล่าว Scraping มีจุดมุ่งหมายสำหรับข้อมูลที่ถูกค้าระหว่าง front-end และ back-end ของเว็บไซต์ นั่นอาจต้องใช้ API ที่สร้างขึ้นเพื่อแตะสตรีมข้อมูลนี้ หรือใช้ JavaScript กับไดรเวอร์ Selenium เขาอธิบาย
งานของ Rentech ส่วนใหญ่มีไว้สำหรับองค์กรที่ต้องการข้อมูลทางการตลาดและการวิเคราะห์ บอทได้รับมอบหมายให้เข้าเยี่ยมชมเว็บไซต์เป็นระยะ ซึ่งบางครั้งเพื่อค้นหาข้อมูลผลิตภัณฑ์ Dharmeliya กล่าว บางเว็บไซต์จำกัดจำนวนคำค้นหาที่มาจากแหล่งเดียว เพื่อแก้ไขปัญหานั้น Rentech จะใช้ AWS Lambda เพื่อดำเนินการบอทที่จะเรียกใช้การสืบค้นจากหลายเครื่องเพื่อหลีกเลี่ยงข้อจำกัดการสืบค้น Dhameliya อธิบาย
เป็นไปไม่ได้อย่างมนุษย์ปุถุชนที่จะผ่านข้อมูลทั้งหมดเพื่อกำจัด "ค่าว่างและการหลอกลวง" Tskaroveli กล่าว “ลูกค้าจำนวนมากรวบรวมข้อมูลด้วยอุปกรณ์ของตนเองหรือใช้ฟรีแลนซ์ เป็นปัญหาใหญ่ที่ไม่ได้รับข้อมูลที่ชัดเจน” เขากล่าว Datamam อาศัยอัลกอริธึมในตัวของมันเองเพื่อดำเนินการผ่าน "แถวและคอลัมน์" ซึ่งเป็นการประกันคุณภาพโดยอัตโนมัติ
“เราเขียนสคริปต์หลามแบบกำหนดเองเพื่อขูดเว็บไซต์ โดยปกติ แต่ละแห่งได้รับการปรับแต่งเพื่อจัดการกับเว็บไซต์เฉพาะ และเราสามารถให้ข้อมูลที่กำหนดเองได้ หากจำเป็น” McLaughlin กล่าว “เราไม่ได้ใช้ AI หรือการเรียนรู้ของเครื่องใด ๆ ในการผลิตสคริปต์เหล่านี้โดยอัตโนมัติ แต่เทคโนโลยีนั้นสามารถนำมาใช้ในอนาคตได้”
ข้อมูลใด ๆ ที่สามารถคัดลอกและวางด้วยตนเองสามารถคัดลอกได้โดยอัตโนมัติ” Mclauglin ได้เพิ่ม “[I] หากคุณพบเว็บไซต์ที่มีไดเรกทอรีของรายชื่อลูกค้าเป้าหมายที่เป็นไปได้ คุณสามารถใช้การขูดเว็บเพื่อแปลงเว็บไซต์นั้นเป็นสเปรดชีตของลีดที่สามารถนำมาใช้สำหรับกระบวนการทางการตลาดปลายน้ำได้อย่างง่ายดาย”
“โซเชียลมีเดียเป็นสัตว์ร้ายที่แตกต่างกัน แอปพลิเคชันบนเว็บและมือถือของพวกเขานั้นซับซ้อนมาก ด้วย API หลายร้อยตัวและโครงสร้างแบบไดนามิก และยังเปลี่ยนแปลงบ่อยมากด้วยการอัปเดตเป็นประจำและการทดสอบ A/B” Ondra กล่าว "[U] n เว้นแต่ว่าคุณสามารถฝึกอบรมและสนับสนุนทีมในองค์กรขนาดใหญ่ได้ วิธีที่ดีที่สุดที่จะทำคือซื้อเป็นบริการจากนักพัฒนาที่มีประสบการณ์"
“ถ้า [ลูกค้า] อยู่ในอีคอมเมิร์ซ คุณอาจหนีไปกับเครื่องขูดผลิตภัณฑ์ที่ขับเคลื่อนด้วย AI คุณเสี่ยงต่อคุณภาพของข้อมูลที่จะต่ำลง แต่คุณสามารถปรับใช้กับเว็บไซต์หลายร้อยหรือหลายพันแห่งได้อย่างง่ายดาย” Ondra กล่าวเสริม
ขูดเว็บแต่ใช้สามัญสำนึกบ้าง
มีข้อจำกัดและโอกาสที่มาพร้อมกับการขูดเว็บ โปรดทราบว่าการพิจารณาเรื่องความเป็นส่วนตัวจะต้องทำให้การสืบค้นดีขึ้น การขูดเว็บเป็นการเลือก ไม่ใช่กลุ่มลากสุทธิ
ความเป็นส่วนตัวของข้อมูลเป็นหนึ่งในข้อจำกัดเหล่านั้น “อย่ารวบรวมความคิดเห็นหรือมุมมองทางการเมืองหรือข้อมูลเกี่ยวกับครอบครัวหรือข้อมูลส่วนบุคคล” Dharmeliya กล่าว ประเมินความเสี่ยงทางกฎหมายก่อนขูด อย่ารวบรวมข้อมูลใด ๆ ที่มีความเสี่ยงทางกฎหมาย
สิ่งสำคัญคือต้องเข้าใจว่าการขูดเว็บไม่ใช่ - และด้วยเหตุผลทางกฎหมายไม่ควรเป็น - เกี่ยวกับการเก็บรวบรวมข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้ แท้จริงแล้ว การดึงข้อมูลทางเว็บเป็นเรื่องที่ขัดแย้งกัน แต่ส่วนใหญ่รอดพ้นจากการตรวจสอบทางกฎหมาย ไม่น้อยเพราะเป็นการยากที่จะแยกแยะความแตกต่างทางกฎหมายระหว่างเว็บเบราว์เซอร์และเว็บสแครปเปอร์ ซึ่งทั้งสองอย่างนี้ขอข้อมูลจากเว็บไซต์และทำสิ่งต่างๆ กับข้อมูลดังกล่าว นี้ได้รับการดำเนินคดีเมื่อเร็ว ๆ นี้
Facebook, Instagram และ LinkedIn มีกฎเกณฑ์ที่ควบคุมว่าข้อมูลใดที่สามารถคัดลอกได้และข้อมูลใดที่ไม่ถูก จำกัด Dharmeliya กล่าว ตัวอย่างเช่น บัญชี Facebook และ Instagram แต่ละบัญชีที่ปิดเป็นบัญชีส่วนตัว อะไรก็ตามที่ดึงข้อมูลสู่โลกสาธารณะเป็นเกมที่ยุติธรรม — New York Times, Twitter, พื้นที่ใดๆ ที่ผู้ใช้สามารถโพสต์ความคิดเห็นหรือบทวิจารณ์ เขากล่าวเสริม
“เราไม่ได้ให้คำแนะนำทางกฎหมาย ดังนั้นเราจึงสนับสนุนให้ลูกค้าขอคำปรึกษาเกี่ยวกับการพิจารณาทางกฎหมายในเขตอำนาจศาลของพวกเขา” แมคลาฟลินกล่าว
เจาะลึก: เหตุใดนักการตลาดจึงควรใส่ใจเกี่ยวกับความเป็นส่วนตัวของผู้บริโภค
การขูดเว็บยังคงเป็นส่วนเสริมที่มีประโยชน์กับการรวบรวมข้อมูลรูปแบบอื่นๆ
สำหรับลูกค้า Datamam การขูดเว็บเป็นรูปแบบหนึ่งของการสร้างโอกาสในการขาย Tskaroveli กล่าว มันสามารถสร้างลีดใหม่จากหลายแหล่งหรือสามารถใช้สำหรับการเพิ่มข้อมูลเพื่อให้นักการตลาดได้รับความเข้าใจที่ดีขึ้นเกี่ยวกับลูกค้าของพวกเขา เขาตั้งข้อสังเกต

เป้าหมายอีกประการสำหรับบอทการขูดเว็บคือแคมเปญการตลาดที่มีอิทธิพล Dhameliya กล่าว เป้าหมายคือการระบุผู้มีอิทธิพลที่เหมาะสมกับโปรไฟล์ของนักการตลาด
“เริ่มช้าและเพิ่มแหล่งข้อมูลทีละน้อย แม้แต่กับลูกค้าองค์กรของเรา เราเห็นความกระตือรือร้นอย่างมากในการเริ่มต้นด้วยการขูดเว็บ ราวกับว่ามันเป็นกระสุนวิเศษ เพียงเพื่อหยุดส่วนหนึ่งของเครื่องขูดในภายหลังเพราะพวกเขาตระหนักว่าพวกเขาไม่เคยต้องการข้อมูล” Ondra กล่าว “เริ่มติดตามคู่แข่งรายหนึ่ง และถ้ามันเหมาะกับคุณ ให้เพิ่มคู่แข่งรายที่สอง หรือเริ่มต้นด้วยผู้มีอิทธิพลบน Instagram และเพิ่ม TikTok ในภายหลัง ปฏิบัติกับข้อมูลที่คัดลอกมาจากเว็บอย่างขยันขันแข็ง เช่นเดียวกับแหล่งข้อมูลอื่น ๆ และจะทำให้คุณได้เปรียบในการแข่งขันอย่างแน่นอน”
รับมาร์เทค! รายวัน. ฟรี. ในอินบ็อกซ์ของคุณ
ดูเงื่อนไข
ความคิดเห็นที่แสดงในบทความนี้เป็นความคิดเห็นของผู้เขียนรับเชิญและไม่จำเป็นต้องเป็น MarTech ผู้เขียนพนักงานอยู่ที่นี่

เรื่องที่เกี่ยวข้อง
ใหม่ใน MarTech