คู่มือ SEO: วิธีตั้งค่า Robots.txt & Meta Robots Tag

เผยแพร่แล้ว: 2022-09-11

แม้ว่าผู้เชี่ยวชาญด้าน SEO ส่วนใหญ่ทราบดีว่า robots.txt และแท็ก Meta Robots ใช้เพื่อควบคุมการเข้าถึงบอทของเครื่องมือค้นหาไปยังเว็บไซต์ แต่หลายคนก็ไม่ทราบวิธีใช้งานอย่างมีประสิทธิภาพ ทั้งสองมีข้อดีและข้อเสียที่แตกต่างกัน และสิ่งสำคัญคือต้องสร้างสมดุลระหว่างสิ่งที่จะจ้างและเวลา เพื่อแก้ไขปัญหานี้ เราได้สรุปแนวทางปฏิบัติที่ดีที่สุดสำหรับการตั้งค่าไฟล์ robots.txt และแท็ก Meta Robots ในบทความนี้

Robots.txt

Robots.txt เป็นไฟล์ข้อความที่บอกโรบ็อตของเครื่องมือค้นหาว่าส่วนใดของเว็บไซต์ที่พวกเขาสามารถรวบรวมข้อมูลได้และส่วนใดที่พวกเขาไม่สามารถ เป็นส่วนหนึ่งของ Robots Exclusion Protocol (REP) ซึ่งเป็นชุดแนวทางสำหรับวิธีที่หุ่นยนต์สามารถรวบรวมข้อมูลและจัดทำดัชนีข้อมูลบนอินเทอร์เน็ต อาจดูซับซ้อนและเป็นเรื่องทางเทคนิค แต่การสร้างไฟล์ robots.txt นั้นง่ายมาก มาเริ่มกันเลย!

ต่อไปนี้คือตัวอย่างไฟล์ robots.txt อย่างง่าย:

ตัวแทนผู้ใช้: *

อนุญาต: /

ไม่อนุญาต: / ขอบคุณ

แผนผังเว็บไซต์: https://www.example.com/sitemap.xml

คำสั่งที่สำคัญที่สุดในไฟล์ robots.txt สำหรับหุ่นยนต์นำทางคือ อนุญาต และ ไม่อนุญาต เรามาดูกันว่าพวกเขามีความหมายอย่างไร

ไวยากรณ์

User-agent – ชื่อตัวแทนผู้ใช้ที่มีการกำหนดคำสั่งไว้ที่นี่

สัญลักษณ์ * แสดงว่าคำสั่งมีไว้สำหรับโปรแกรมรวบรวมข้อมูลทั้งหมด ค่าที่เป็นไปได้อื่นๆ สำหรับพารามิเตอร์นี้ ได้แก่ Googlebot, yandexbot และ bingbot เป็นต้น

อนุญาต: คำสั่งนี้บอก Googlebot ว่า Uniform Resource Locators ที่ระบุสามารถรวบรวมข้อมูลได้ (URL)

ไม่อนุญาต: คำสั่งนี้ป้องกันไม่ให้ Googlebot รวบรวมข้อมูล URL ที่คุณระบุ

แผนผังเว็บไซต์: คำสั่งนี้ใช้เพื่อระบุ URL แผนผังเว็บไซต์ของเว็บไซต์ของคุณ

ในกรณีนี้ User-agent: * แสดงว่าชุดคำสั่งเกี่ยวข้องกับบอททุกประเภท

อนุญาต: / บอกโปรแกรมรวบรวมข้อมูลว่าสามารถรวบรวมข้อมูลเว็บไซต์ทั้งหมดได้ ยกเว้นหน้าที่ไม่ได้รับอนุญาตในไฟล์ สุดท้าย Disallow: /thank-you บอก Googlebot ไม่ให้รวบรวมข้อมูล URL ใดๆ ที่มี /thank-you

คำแนะนำ User-agent, Allow และ Disallow จะทำหน้าที่หลักของไฟล์ robots.txt ซึ่งก็คืออนุญาตและห้ามโปรแกรมรวบรวมข้อมูล

แนวทางปฏิบัติที่ดีที่สุดของ Robots.txt

ต่อไปนี้เป็นเคล็ดลับ pro-SEO ที่คุณควรปฏิบัติตามเมื่อตั้งค่าไฟล์ robots.txt ของคุณเอง

ก่อนอื่น โปรดทำการบ้านและหาว่าส่วนใดของเว็บไซต์ของคุณที่คุณไม่ต้องการทำดัชนี ห้ามคัดลอกหรือนำไฟล์ robots.txt ของบุคคลอื่นมาใช้ซ้ำ
ตรวจสอบให้แน่ใจว่าไฟล์ robots.txt ของคุณอยู่ในไดเรกทอรีรากของเว็บไซต์ของคุณ เพื่อให้โปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาสามารถเข้าถึงได้โดยง่าย
เนื่องจากเป็นกรณีเล็ก ๆ อย่าเรียกไฟล์ของคุณอย่างอื่นนอกจาก “robots.txt”
ใน robots.txt ให้ใส่ URL แผนผังเว็บไซต์เสมอเพื่อให้บอทของเครื่องมือค้นหาค้นหาหน้าเว็บไซต์ของคุณได้ง่ายขึ้น
ไม่ควรใช้ Robots.txt เพื่อซ่อนข้อมูลส่วนตัวหรือหน้ากิจกรรมในอนาคต บุคคลใดก็ตามสามารถเข้าถึงไฟล์ robots.txt ของคุณได้โดยเพียงแค่ใส่ /robots.txt หลังชื่อโดเมนของคุณ เนื่องจากเป็นไฟล์สาธารณะ เนื่องจากทุกคนอาจเห็นหน้าที่คุณต้องการซ่อน จึงเป็นการดีที่สุดที่จะไม่ใช้หุ่นยนต์
สร้างไฟล์ robots.txt แยกต่างหากและปรับแต่งสำหรับโดเมนย่อยของโดเมนรากแต่ละโดเมน
ก่อนที่คุณจะถ่ายทอดสด ให้ตรวจสอบอีกครั้งว่าคุณไม่ได้บล็อกสิ่งที่คุณไม่ต้องการ
หากต้องการค้นหาข้อผิดพลาดและตรวจสอบว่าคำสั่งของคุณทำงานอยู่ ให้ทดสอบและตรวจสอบไฟล์ robots.txt ของคุณโดยใช้เครื่องมือทดสอบ robots.txt ของ Google
สร้างไฟล์ robots.txt แยกต่างหากและปรับแต่งสำหรับโดเมนย่อยของโดเมนรากแต่ละโดเมน
หากต้องการค้นหาข้อผิดพลาดและตรวจสอบว่าคำสั่งของคุณทำงานอยู่ ให้ทดสอบและตรวจสอบไฟล์ robots.txt ของคุณโดยใช้เครื่องมือทดสอบ robots.txt ของ Google
ห้ามเชื่อมโยงไปยังหน้าใดๆ ของเว็บไซต์ของคุณที่ไฟล์ robots.txt ไม่อนุญาต ลิงก์ภายในจะทำให้ Google รวบรวมข้อมูลหน้าเหล่านั้นหากมีการเชื่อมโยง
ตรวจสอบให้แน่ใจว่าไฟล์ robots.txt ของคุณอยู่ในรูปแบบที่ถูกต้อง

ในบรรทัดใหม่ ควรกำหนดแต่ละคำสั่ง
เมื่ออนุญาตหรือไม่อนุญาต URL ให้คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่
ยกเว้น * และ $ ไม่ควรใช้อักขระพิเศษอื่น ๆ
เพื่อความชัดเจนยิ่งขึ้น ให้ใช้สัญลักษณ์ # บรรทัดที่มีอักขระ # จะถูกละเว้นโดยโปรแกรมรวบรวมข้อมูล

คุณควรใช้ไฟล์ robots.txt เพื่อซ่อนหน้าใด

หน้าสำหรับการแบ่งหน้า
ตัวแปรของพารามิเตอร์การค้นหาของหน้า
หน้าสำหรับบัญชีหรือโปรไฟล์ของคุณ
เพจสำหรับผู้ดูแลระบบ
ในตะกร้าสินค้า
ขอบคุณเพจ

บล็อกหน้าที่ไม่ได้ลิงก์จากทุกที่และไม่ได้จัดทำดัชนีด้วย robots.txt

เมื่อพูดถึง robots.txt ผู้ดูแลเว็บมักทำผิดพลาด เหล่านี้จะกล่าวถึงในบทความแยกต่างหาก ลองดูและอยู่ห่างจากพวกเขา – ข้อผิดพลาดทั่วไปของ robots.txt

แท็กหุ่นยนต์

ไฟล์ robots.txt เพียงบอกโปรแกรมรวบรวมข้อมูลว่าสามารถเข้าถึงส่วนใดของเว็บไซต์ได้ อย่างไรก็ตาม มันจะไม่บอกโปรแกรมรวบรวมข้อมูลว่าสามารถสร้างดัชนีได้หรือไม่ เพื่อช่วยในเรื่องนี้ คุณอาจใช้แท็กโรบ็อตเพื่อสั่งโปรแกรมรวบรวมข้อมูลในการจัดทำดัชนีและงานอื่นๆ ที่หลากหลาย แท็ก Meta Robots และ X-robots เป็นแท็กหุ่นยนต์สองรูปแบบ

แท็ก Meta Robots

แท็ก Meta Robots คือส่วนย่อยของโค้ด HTML ที่บอกให้เครื่องมือค้นหาทราบถึงวิธีการรวบรวมข้อมูลและจัดทำดัชนีหน้าเว็บ พบได้ในส่วน head> ของหน้าเว็บ แท็ก Meta Robots มีลักษณะดังนี้:

<ชื่อเมตา=”หุ่นยนต์”เนื้อหา=”noindex,nofollow”>

ชื่อและเนื้อหาเป็นคุณลักษณะสองประการของแท็ก Meta Robots

แอตทริบิวต์ชื่อ

ค่าที่กำหนดไว้สำหรับแอตทริบิวต์ชื่อคือชื่อของโรบ็อต เช่น (Googlebot, MSNbot เป็นต้น) ดังที่แสดงในตัวอย่างข้างต้น คุณสามารถกำหนดค่าเป็นหุ่นยนต์ ซึ่งบ่งชี้ว่าคำสั่งจะนำไปใช้กับหุ่นยนต์รวบรวมข้อมูลทุกประเภท

แอตทริบิวต์เนื้อหา

ในฟิลด์เนื้อหา คุณสามารถกำหนดค่าประเภทต่างๆ ได้หลากหลาย แอตทริบิวต์เนื้อหาแนะนำโปรแกรมรวบรวมข้อมูลเกี่ยวกับวิธีการรวบรวมข้อมูลและจัดทำดัชนีเนื้อหาของหน้า หากไม่มีเมตาแท็กของโรบ็อต โปรแกรมรวบรวมข้อมูลจะถือว่าหน้านั้นเป็นดัชนีและติดตามโดยค่าเริ่มต้น

free backlinks maker — ผู้สร้างลิงก์ย้อนกลับฟรี

Opens in a new tab. — ผู้สร้างลิงก์ย้อนกลับฟรี

ค่าประเภทต่าง ๆ สำหรับแอตทริบิวต์เนื้อหา

ทั้งหมด: คำสั่งนี้บอกโปรแกรมรวบรวมข้อมูลว่าสามารถรวบรวมข้อมูลและจัดทำดัชนีอะไรก็ได้ที่ต้องการ ทำงานในลักษณะเดียวกับดัชนีและปฏิบัติตามคำแนะนำ
ดัชนี: คำสั่งดัชนีบอกโปรแกรมรวบรวมข้อมูลว่าสามารถจัดทำดัชนีหน้าเว็บได้ สิ่งนี้ถูกนำมาพิจารณาโดยค่าเริ่มต้น ไม่จำเป็นต้องเพิ่มข้อมูลนี้ในหน้าเพื่อจัดทำดัชนี
noindex: ไม่อนุญาตให้โปรแกรมรวบรวมข้อมูลจัดทำดัชนีหน้า หากหน้าได้รับการจัดทำดัชนีแล้ว โปรแกรมรวบรวมข้อมูลจะได้รับคำแนะนำให้ลบออกจากดัชนีโดยคำสั่งนี้
ติดตาม: เครื่องมือค้นหาได้รับคำสั่งให้ติดตามลิงก์ทั้งหมดบนหน้าเว็บและส่งผ่านส่วนของลิงก์
nofollow: เครื่องมือค้นหาไม่ได้รับอนุญาตให้ติดตามลิงก์บนเว็บไซต์หรือส่งผ่านส่วนทุนใดๆ
none: สิ่งนี้คล้ายกับ noindex, nofollow directives
noarchive: สำเนาแคชของหน้าไม่แสดงบนหน้าผลลัพธ์ของเครื่องมือค้นหา (SERP)
nocache: คำสั่งนี้คล้ายกับ noarchive แต่ได้รับการสนับสนุนโดย Internet Explorer และ Firefox เท่านั้น
nosnippet: คำอธิบายแบบขยายของหน้า (หรือที่เรียกว่าคำอธิบายเมตา) จะไม่แสดงในผลการค้นหา
notranslate – สิ่งนี้จะป้องกันไม่ให้ Google ให้บริการแปลหน้าใน SERP
noimageindex – สิ่งนี้จะป้องกันไม่ให้ Googlebot รวบรวมข้อมูลรูปภาพใด ๆ บนเว็บไซต์
ไม่พร้อมใช้งาน_หลังจากวันที่/เวลาที่ระบุ ไม่ต้องแสดงหน้านี้ในผลการค้นหา คล้ายกับแท็ก noindex ที่มีตัวจับเวลา
max-snippet: คำสั่งนี้อนุญาตให้คุณระบุจำนวนอักขระสูงสุดที่ Google ควรแสดงใน SERP ของหน้า จำนวนอักขระในตัวอย่างด้านล่างจะจำกัดไว้ที่ 150 ตัว
เช่น – <meta name=”robots” content=”max-snippet:150″/>
max-video-preview – จำนวนวินาทีสูงสุดสำหรับตัวอย่างวิดีโอจะถูกสร้างขึ้น ในกรณีด้านล่าง Google จะแสดงตัวอย่าง 10 วินาที —– <meta name=”robots” content=”max-video-preview:10″ />
max-image-preview – สิ่งนี้จะแนะนำ Google เกี่ยวกับขนาดของรูปภาพที่ควรแสดงสำหรับหน้าใน SERP มีสามตัวเลือกให้เลือก

ไม่มี – จะไม่มีการแสดงตัวอย่างรูปภาพ
มาตรฐาน – จะใช้การแสดงตัวอย่างรูปภาพเริ่มต้น
ใหญ่ – อาจแสดงตัวอย่างที่ใหญ่ที่สุดเท่าที่จะเป็นไปได้

X Robots แท็ก

แท็ก Meta Robots ที่ระดับหน้าเว็บเท่านั้นที่จะควบคุมการรวบรวมข้อมูลและการจัดทำดัชนี ความแตกต่างเพียงอย่างเดียวระหว่างแท็ก X-robots และแท็ก Meta Robots คือแท็ก X-robots ถูกกำหนดไว้ในส่วนหัว HTTP ของหน้าเพื่อจัดการการรวบรวมข้อมูลและการจัดทำดัชนีของทั้งหน้าหรือองค์ประกอบที่เลือกไว้ ส่วนใหญ่จะใช้สำหรับการควบคุมหน้าที่ไม่ใช่ HTML การรวบรวมข้อมูลและการจัดทำดัชนี

ตัวอย่างแท็ก X-Robots

แท็ก X-robots ใช้ชุดคำสั่งเดียวกันกับแท็ก Meta Robots ดังที่แสดงในภาพหน้าจอนี้ คุณจะต้องเข้าถึงไฟล์การกำหนดค่า a.htaccess,.php หรือเซิร์ฟเวอร์เพื่อเปลี่ยนส่วนหัวเพื่อใช้แท็ก X-robots

แนวทางปฏิบัติ SEO ที่ดีที่สุดสำหรับ Robots Tags

1) ไม่ควรใช้ Meta Robots และ x-robots ในหน้าเดียวกัน เพราะตัวใดตัวหนึ่งจะกลายเป็นส่วนซ้ำซ้อน
2) คุณสามารถใช้แท็ก Meta Robots ที่มีคำสั่งเช่น noindex ปฏิบัติตามหากคุณไม่ต้องการให้หน้าเว็บของคุณได้รับการจัดทำดัชนี แต่ยังต้องการถ่ายทอดส่วนเชื่อมโยงไปยังหน้าที่เชื่อมโยง แทนที่จะป้องกันการจัดทำดัชนีด้วย robots.txt วิธีนี้เป็นวิธีที่เหมาะสำหรับการควบคุมการจัดทำดัชนี
3) ในการจัดทำดัชนีเว็บไซต์ของคุณ คุณไม่จำเป็นต้องรวมดัชนีหรือปฏิบัติตามคำแนะนำในแต่ละหน้า มันถูกนำมาพิจารณาโดยค่าเริ่มต้น
4) หากหน้าเว็บของคุณได้รับการจัดทำดัชนี อย่าใช้ robots.txt เพื่อหยุดพวกเขา และใช้ Meta Robots แทน เนื่องจากโปรแกรมรวบรวมข้อมูลจำเป็นต้องรวบรวมข้อมูลหน้าเพื่อตรวจสอบแท็ก Meta Robots และการบล็อก robots.txt ป้องกันไม่ให้ทำเช่นนั้น กล่าวอีกนัยหนึ่ง แท็ก Meta Robots ของคุณจะล้าสมัย
ในกรณีเหล่านี้ ให้ใช้เมตาแท็กของโรบ็อตก่อน จากนั้นรอให้ Google ยกเลิกการจัดทำดัชนีไซต์ของคุณ หลังจากที่ยกเลิกการสร้างดัชนีแล้ว คุณสามารถใช้ robots.txt เพื่อป้องกันและประหยัดเงินในการรวบรวมข้อมูล อย่างไรก็ตาม เนื่องจากสามารถใช้เพื่อถ่ายทอดส่วนลิงก์ไปยังหน้าสำคัญของคุณได้ คุณควรหลีกเลี่ยงสิ่งนี้ ใช้เฉพาะ robots.txt เพื่อห้ามหน้าที่ยกเลิกการจัดทำดัชนีหากไร้ประโยชน์โดยสิ้นเชิง
5) ควบคุมการรวบรวมข้อมูลไฟล์ที่ไม่ใช่ HTML เช่น รูปภาพ ไฟล์ PDF แฟลช หรือวิดีโอด้วยแท็ก X-robots

บทสรุป

การควบคุมการรวบรวมข้อมูลและการจัดทำดัชนีเว็บไซต์ของคุณต้องใช้ robots.txt และแท็ก robots มีหลายตัวเลือกในการควบคุมวิธีที่สไปเดอร์เข้าถึงไซต์ของคุณ อย่างไรก็ตาม ไม่ใช่ว่าทั้งหมดจะมีประสิทธิภาพในการแก้ไขปัญหาของคุณ หากคุณต้องการลบบางหน้าออกจากดัชนี ตัวอย่างเช่น เพียงแค่แบนหน้านั้นในไฟล์ robots.txt จะไม่ทำงาน

สิ่งสำคัญที่สุดที่ต้องจำไว้คือต้องค้นหาว่าเว็บไซต์ของคุณต้องการอะไร แล้วเลือกกลยุทธ์ที่ชาญฉลาดเพื่อจัดการกับมันเมื่อเว็บไซต์ถูกบล็อก เราหวังว่าคำแนะนำนี้จะช่วยคุณในการกำหนดตัวเลือกที่ดีที่สุดสำหรับคุณ

คุณใช้แนวทางใดในการป้องกันไม่ให้เพจถูกบล็อก กรุณาแบ่งปันความคิดของคุณในช่องแสดงความคิดเห็นด้านล่าง

แหล่งข้อมูลการสร้างลิงก์ที่มีประโยชน์ของ SEO:

รายชื่อเว็บไซต์บุ๊กมาร์กโซเชียลยอดนิยม 2021
รายชื่อไซต์ส่งรูปภาพยอดนิยม 2021 สำหรับ SEO
รายชื่อเว็บไซต์ส่งบทความ 2021
รายชื่อไซต์ส่งไดเรกทอรี DA สูง 100 อันดับแรก 2021
ไซต์ส่งข่าวประชาสัมพันธ์ที่ดีที่สุดสำหรับปี 2021
รายชื่อเว็บไซต์แสดงความคิดเห็นบล็อก DoFollow สูง DA ที่ดีที่สุด 2021
รายชื่อไซต์ส่งวิดีโอในปี 2021
รายชื่อเว็บไซต์รายชื่อธุรกิจ DA สูงในปี 2021
รายชื่อไซต์ที่มีการจัดหมวดหมู่ DA สูงในปี 2564
รายชื่อเว็บไซต์คำถามและคำตอบ DA สูง 2021