SEO 指南:如何設置 Robots.txt 和 Meta Robots 標籤
已發表: 2022-09-11雖然大多數 SEO 專家都知道 robots.txt 和 Meta Robots 標籤用於管理搜索引擎機器人對網站的訪問,但許多人也不知道如何有效地使用它們。 兩者都有明顯的優勢和劣勢,關鍵是要在使用什麼和何時使用之間取得平衡。 為了解決這個問題,我們在本文中概述了設置 robots.txt 文件和 Meta Robots 標籤的最佳實踐。
機器人.txt

Robots.txt 是一個文本文件,它告訴搜索引擎機器人他們可以抓取網站的哪些部分,哪些部分不能。 它是機器人排除協議 (REP) 的一部分,該協議是一組關於機器人如何在互聯網上抓取和索引信息的指南。 它可能看起來很複雜且技術性很強,但創建 robots.txt 文件很簡單。 讓我們開始吧!
以下是一個簡單的 robots.txt 文件的示例:
用戶代理: *
允許: /
禁止: /謝謝
站點地圖: https://www.example.com/sitemap.xml
robots.txt 文件中用於引導機器人的最重要指令是 Allow 和 Disallow。 讓我們來看看它們的含義。
句法
User-agent – 指令所針對的用戶代理名稱在此處指定。
符號 * 表示這些指令適用於所有爬蟲。 此參數的其他可能值包括 Googlebot、yandexbot 和 bingbot 等。
允許:此命令告訴 Googlebot 指定的統一資源定位器是可抓取的 (URL)
禁止:此命令會阻止 Googlebot 抓取您指定的網址。
站點地圖:此命令用於指定您網站的站點地圖 URL。
在這種情況下,User-agent: * 表示該命令集與所有類型的機器人相關。
Allow: / 告訴爬蟲他們可以爬取整個網站,除了文件中不允許的頁面。 最後,Disallow: /thank-you 告訴 Googlebot 不要抓取任何包含 /thank-you 的網址。
User-agent、Allow 和 Disallow 指令執行 robots.txt 文件的主要功能,即允許和禁止爬蟲。
最佳 Robots.txt 實踐
以下是您在設置自己的 robots.txt 文件時應遵循的一些專業 SEO 提示。
- 首先,請做好功課並找出您不希望將網站的哪些部分編入索引。 請勿複製或重複使用他人的 robots.txt 文件。
- 確保您的 robots.txt 文件位於您網站的根目錄中,以便搜索引擎爬蟲可以輕鬆訪問它。
- 因為它區分大小寫,所以不要將您的文件稱為“robots.txt”以外的任何名稱。
- 在 robots.txt 中,始終包含您的站點地圖 URL,以便搜索引擎機器人更容易找到您的網站頁面。
- Robots.txt 不應用於隱藏私人信息或未來的活動頁面。 任何人都可以通過將 /robots.txt 放在您的域名後訪問您的 robots.txt 文件,因為它是一個公共文件。 因為任何人都可能看到您要隱藏的頁面,所以最好不要使用機器人。
- 為每個根域的子域創建單獨的自定義 robots.txt 文件。
- 在您上線之前,請仔細檢查您是否沒有阻止任何您不想阻止的內容。
- 要發現任何錯誤並確保您的指令正常運行,請使用 Google 的 robots.txt 測試工具測試和驗證您的 robots.txt 文件。
- 為每個根域的子域創建單獨的自定義 robots.txt 文件。
- 要發現任何錯誤並確保您的指令正常運行,請使用 Google 的 robots.txt 測試工具測試和驗證您的 robots.txt 文件。
- 不要鏈接到 robots.txt 文件禁止的任何網站頁面。 內部鏈接將導致 Google 抓取這些頁面(如果它們是鏈接的)。
- 確保您的 robots.txt 文件格式正確。
- 在新行上,應定義每個指令。
- 允許或禁止 URL 時,請記住它們區分大小寫。
- 除 * 和 $ 外,不應使用其他特殊字符。
- 為了更清楚,請使用 # 符號。 帶有 # 字符的行會被爬蟲忽略。
- 您應該使用 robots.txt 文件隱藏哪些頁面?
- 分頁頁面
- 頁面查詢參數的變化
- 您的帳戶或個人資料的頁面
- 管理員頁面
- 在購物車中
- 感謝頁面
- 阻止未從任何位置鏈接且未使用 robots.txt 編入索引的頁面。
- 談到 robots.txt,網站管理員經常會犯錯誤。 這些將在另一篇文章中討論。 檢查並遠離它們——典型的 robots.txt 錯誤
機器人標籤
robots.txt 文件只是告訴爬蟲它可以訪問網站的哪些部分。 但是,它不會告訴爬蟲它是否可以索引。 為此,您可以使用機器人標籤來指導爬蟲進行索引和各種其他任務。 Meta Robots 和 X-robots 標籤是機器人標籤的兩種形式。

元機器人標籤
Meta Robots 標籤是一段 HTML 代碼,它告訴搜索引擎如何抓取和索引頁面。 它位於網頁的 head> 部分。 Meta Robots 標籤如下所示:

<元名稱=”機器人” 內容=”noindex,nofollow”>

名稱和內容是 Meta Robots 標籤的兩個屬性。
名稱屬性
為 name 屬性定義的值是機器人的名稱,即(Googlebot、MSNbot 等)。 如上例所示,您可以簡單地將值定義為 robots,這表明該指令將適用於各種爬行機器人。
內容屬性
在內容字段中,您可以定義各種不同類型的值。 content 屬性指示爬蟲如何爬取和索引頁面的內容。 如果沒有 robots 元標記,抓取工具會將頁面視為索引並默認跟隨它。


以下是 content 屬性的不同類型的值
- all:這個指令告訴爬蟲他們可以爬取和索引他們想要的任何東西。 這與索引的工作方式相同,並遵循說明。
- index:索引指令告訴爬蟲他們可以索引頁面。 默認情況下會考慮到這一點。 不必將其添加到頁面即可對其進行索引。
- noindex:不允許爬蟲索引頁面。 如果該頁面已被索引,則該指令將指示爬蟲將其從索引中刪除。
- 跟隨:指示搜索引擎跟隨頁面上的所有鏈接並傳遞鏈接權益。
- nofollow:不允許搜索引擎跟踪網站上的鏈接或傳遞任何股權。
- none:這類似於 noindex、nofollow 指令。
- noarchive:頁面的緩存副本不顯示在搜索引擎結果頁面 (SERP) 上。
- nocache:此指令類似於 noarchive,但僅 Internet Explorer 和 Firefox 支持。
- nosnippet:頁面的擴展描述(也稱為元描述)不顯示在搜索結果中。
- notranslate – 這會阻止 Google 在 SERP 中提供頁面的翻譯。
- noimageindex – 這可以防止 Googlebot 抓取網站上的任何圖片。
- 不可用_after – 在指定的日期/時間之後,不在搜索結果中顯示此頁面。 它類似於帶有計時器的 noindex 標籤。
- max-snippet:此指令允許您指定 Google 應在頁面的 SERP 中顯示的最大字符數。 以下示例中的字符數將限制為 150 個。
- 例如 - <meta name=”robots” content=”max-snippet:150″/>
- max-video-preview - 將建立視頻樣本預覽的最大秒數。 在下面的例子中,谷歌會顯示一個 10 秒的預覽——<meta name=”robots” content=”max-video-preview:10″ />
- max-image-preview - 這會指示 Google 應在 SERP 中的頁面顯示的圖像大小。 有三個選項可用。
- 無 – 不顯示圖像片段。
- 標準 - 將使用默認圖像預覽
- large – 可能會顯示最大的預覽
X 機器人標籤
只有在頁面級別,Meta Robots 標籤才能規範爬取和索引。 X-robots 標籤和 Meta Robots 標籤之間的唯一區別在於,X-robots 標籤是在頁面的 HTTP 標頭中定義的,用於管理整個頁面或其中選定元素的抓取和索引。 它主要用於非 HTML 頁面控制、爬取和索引。

X-Robots 標籤示例
X-robots 標籤使用與 Meta Robots 標籤相同的指令集,如此屏幕截圖所示。 您需要訪問 a.htaccess、.php 或服務器配置文件來更改標頭,以便使用 X-robots 標記。
機器人的最佳 SEO 實踐標籤
1) Meta Robots 和 x-robots 不應在同一頁面上使用,因為其中一個會變得多餘。
2)您可以將 Meta Robots 標記與 noindex 等指令一起使用,如果您不希望您的頁面被索引但仍想將鏈接權益傳達給鏈接頁面,請遵循。 這是控制索引的理想方法,而不是使用 robots.txt 阻止索引。
3)要讓您的網站被索引,您不需要包含索引或按照每個頁面的說明進行操作。 默認情況下將其考慮在內。
4) 如果你的頁面被索引,不要使用 robots.txt 來阻止它們,而是使用 Meta Robots。 因為爬蟲需要爬取頁面才能檢查 Meta Robots 標記,而 robots.txt 阻止會阻止它們這樣做。 換句話說,您的 Meta Robots 標籤將過時。
在這些情況下,請先使用漫遊器元標記,然後等待 Google 取消您網站的索引。 在它們被取消索引後,您可以使用 robots.txt 來阻止它們並節省抓取費用。 但是,因為它們可用於將鏈接公平性傳達給您的重要頁面,所以應該避免這種情況。 僅在完全無用的情況下使用 robots.txt 禁止取消索引的頁面。
5) 使用 X-robots 標籤控制對非 HTML 文件的抓取,例如照片、PDF、flash 或視頻。
結論
控製網站的抓取和索引需要使用 robots.txt 和 robots 標籤。 有幾個選項可用於控制蜘蛛如何到達您的網站。 但是,並非所有這些都可以有效地解決您的問題。 例如,如果您希望從索引中刪除某些頁面,僅在 robots.txt 文件中禁止它們是行不通的。
這裡要記住的最重要的事情是弄清楚您的網站需要什麼,然後在網站被阻止時選擇一個聰明的策略來處理它。 我們希望此建議能幫助您確定最適合您的選擇。
您採用什麼方法來防止頁面被阻止? 請在下面的評論框中分享您的想法。
SEO有用的鏈接建設資源:
- 2021 年頂級社交書籤網站列表
- 2021 年 SEO 的頂級圖像提交站點列表
- 文章提交站點列表 2021
- 前 100 名高 DA 目錄提交站點列表 2021
- 2021 年最佳新聞稿提交網站
- 2021 年最佳高 DA DoFollow 博客評論網站列表
- 2021年視頻提交站點列表
- 2021 年高 DA 商業上市網站列表
- 2021 年高 DA 分類提交站點列表
- 2021 年高 DA 問答網站列表