SEO 指南：如何設置 Robots.txt 和 Meta Robots 標籤

已發表: 2022-09-11

雖然大多數 SEO 專家都知道 robots.txt 和 Meta Robots 標籤用於管理搜索引擎機器人對網站的訪問，但許多人也不知道如何有效地使用它們。兩者都有明顯的優勢和劣勢，關鍵是要在使用什麼和何時使用之間取得平衡。為了解決這個問題，我們在本文中概述了設置 robots.txt 文件和 Meta Robots 標籤的最佳實踐。

機器人.txt

Robots.txt 是一個文本文件，它告訴搜索引擎機器人他們可以抓取網站的哪些部分，哪些部分不能。它是機器人排除協議 (REP) 的一部分，該協議是一組關於機器人如何在互聯網上抓取和索引信息的指南。它可能看起來很複雜且技術性很強，但創建 robots.txt 文件很簡單。讓我們開始吧！

以下是一個簡單的 robots.txt 文件的示例：

用戶代理： *

允許： /

禁止： /謝謝

站點地圖： https://www.example.com/sitemap.xml

robots.txt 文件中用於引導機器人的最重要指令是 Allow 和 Disallow。讓我們來看看它們的含義。

句法

User-agent – 指令所針對的用戶代理名稱在此處指定。

符號 * 表示這些指令適用於所有爬蟲。此參數的其他可能值包括 Googlebot、yandexbot 和 bingbot 等。

允許：此命令告訴 Googlebot 指定的統一資源定位器是可抓取的 (URL)

禁止：此命令會阻止 Googlebot 抓取您指定的網址。

站點地圖：此命令用於指定您網站的站點地圖 URL。

在這種情況下，User-agent: * 表示該命令集與所有類型的機器人相關。

Allow: / 告訴爬蟲他們可以爬取整個網站，除了文件中不允許的頁面。最後，Disallow: /thank-you 告訴 Googlebot 不要抓取任何包含 /thank-you 的網址。

User-agent、Allow 和 Disallow 指令執行 robots.txt 文件的主要功能，即允許和禁止爬蟲。

最佳 Robots.txt 實踐

以下是您在設置自己的 robots.txt 文件時應遵循的一些專業 SEO 提示。

首先，請做好功課並找出您不希望將網站的哪些部分編入索引。請勿複製或重複使用他人的 robots.txt 文件。
確保您的 robots.txt 文件位於您網站的根目錄中，以便搜索引擎爬蟲可以輕鬆訪問它。
因為它區分大小寫，所以不要將您的文件稱為“robots.txt”以外的任何名稱。
在 robots.txt 中，始終包含您的站點地圖 URL，以便搜索引擎機器人更容易找到您的網站頁面。
Robots.txt 不應用於隱藏私人信息或未來的活動頁面。任何人都可以通過將 /robots.txt 放在您的域名後訪問您的 robots.txt 文件，因為它是一個公共文件。因為任何人都可能看到您要隱藏的頁面，所以最好不要使用機器人。
為每個根域的子域創建單獨的自定義 robots.txt 文件。
在您上線之前，請仔細檢查您是否沒有阻止任何您不想阻止的內容。
要發現任何錯誤並確保您的指令正常運行，請使用 Google 的 robots.txt 測試工具測試和驗證您的 robots.txt 文件。
為每個根域的子域創建單獨的自定義 robots.txt 文件。
要發現任何錯誤並確保您的指令正常運行，請使用 Google 的 robots.txt 測試工具測試和驗證您的 robots.txt 文件。
不要鏈接到 robots.txt 文件禁止的任何網站頁面。內部鏈接將導致 Google 抓取這些頁面（如果它們是鏈接的）。
確保您的 robots.txt 文件格式正確。

在新行上，應定義每個指令。
允許或禁止 URL 時，請記住它們區分大小寫。
除 * 和 $ 外，不應使用其他特殊字符。
為了更清楚，請使用 # 符號。帶有 # 字符的行會被爬蟲忽略。

您應該使用 robots.txt 文件隱藏哪些頁面？

分頁頁面
頁面查詢參數的變化
您的帳戶或個人資料的頁面
管理員頁面
在購物車中
感謝頁面

阻止未從任何位置鏈接且未使用 robots.txt 編入索引的頁面。

談到 robots.txt，網站管理員經常會犯錯誤。這些將在另一篇文章中討論。檢查並遠離它們——典型的 robots.txt 錯誤

機器人標籤

robots.txt 文件只是告訴爬蟲它可以訪問網站的哪些部分。但是，它不會告訴爬蟲它是否可以索引。為此，您可以使用機器人標籤來指導爬蟲進行索引和各種其他任務。 Meta Robots 和 X-robots 標籤是機器人標籤的兩種形式。

元機器人標籤

Meta Robots 標籤是一段 HTML 代碼，它告訴搜索引擎如何抓取和索引頁面。它位於網頁的 head> 部分。 Meta Robots 標籤如下所示：

<元名稱=”機器人” 內容=”noindex,nofollow”>

名稱和內容是 Meta Robots 標籤的兩個屬性。

名稱屬性

為 name 屬性定義的值是機器人的名稱，即（Googlebot、MSNbot 等）。如上例所示，您可以簡單地將值定義為 robots，這表明該指令將適用於各種爬行機器人。

內容屬性

在內容字段中，您可以定義各種不同類型的值。 content 屬性指示爬蟲如何爬取和索引頁面的內容。如果沒有 robots 元標記，抓取工具會將頁面視為索引並默認跟隨它。

以下是 content 屬性的不同類型的值

all：這個指令告訴爬蟲他們可以爬取和索引他們想要的任何東西。這與索引的工作方式相同，並遵循說明。
index：索引指令告訴爬蟲他們可以索引頁面。默認情況下會考慮到這一點。不必將其添加到頁面即可對其進行索引。
noindex：不允許爬蟲索引頁面。如果該頁面已被索引，則該指令將指示爬蟲將其從索引中刪除。
跟隨：指示搜索引擎跟隨頁面上的所有鏈接並傳遞鏈接權益。
nofollow：不允許搜索引擎跟踪網站上的鏈接或傳遞任何股權。
none：這類似於 noindex、nofollow 指令。
noarchive：頁面的緩存副本不顯示在搜索引擎結果頁面 (SERP) 上。
nocache：此指令類似於 noarchive，但僅 Internet Explorer 和 Firefox 支持。
nosnippet：頁面的擴展描述（也稱為元描述）不顯示在搜索結果中。
notranslate – 這會阻止 Google 在 SERP 中提供頁面的翻譯。
noimageindex – 這可以防止 Googlebot 抓取網站上的任何圖片。
不可用_after – 在指定的日期/時間之後，不在搜索結果中顯示此頁面。它類似於帶有計時器的 noindex 標籤。
max-snippet：此指令允許您指定 Google 應在頁面的 SERP 中顯示的最大字符數。以下示例中的字符數將限制為 150 個。
例如 - <meta name=”robots” content=”max-snippet:150″/>
max-video-preview - 將建立視頻樣本預覽的最大秒數。在下面的例子中，谷歌會顯示一個 10 秒的預覽——<meta name=”robots” content=”max-video-preview:10″ />
max-image-preview - 這會指示 Google 應在 SERP 中的頁面顯示的圖像大小。有三個選項可用。

無 – 不顯示圖像片段。
標準 - 將使用默認圖像預覽
large – 可能會顯示最大的預覽

X 機器人標籤

只有在頁面級別，Meta Robots 標籤才能規範爬取和索引。 X-robots 標籤和 Meta Robots 標籤之間的唯一區別在於，X-robots 標籤是在頁面的 HTTP 標頭中定義的，用於管理整個頁面或其中選定元素的抓取和索引。它主要用於非 HTML 頁面控制、爬取和索引。

X-Robots 標籤示例

X-robots 標籤使用與 Meta Robots 標籤相同的指令集，如此屏幕截圖所示。您需要訪問 a.htaccess、.php 或服務器配置文件來更改標頭，以便使用 X-robots 標記。

機器人的最佳 SEO 實踐標籤

1) Meta Robots 和 x-robots 不應在同一頁面上使用，因為其中一個會變得多餘。
2）您可以將 Meta Robots 標記與 noindex 等指令一起使用，如果您不希望您的頁面被索引但仍想將鏈接權益傳達給鏈接頁面，請遵循。這是控制索引的理想方法，而不是使用 robots.txt 阻止索引。
3）要讓您的網站被索引，您不需要包含索引或按照每個頁面的說明進行操作。默認情況下將其考慮在內。
4) 如果你的頁面被索引，不要使用 robots.txt 來阻止它們，而是使用 Meta Robots。因為爬蟲需要爬取頁面才能檢查 Meta Robots 標記，而 robots.txt 阻止會阻止它們這樣做。換句話說，您的 Meta Robots 標籤將過時。
在這些情況下，請先使用漫遊器元標記，然後等待 Google 取消您網站的索引。在它們被取消索引後，您可以使用 robots.txt 來阻止它們並節省抓取費用。但是，因為它們可用於將鏈接公平性傳達給您的重要頁面，所以應該避免這種情況。僅在完全無用的情況下使用 robots.txt 禁止取消索引的頁面。
5) 使用 X-robots 標籤控制對非 HTML 文件的抓取，例如照片、PDF、flash 或視頻。

結論

控製網站的抓取和索引需要使用 robots.txt 和 robots 標籤。有幾個選項可用於控制蜘蛛如何到達您的網站。但是，並非所有這些都可以有效地解決您的問題。例如，如果您希望從索引中刪除某些頁面，僅在 robots.txt 文件中禁止它們是行不通的。

這裡要記住的最重要的事情是弄清楚您的網站需要什麼，然後在網站被阻止時選擇一個聰明的策略來處理它。我們希望此建議能幫助您確定最適合您的選擇。

您採用什麼方法來防止頁面被阻止？請在下面的評論框中分享您的想法。

SEO有用的鏈接建設資源：

2021 年頂級社交書籤網站列表
2021 年 SEO 的頂級圖像提交站點列表
文章提交站點列表 2021
前 100 名高 DA 目錄提交站點列表 2021
2021 年最佳新聞稿提交網站
2021 年最佳高 DA DoFollow 博客評論網站列表
2021年視頻提交站點列表
2021 年高 DA 商業上市網站列表
2021 年高 DA 分類提交站點列表
2021 年高 DA 問答網站列表