如何創建 Robots.txt 文件(以及為什麼需要)

已發表: 2022-06-07

向人們解釋 SEO 可能很困難,因為有很多小步驟一開始可能看起來不是很重要,但如果做得好,它們加起來會大大提高搜索排名。

一個容易被忽視的重要步驟是讓搜索引擎爬蟲知道要索引哪些頁面 - 以及不應該索引哪些頁面。 您可以使用 robots.txt 文件執行此操作。

在今天的博文中,我將準確解釋如何創建 robots.txt 文件,這樣您就可以將網站的這個基礎部分擺好,並確保爬蟲以您想要的方式與您的網站進行交互。

什麼是 robots.txt 文件?

robots.txt 文件是一個簡單的指令,它告訴搜索引擎抓取工具要抓取和索引您網站上的哪些頁面。

它是機器人排除協議 (REP) 的一部分,該協議是一系列標準程序,用於管理搜索引擎機器人如何抓取網絡、評估和索引網站內容,然後將該內容提供給用戶。 此文件指定允許爬蟲爬取的位置和不允許爬取的位置。 它還可以包含可以幫助爬蟲更有效地爬取網站的信息。

REP 還包括“元機器人標籤”,這是包含在頁面 HTML 中的指令,其中包含有關網絡爬蟲應如何爬取和索引特定網頁及其包含的圖像或文件的特定說明。

Robots.txt 和 Meta Robots 標籤有什麼區別?

正如我所提到的,機器人排除協議還包括“元機器人標籤”,它們是包含在頁面 HTML 中的代碼片段。 它們與 robots.txt 文件的不同之處在於它們為特定網頁上的網絡爬蟲提供方向,不允許訪問整個頁面或頁面中包含的特定文件,例如照片和視頻。

相比之下,robots.txt 文件旨在防止網站的整個部分被索引,例如僅用於內部使用的子目錄。 robots.txt 文件位於您網站的根域而不是特定頁面上,並且指令的結構使其影響包含在它們引用的目錄或子目錄中的所有頁面。

為什麼我需要 Robots.txt 文件?

robots.txt 文件是一個非常重要的看似簡單的文本文件。 沒有它,網絡爬蟲將簡單地索引他們找到的每個頁面。

為什麼這很重要?

對於初學者來說,爬取整個網站需要時間和資源。 所有這些都需要花錢,因此谷歌限制了它對網站的抓取量,特別是如果該網站非常大。 這被稱為“抓取預算”。 抓取預算受到幾個技術因素的限制,包括響應時間、低價值 URL 和遇到的錯誤數量。

另外,如果您允許搜索引擎不受限制地訪問您的所有頁面並讓他們的爬蟲索引它們,您最終可能會出現索引膨脹。 這意味著 Google 可能會對您不想出現在搜索結果中的不重要頁面進行排名。 這些結果可能會給訪問者帶來糟糕的體驗,他們甚至可能最終與您想要排名的頁面競爭。

當您將 robots.txt 文件添加到您的站點或更新現有文件時,您可以減少抓取預算浪費並限制索引膨脹。

我在哪裡可以找到我的 Robots.txt 文件?

有一個簡單的方法可以查看您的網站是否有 robots.txt 文件:在互聯網上查找。

只需輸入任何站點的 URL 並在末尾添加“/robots.txt”即可。 例如: victoriousseo.com/robots.txt向您展示我們的。

通過輸入您的站點 URL 並在末尾添加“/robots.txt”自行嘗試。 您應該看到以下三件事之一:

  • 幾行文本表示有效的 robots.txt 文件
  • 一個完全空白的頁面,表明沒有實際的 robots.txt 文件
  • 404 錯誤

如果您正在檢查您的網站並獲得後兩個結果中的任何一個,您將需要創建一個 robots.txt 文件來幫助搜索引擎更好地了解他們應該將精力集中在哪裡。

如何創建 Robots.txt 文件

robots.txt 文件包含搜索引擎機器人可以閱讀和遵循的某些命令。 以下是您在創建 robots.txt 文件時將使用的一些術語。

常見的 Robots.txt 術語要知道

用戶代理:用戶代理是負責為最終用戶檢索和呈現 Web 內容的任何軟件。 雖然網絡瀏覽器、媒體播放器和插件都可以被視為用戶代理的示例,但在 robots.txt 文件的上下文中,用戶代理是一種搜索引擎爬蟲或爬蟲(例如 Googlebot),它可以抓取和索引你的網頁。

允許:當包含在 robots.txt 文件中時,此命令允許用戶代理抓取它後面的任何頁面。 例如,如果命令顯示“允許:/”,這意味著任何網絡爬蟲都可以訪問“http://www.example.com/”中斜線後面的任何頁面。 您不需要為要抓取的所有內容添加此內容,因為 robots.txt 不允許的任何內容都是隱式允許的。 相反,使用它來允許訪問位於不允許路徑中的子目錄。 例如,WordPress 站點通常對 /wp-admin/ 文件夾有一個禁止指令,這反過來又要求它們添加一個允許指令,以允許爬蟲訪問 /wp-admin/admin-ajax.php 而無需訪問目錄中的任何其他內容主文件夾。

Disallow:此命令禁止特定用戶代理爬取指定文件夾後面的頁面。 例如,如果命令顯示“Disallow: /blog/”,這意味著用戶代理可能不會抓取任何包含 /blog/ 子目錄的 URL,這會將整個博客排除在搜索之外。 你可能永遠不想這樣做,但你可以。 這就是為什麼在您考慮對 robots.txt 文件進行更改時考慮使用 disallow 指令的含義非常重要的原因。

Crawl-delay:雖然這個命令被認為是非官方的,但它的設計目的是防止網絡爬蟲潛在地用請求壓倒服務器。 它通常在請求過多可能導致服務器問題的網站上實施。 一些搜索引擎支持它,但谷歌不支持。 您可以通過打開 Google 搜索控制台、導航到您住宿的“抓取速度設置”頁面並在那裡調整滑塊來調整 Google 的抓取速度。 這僅在 Google 認為它不是最佳的情況下才有效。 如果您認為它不是最理想的並且 Google 不同意,您可能需要提出特殊要求以對其進行調整。 這是因為 Google 更希望您允許他們優化您網站的抓取速度。

XML 站點地圖:該指令完全符合您的猜測:告訴網絡爬蟲您的 XML 站點地圖在哪裡。 它應該類似於:“站點地圖:http://www.example.com/sitemap.xml。” 您可以在此處了解有關站點地圖最佳實踐的更多信息。

創建 Robots.txt 的分步說明

要創建自己的 robots.txt 文件,您需要使用簡單的文本編輯器,例如記事本或 TextEdit。 重要的是不要使用文字處理器,因為它們通常以專有形式保存文件,並且可能會在文件中添加特殊字符。

為簡單起見,我們將使用“www.example.com”。

我們將從設置用戶代理參數開始。 在第一行,輸入:

用戶代理: *

星號表示允許所有網絡爬蟲訪問您的網站。

一些網站會使用允許指令來表示允許機器人爬行,但這是不必要的。 您沒有禁止的網站的任何部分都是隱式允許的。

接下來,我們將輸入 disallow 參數。 點擊“return”兩次以在用戶代理行之後插入一個中斷,然後鍵入:

不允許: /

因為我們沒有在它之後輸入任何命令,這意味著網絡爬蟲可以訪問您網站上的每個頁面。

如果要阻止對某些內容的訪問,可以在 disallow 命令後添加目錄。 我們的 robots.txt 文件有以下兩個禁止命令:

禁止:/wp/wp-admin/

不允許: /*?*

第一個確保我們的 WordPress 管理頁面(我們在其中編輯本文之類的內容)不會被抓取。 這些是我們不希望在搜索中排名的頁面,而且嘗試抓取它們也會浪費 Google 的時間,因為它們受密碼保護。 第二個可防止抓取包含問號的 URL,例如博客搜索結果頁面。

完成命令後,鏈接到您的站點地圖。 雖然這一步在技術上不是必需的,但它是推薦的最佳做法,因為它將網絡蜘蛛指向您網站上最重要的頁面,並使您的網站架構清晰。 插入另一個換行符後,鍵入:

站點地圖:http://www.example.com/sitemap.xml

現在您的網絡開發人員可以將您的文件上傳到您的網站。

在 WordPress 中創建 Robots.txt 文件

如果您對 WordPress 具有管理員訪問權限,則可以使用 Yoast SEO 插件或 AIOSEO 修改您的 robots.txt 文件。 或者,您的 Web 開發人員可以使用 FTP 或 SFTP 客戶端連接到您的 WordPress 站點並訪問根目錄。

請勿將 robots.txt 文件移動到根目錄以外的任何位置。 雖然一些消息來源建議將其放在子目錄或子域中,但理想情況下,它應該位於您的根域中: www.example.com/robots.txt。

如何測試您的 Robots.txt 文件

現在您已經創建了 robots.txt 文件,是時候對其進行測試了。 幸運的是,Google 提供了一個 robots.txt 測試器作為 Google Search Console 的一部分,從而簡化了這一過程。

打開站點的測試器後,您會看到突出顯示的所有語法警告和邏輯錯誤。

機器人txt測試儀

要測試特定 Googlebot 如何“看到”您的頁面,請在頁面底部的文本框中輸入您網站的 URL,然後從右側下拉列表中的各種 Googlebot 中進行選擇。 點擊“測試”將模擬您選擇的機器人的行為,並顯示是否有任何指令阻止 Googlebot 訪問該頁面。

googlebot robots txt 測試器

Robots.txt 的缺點

Robots.txt 文件非常有用,但它們也有其局限性。

Robots.txt 文件不應用於保護或隱藏您網站的某些部分(這樣做可能違反《數據保護法》)。 還記得我建議您搜索自己的 robots.txt 文件嗎? 這意味著任何人都可以訪問它,而不僅僅是您。 如果有您需要保護的信息,最好的方法是使用密碼保護特定頁面或文檔。

此外,您的 robots.txt 文件指令只是請求。 您可以期望 Googlebot 和其他合法抓取工具遵守您的指令,但其他機器人可能會簡單地忽略它們。

最後,即使您請求爬蟲不索引特定的 URL,它們也不是不可見的。 其他網站可能會鏈接到它們。 如果您不希望網站上的某些信息可供公眾查看,則應使用密碼對其進行保護。 如果您想確定它不會被索引,請考慮在頁面上包含一個 noindex 標記。

了解有關技術 SEO 的更多信息:下載我們的清單

想了解更多關於 SEO 的信息,包括如何將網站的 SEO 掌握在自己手中的分步說明? 下載我們的 2022 年 SEO 清單以獲取全面的待辦事項清單,其中包括可幫助您提高搜索排名並為您的網站帶來更多自然流量的寶貴資源。

2022 年搜索引擎優化清單

搜索引擎優化清單和規劃工具

您準備好在您的 SEO 上大放異彩了嗎? 獲取交互式清單和規劃工具並開始吧!