如何查找和修復索引覆蓋率問題

已發表: 2020-10-29

您是否遇到 Google 索引問題? 這種麻煩可能會導致流量和轉化率下降。

有必要檢查您網站的索引頁面和未索引頁面以快速解決任何問題 在這裡,我們將逐步解釋如何使用 Google Search Console – 索引覆蓋率報告來做到這一點

通過以下方法,我們已經成功解決了數百個網站的索引覆蓋問題,這些網站有數百萬或數十億的排除頁面。 使用它,這樣您的任何相關頁面都不會在搜索結果中失去可見性並增加您的 SEO 流量!

目錄

第 1 步:檢查索引覆蓋率報告

Search Console 覆蓋率報告會告訴您哪些頁面已被 Google 抓取並編入索引,以及這些 URL 為何處於該特定狀態。 您可以使用它來檢測在抓取和索引過程中發現的任何錯誤

覆蓋報告

要查看索引覆蓋率報告,請轉到 Google Search Console 並單擊覆蓋率(就在索引下方)。 打開它後,您會看到一個摘要,其中包含四種不同狀態的 URL 分類:

  • 錯誤:由於某些錯誤,這些頁面無法編入索引並且不會出現在搜索結果中。
  • 警告有效:這些頁面可能會或可能不會顯示在 Google 搜索結果中。
  • 有效:這些頁面已編入索引並可顯示在搜索結果中。 你不需要做任何事情。
  • 排除:這些頁面未編入索引,不會出現在搜索結果中。 Google 認為您不想將它們編入索引或認為內容不值得編入索引。

您需要檢查在錯誤部分找到的所有頁面並儘快更正它們,因為您可能會失去為您的網站帶來流量的機會。

如果您有時間,請查看包含在狀態Valid with warning中的頁面,因為可能有一些重要頁面在任何情況下都不應出現在搜索結果中。

最後,確保排除的頁面是您不希望被索引的頁面。

第二步:如何解決各個索引覆蓋狀態中發現的問題

打開索引覆蓋率報告後,選擇所需狀態(錯誤、警告有效或排除)並查看頁面底部提供的詳細信息。 您會根據嚴重程度和受影響的頁數找到錯誤類型列表,因此我們建議您從表格頂部開始調查問題。

讓我們看看處於不同狀態的每個錯誤以及如何修復它們。

錯誤狀態

GSC 覆蓋率報告中的錯誤頁面

服務器錯誤 (5xx):

這些是向 Google 返回 5xx 狀態代碼的 URL。

採取的行動:

  • 檢查返回的是哪種 500 狀態代碼 在這裡,您有一個完整的列表,其中包含每個服務器錯誤狀態代碼的定義。
  • 重新加載 URL 以查看錯誤是否仍然存在。 5xx 錯誤是暫時的,不需要任何操作。
  • 驗證您的服務器沒有過載或配置錯誤。 在這種情況下,請向您的開發人員尋求幫助,或聯繫您的託管服務提供商。
  • 執行日誌文件分析以檢查服務器的錯誤日誌。 這種做法為您提供有關該問題的額外信息。
  • 查看您最近對網站所做的更改,看看其中是否有任何可能是根本原因。 ex) 插件、新的後端代碼等。

重定向錯誤:

GoogleBot 在重定向過程中遇到了不允許抓取頁面的錯誤。 以下任何原因通常會導致此問題。

  • 重定向鏈太長
  • 重定向循環
  • 超出最大 URL 長度的重定向 URL
  • 重定向鏈中有錯誤或空的 URL

採取的行動:

  • 消除重定向鍊和循環。 讓每個 URL 只執行一次重定向。 換句話說,從第一個 URL 到最後一個 URL 的重定向。

提交的 URL 被 Robots.txt 阻止:

這些是您提交給 Google 的 URL,用於將 XML 站點地圖上傳到 Google Search Console,但已被 Robots.txt 文件阻止。

採取的行動:

檢查您是否希望搜索引擎將相關頁面編入索引。

  • 如果您不希望將其編入索引,請上傳 XML 站點地圖以刪除 URL。
  • 相反,如果您希望它被索引,請更改 Robots.txt 中的指南。 這是有關如何編輯 robots.txt 的指南。

提交的 URL 標記為“noindex”:

這些頁面已通過 XML 站點地圖提交給 Google,但它們在元機器人標記或 HTTP 標頭中有一個“noindex”指令。

採取的行動:

  • 如果您希望將 URL 編入索引,則應刪除 noindex 指令
  • 如果您不希望 Google 將某些 URL 編入索引,請將其從 XML 站點地圖中刪除

提交的 URL 似乎是一個 Soft 404:

您通過 XML 站點地圖提交的用於索引目的的 URL 正在返回一個軟 404 當服務器向請求返回 200 狀態代碼時會發生此錯誤,但 Google 認為它應該顯示 404。換句話說,該頁面看起來像 Google 的 404 錯誤。 在某些情況下,這可能是因為該頁面沒有內容、看起來錯誤或對 Google 來說質量低下。

採取的行動:

  • 調查這些 URL 是否應該返回(真實的)404 狀態代碼。 在這種情況下,請將它們從 XML 站點地圖中刪除。
  • 如果您發現他們不應該返回錯誤,請確保您在這些頁面上提供適當的內容。 避免精簡或重複的內容。 驗證是否有重定向,它們是正確的。

提交的 URL 返回未經授權的請求 (401):

通過 XML Sitemap 提交給 Google 的 URL 返回 401 錯誤 此狀態代碼告訴您您無權訪問該 URL。 您可能需要用戶名和密碼,或者可能存在基於 IP 地址的訪問限制。

採取的行動:

  • 檢查 URL 是否應該返回 401。在這種情況下,將它們從 XML 站點地圖中刪除。
  • 如果您不希望他們顯示 401 代碼,請刪除 HTTP 身份驗證(如果有)。

未找到提交的 URL (404):

您已將用於索引目的的 URL 提交給 Google Search Console,但由於與上述不同的問題,Google 無法抓取它

採取的行動:

  • 看看你是否希望頁面被索引。 如果答案是肯定的,請修復它,​​使其返回 200 狀態碼。 您還可以為 URL 分配 301 重定向,以便它顯示適當的頁面。 請記住,如果您選擇重定向,則需要將分配的 URL 添加到 XML 站點地圖並刪除給出 404 的 URL。
  • 如果您不希望頁面被索引,請將其從 XML 站點地圖中刪除。

提交的 URL 存在抓取問題:

您已向 GSC 提交了用於索引目的的 URL,但由於與上述問題不同的問題,Google 無法抓取該 URL。

採取的行動:

  • 使用URL 檢查工具獲取有關導致問題的原因的更多信息。
  • 有時這些錯誤是暫時的,因此不需要任何操作。

警告狀態有效

警告有效

這些頁面被編入索引,儘管它們被 robots.txt 阻止。 Google 總是嘗試遵循 robots.txt 文件中給出的指令。 但是,有時它的行為會有所不同。 例如,當有人鏈接到給定的 URL 時,就會發生這種情況。

您可以在此類別中找到這些 URL,因為Google 懷疑您是否要在搜索結果中阻止這些頁面

採取的行動:

  • Google 不建議使用 robots.txt 文件來避免頁面索引。 相反,如果您不想看到這些頁面被編入索引,請使用元機器人中的 noindex 或 HTTP 響應標頭。
  • 阻止 Google 訪問該頁面的另一個好方法是實現 HTTP 身份驗證。
  • 如果您不想阻止該頁面,請在 robots.txt 文件中進行必要的更正。
  • 您可以使用robots.txt 測試器確定哪個規則正在阻止頁面

納齊爾·圖拉多,
FandangoSEO顧問
技術 SEO 自由職業者 @ Natzir Turrado

在大規模遷移到 SalesForce 時,我們要求開發人員將我們不想索引的過濾器設置為不可訪問(混淆)。 當 Salesforce 網站上線時,一切都很成功。 但是當幾個月後發布一個新版本時,混淆被意外破壞了。 這引發了所有警報,因為僅在 7 天內,就有約 1750 萬個 Googlebot-Mobile 請求和約 1250 萬個 Googlebot/2.​​1,以及 2% 的命中率緩存。 下面您可以在 Search Console 中看到被機器人編入索引但被阻止的頁面是如何增加的。


這就是為什麼我建議持續監控日誌並查看 GSC 覆蓋率報告(儘管您會在檢查日誌後更快地發現任何問題)。 請記住,robots.txt 不會阻止頁面被索引。 如果您不希望 Google 抓取某個 URL,最好使該 URL 不可訪問!

排除狀態

GSC 覆蓋率報告中的排除頁面

這些頁面沒有在搜索結果中編入索引,Google 認為這是正確的。 例如,這可能是因為它們是索引頁面的重複頁面,或者因為您在您的網站上為搜索引擎提供了指南以對其進行索引。

Coverage 報告顯示了 15 種可以排除您的網頁的情況

被“noindex”標籤排除:

您通過給出“noindex”指令來告訴搜索引擎不要索引頁面。

採取的行動:

  • 驗證您是否真的不想為該頁面編制索引。 如果您希望頁面被索引,請刪除“noindex”標籤。
  • 您可以通過打開頁面並在響應正文和響應標頭上搜索“noindex”來確認此指令的存在。

被頁面刪除工具阻止:

您已為GSC上的這些頁面提交了 URL 刪除請求。

採取的行動:

  • Google 僅會在 90 天內處理此請求,因此如果您不想為頁面編制索引,請使用“noindex”指令、實施 HTTP 身份驗證或刪除該頁面。

被 robots.txt 阻止:

您正在使用 robots.txt 文件阻止 Googlebot 訪問這些網頁。 但是,如果 Google 可以在不加載此頁面的情況下找到有關此頁面的信息,它仍然可以被編入索引。 也許在您在 robots.txt 中添加禁止之前,Google 已將該頁面編入索引

採取的行動:

  • 如果您不希望頁面被索引,請使用“noindex”指令並刪除 robots.txt 塊。

由於未經授權的請求而被阻止 (401):

您正在使用請求授權(401 響應)阻止對 Google 的訪問。

採取的行動:

  • 如果您想允許 GoogleBot 訪問該頁面,請刪除授權要求。

爬取異常:

由於 4xx 或 5xx 錯誤響應代碼,該頁面未編入索引。

採取的行動:

  • 使用 URL 檢查工具獲取有關問題的更多信息

已抓取 - 目前未編入索引

此頁面已被 GoogleBot 抓取,但未編入索引。 它將來可能會或可能不會被索引。 無需提交此 URL 進行抓取

採取的行動:

  • 如果您希望頁面在搜索結果中被索引,請確保您提供有價值的信息。

已發現 - 目前未編入索引:

谷歌找到了這個頁面,但它還沒有設法抓取它 這種情況通常會發生,因為當 GoogleBot 試圖抓取頁面時,網站已經超載。 爬網已安排在另一個時間。

無需任何操作。

具有適當規範標籤的備用頁面:

此頁面指向規範頁面,因此 Google 知道您不想將其編入索引。

採取的行動:

  • 如果您想索引此頁面,您需要更改rel=canonical 屬性以向 Google 提供所需的指南。

沒有用戶選擇的規範的重複:

該頁面有重複,但沒有一個被標記為規範。 谷歌認為這不是規範的。

採取的行動:

  • 使用規範標籤讓 Google 清楚哪些頁面是規範頁面(必須編入索引),哪些頁面是重複頁面。 您可以使用網址檢查工具查看哪些網頁已被 Google 選為規範網頁。

重複,谷歌選擇了與用戶不同的規範:

您已將此頁面標記為規範,但 Google 已將另一個認為功能更好的頁面作為規範索引。

採取的行動:

  • 你可以按照谷歌的選擇。 在這種情況下,將索引頁面標記為規範,並將此頁面標記為規範 URL 的副本。
  • 如果不是,請找出為什麼 Google 更喜歡另一個頁面而不是您選擇的頁面,並進行必要的更改 使用 URL 檢查工具來發現 Google 選擇的“規範頁面”。

費蘭·加文,
搜索引擎優化經理@Softonic

我們在索引覆蓋率報告中遇到的最奇怪的“失敗”之一是發現 Google 沒有正確處理我們的規範(而且我們多年來一直在做錯事!)。 當頁面格式完美時,Google 在 Search Console 上指示指定的規範無效。 最終,Gary Ilyes 證實了這是谷歌本身的錯誤。

未找到 (404):

當 Google 發出請求時,該頁面返回 404 錯誤狀態代碼 GoogleBot 沒有通過站點地圖找到該頁面,但可能是通過鏈接到該 URL 的另一個網站。 也有可能該 URL 過去存在並已被刪除。

採取的行動:

  • 如果 404 響應是故意的,您可以保持原樣。 它不會損害您的 SEO 性能。 但是,如果頁面已移動,請實施 301 重定向。

因法律投訴而被刪除的頁面:

由於法律投訴,此頁面已從索引中刪除

採取的行動:

  • 調查您可能違反了哪些法律規則,並採取必要措施予以糾正。

帶有重定向的頁面:

此 URL 是重定向,因此未編入索引。

採取的行動:

  • 如果 URL 不應該重定向,請刪除重定向實現。

軟404:

該頁面返回 Google 認為的軟 404 響應。 該頁面未編入索引,因為儘管它提供了 200 狀態代碼,但 Google 認為它應該返回 404

採取的行動:

  • 檢查您是否應該按照 Google 的建議為頁面分配 404。
  • 向頁面添加有價值的內容,讓 Google 知道它不是軟 404。

重複的、提交的 URL 未被選為規範:

您已將 URL 提交給 GSC 用於索引目的。 儘管如此,它還沒有被編入索引,因為該頁面有沒有規範標籤的重複頁面,而且谷歌認為有更好的規範候選者。

採取的行動:

  • 決定是否要遵循 Google 對規範頁面的選擇。 在這種情況下,分配rel=canonical 屬性以指向 Google 選擇的頁面。
  • 您可以使用 URL 檢查工具查看 Google 選擇了哪個頁面作為規範。
  • 如果您希望此 URL 作為規範,請分析為什麼 Google 更喜歡其他頁面。 在您選擇的頁面上提供更多高價值內容

步驟 3. 索引覆蓋率報告最常見問題

現在您知道了可以在“索引覆蓋率”報告中找到的不同類型的錯誤,以及遇到每種錯誤時應採取的措施。 以下是最常出現的問題的簡短概述。

比有效頁面更多被排除

有時,您可能擁有比有效頁面更多的排除頁面。 這種情況通常出現在經歷了重大 URL 更改的大型網站上 可能是一個歷史悠久的老網站,或者網頁代碼被修改過。

如果您在兩種狀態(已排除和有效)的頁數之間存在顯著差異,則您有一個嚴重的問題。 正如我們上面解釋的那樣,開始查看排除的頁面。

伊斯特夫·卡斯特

埃斯特夫·卡斯特爾,
集團 SEO 經理 @ Adevinta

我在覆蓋率報告中看到的最大問題是我管理的一個網站,它最終有 50 億個被排除的頁面。 是的,你沒看錯,50 億頁。 分面導航完全瘋狂,對於每次網頁瀏覽,我們都創建了 20 個新的 URL 供 Googlebot 抓取。

就爬行而言,這最終成為了有史以來最昂貴的錯誤。 我們不得不通過 robots.txt 完全禁止分面導航 URL,因為 Googlebot 正在以每天超過 2500 萬的點擊量關閉我們的服務器。

錯誤尖峰

當錯誤數量呈指數增長時,您需要檢查錯誤並儘快修復它。 Google 檢測到一些嚴重損害您網站性能的問題 如果你今天不糾正問題,明天就會有嚴重的問題。

服務器錯誤

確保這些錯誤不是 503(服務不可用) 此狀態碼表示服務器由於臨時過載或維護無法處理請求。 起初,錯誤應該會自行消失,但如果一直出現,則必須查看問題並解決它。

如果您有其他類型的 5xx 錯誤,我們建議您查看我們的指南以了解您在每種情況下需要採取的措施。

404 錯誤

Google 似乎檢測到您網站的某些區域正在生成 404 - 未找到頁面。 如果數量大幅增長,請查看我們的指南以查找和修復損壞的鏈接。

缺少頁面或網站

如果您在報告中看不到頁面或站點,可能有多種原因。

  1. 谷歌還沒有發現它。 當一個頁面或站點是新的時,Google 可能需要一些時間才能找到它。 提交站點地圖或頁面抓取請求以加速索引過程。 此外,請確保該頁面不是孤立頁面並且從網站鏈接。
  2. 由於登錄請求,Google 無法訪問您的頁面 刪除授權要求以允許 GoogleBot 抓取頁面。
  3. 該頁面有一個 noindex 標記或出於某種原因從索引中刪除 刪除 noindex 標記並確保您在頁面上提供有價值的內容。

“提交但/提交和”錯誤和排除

當不一致時會出現此問題。 如果您通過站點地圖發送頁面,則必須確保它對索引有效,並且鏈接到該站點。

您的網站應該主要由值得相互鏈接的有價值的頁面組成。

概括

這是“如何查找和修復索引覆蓋錯誤”一文的三步摘要。

  • 使用索引覆蓋率報告時,您要做的第一件事是修復出現在錯誤狀態的頁面 這必須為 0 以避免 Google 處罰。
  • 其次,檢查排除的頁面,看看這些頁面是否是您不想索引的頁面。 如果不是這種情況,請按照我們的指南解決問題。
  • 如果您有時間,我們強烈建議您檢查帶有警告的有效頁面 確保您在 robots.txt 中提供的指南是正確的,並且沒有不一致之處。

我們希望您覺得有幫助! 如果您對指數覆蓋率報告有任何疑問,請告訴我們。 我們也很樂意在下面的評論中聽到您的任何提示。