重複內容 SEO:如何檢查重複內容

已發表: 2022-06-14

重複的內容可能會影響您的哪些頁面出現在搜索結果中並浪費您的抓取預算。 幸運的是,有一些方法可以識別重複內容並將其從您的網站或 Google 的索引中刪除,以防止它對您的排名能力產生負面影響。

什麼是重複內容?

當相同的內容出現在多個具有唯一 URL 的位置時,就會出現重複的內容。

內容不需要完全匹配才能註冊為重複內容——它也可以是谷歌所說的“明顯相似”。 即使某些文本可能不同,該內容本質上“足夠接近”以被視為重複內容。

大多數網站所有者努力確保他們的內容是新鮮的和原創的,但網絡上仍然存在大量重複的內容。 有時網站所有者甚至沒有意識到這一點。 那麼這是怎麼發生的呢?

為什麼會出現重複的內容?

Web 上的大多數重複內容是由於對諸如頁面的打印友好版本、多個不同 URL 上或鏈接到的產品以及生成同一頁面的桌面版和精簡移動版的討論論壇等事物的索引編制的.

但這些並不是您最終會在您的網站上出現重複內容的唯一方法。 以下是更多示例,說明重複內容如何在您的網站內部和其他網站的外部發生。

內部生成的重複項

明顯相似的產品頁面

有時,故意創建明顯相似的頁面是有意義的,尤其是在電子商務中。 例如,假設您在兩個不同的國家/地區銷售相同的產品。 在這種情況下,您可以選擇擁有兩個幾乎相同的頁面,除了一個可能以美元顯示價格,而另一個以加元顯示價格。

另一個例子是產品頁面看起來非常相似,因為它們具有相同的副本,唯一真正的區別是不同的產品圖片、產品名稱和產品價格。

內容管理系統

有時,內容管理系統會創建您甚至可能不知道的重複內容。 一些系統會自動為搜索添加標籤和 URL 參數,從而產生指向完全相同內容的多個路徑。

網址變體

如果您有包含相同內容的不同 URL 變體,您也可能會得到重複的內容。 如前所述,內容管理系統可能會自行執行此操作,您最終可能會得到兩個 URL 變體,例如https://www.website.com/blog1https://www.website.com/blogs/blog1 。 其他 URL 變體(如尾部斜杠或大寫 URL)可能會導致相同的問題。

發生這種情況時,Google 可能不知道要對哪個頁面進行排名,並且一些外部來源可能會鏈接到其中一個頁面,而其他來源可能會鏈接到重複頁面,從而在此過程中破壞您頁面的鏈接資產。

HTTP 與 HTTPS 和 www 與非 www

大多數網站都可以使用或不使用 www 或通過 HTTP 或 HTTPS URL 訪問。 但是,如果您的網站配置不正確,Google 可能會將其中多個頁面的頁面編入索引,從而導致內容重複。

打印機友好和移動友好的 URL

託管在與原始頁面不同的 URL 的打印友好或移動友好頁面將導致重複內容,除非它們沒有正確編入索引。

會話 ID

會話 ID 可以成為跟踪訪問您網站的訪問者的有用工具。 這通常通過向 URL 添加一個長會話 ID 字符串來完成。 因為每個會話 ID 都是唯一的,所以這會創建一個新 URL 並複制您的內容。

UTM 參數

參數可以跟踪來自各種來源的傳入訪問者。 與會話 ID 一樣,儘管頁面內容相同,但它們會生成唯一的 URL,因此如果被編入索引,則會創建重複的內容。

外部生成的重複項

聯合內容

將您的內容聯合到網絡上的其他網站可能是為您的網站帶來更多流量並讓您的名字出現的好方法。 但是,如果未使用正確的規範標頭標籤格式化,此內容仍可能顯示為重複內容。 例如,在 Medium 文章上使用規範標籤可以保護您的原始內容不被註冊為重複內容。

抄襲

雖然大多數重複內容本質上是非惡意的,但一些網站管理員確實會故意複製內容,以尋求從他們自己製作的內容中獲利。

重複內容搜索引擎優化:為什麼重要?

如果重複的內容如此頻繁地發生,為什麼這很重要? 這裡有五種方式可以影響你在搜索結果中排名的能力。

1. 谷歌重複內容處罰

谷歌不會直接懲罰重複的內容——大多數時候。 如果 Google 認為您網站上的重複內容具有“欺騙性”並且“旨在操縱搜索引擎結果”,那麼它可能會通過應用重複內容處罰來採取行動。 因此,即使這種情況不經常發生,根據 Google 重複內容指南,如果您的重複內容足夠惡劣並被認為是出於惡意目的,您最終仍可能會受到直接處罰。

Google 對重複內容的處罰很少見,因此更緊迫的問題是重複內容與 SEO 之間的關係。

2. 指數膨脹

當搜索引擎爬蟲訪問和索引不重要或低質量的內容時,就會發生索引膨脹——比如我提到的那些打印友好的頁面。 這會影響您讓重要頁面排名的能力,因為搜索引擎不知道向用戶推薦您的內容的哪個版本,並且可能排名與您希望的不同版本。 它還會影響爬網預算。

3. 抓取預算

谷歌限制了它花在抓取網站上的時間。 Google 為抓取您的網站並將其編入索引而提供的資源量就是您的抓取預算。 當您有大量重複內容時,您就有可能將抓取預算浪費在不那麼重要的頁面上。

4.關鍵詞蠶食

如果一個頁面的多個副本正在排名,那麼您的頁面將相互競爭相同的關鍵字和可見性。 跟別人競爭已經夠難的了,為什麼還要跟自己競爭呢?

最終,您不能只忽略 SEO 重複內容問題。 只要有可能,盡量合併或刪除重複的內容。

5. 減少鏈接資產

假設 Google 決定對您的兩個明顯相似的頁面進行排名。 他們如何知道是否將所有內容的價值歸因於一個頁面,或者是否應該在兩個頁面之間拆分權限、鏈接公平性和信任? 這種情況會降低您內容的 SEO 價值,導致其表現不佳。

您的反向鏈接的鏈接資產也將在兩個頁面之間分配,具體取決於其他站點是否選擇鏈接到。

如何檢查您自己網站上的重複內容

在您的網站上查找重複內容既免費又簡單。 使用免費版本的 Screaming Frog 和 Siteliner 有條不紊地抓取您的網站並識別任何準確或接近重複的頁面。

如何使用 Screaming Frog 發現重複內容

Screaming Frog 是一個網站爬蟲和 SEO 審計工具,可以幫助您識別網站上的重複內容問題。 以下是如何使用 Screaming Frog 免費掃描多達 500 個 URL。

1. 使用 SEO Spider 抓取您的網站

首先,下載並打開 Screaming Frog。 在“輸入蜘蛛的 URL”字段中輸入您要抓取的網站的 URL,然後單擊“開始”。

seo蜘蛛截圖

2. 檢查“內容”選項卡中的重複項

單擊“內容”選項卡以檢查確切的重複項和近似重複項。 您將能夠實時查看確切的重複項,但您需要執行“抓取分析”以查看接近重複項的列表。

使用screamingfrog 查找重複內容

3.檢查近乎重複

單擊菜單欄上的“抓取分析”選項卡,然後從下拉菜單中選擇“開始”。

爬網分析完成後,您將看到填充的近乎重複的列。 您會知道它已完成,因為“分析”進度條將顯示 100%,並且幾乎重複的過濾器將不再顯示“需要抓取分析”消息。

使用screamingfrog 查找近乎重複的內容

4. 在“內容”選項卡下查看重複項

“最接近的相似性匹配”,“不。 爬網分析完成後,將填充“近重複項”和“地址”列。

“完全重複”過濾器將根據 HTML 代碼掃描顯示彼此相同的頁面。 設置的相似性閾值決定了什麼是“接近重複項”。 要更改閾值,請轉到“配置→蜘蛛→內容。 默認情況下,此閾值設置為 90%,但您可以隨意將其更改為您喜歡的任何值。

掃描完成後,手動檢查彈出的任何頁面,如完全重複或接近重複。

如何使用 Siteliner 發現重複內容

Siteliner 是另一種免費工具,可用於掃描您的網站(或任何網站)以查找重複內容。 但是,免費版本將限制您每 30 天使用一次,並將結果數量限制為 250 頁。 如果您需要執行多次搜索或想要查看更多結果,請註冊高級版本。

使用 siteliner 查找重複的內容

要使用 Siteliner 檢查重複內容,只需在其主頁上的搜索框中輸入您要搜索的 URL。

然後,Siteliner 將對網站進行掃描,並告訴您發現了多少重複內容,並突出顯示它認為是您最關心的問題。 它還將顯示更多指標,包括一些對 SEO 有用的指標,例如平均頁面加載時間、內部和外部鏈接以及入站鏈接。

內部重複內容的 siteliner 結果

在主菜單下,單擊“重複內容”以查看 Siteline 識別為具有重複內容的頁面。

單擊每一行以查看哪些文本被標記為重複。

注意: Siteline 會將出現在多個頁面上的頁眉和頁腳識別為重複內容,因此您可能會看到許多匹配百分比較低的頁面,因為它們各自共享相同的菜單或頁腳內容。

如何檢查其他人是否複製了您的內容

您還可以使用重複的內容搜索工具來檢查網絡上的其他人是否複製了您的內容。 Copyscape 是一個免費的網站內容檢查工具,有效且易於使用。

只需在搜索框中插入一個 URL,然後單擊它旁邊的“開始”按鈕。 Copyscape 然後將執行網絡範圍的搜索,以查看其他任何地方是否存在類似的文本內容。

複製景觀的屏幕截圖

如果它找到任何東西,Copyscape 將返回結果並將它們組織在一個看起來有點像谷歌搜索結果的列表中。 這使您可以輕鬆地滾動瀏覽它們並查看您的內容有多少已被複製。 你可以把它想像成一個谷歌重複內容檢查器。

外部重複內容的 copyscape 結果

如果您發現其他人抄襲了您的內容,您該怎麼辦?

首先,聯繫網站所有者並要求他們刪除內容或為您網站上的原始內容添加規範鏈接。 如果這不起作用,請向 Google 提交 DMCA 刪除請求。

注意:如果您有意聯合您的內容並允許其他網站發布,它仍會顯示為重複內容。 這就是為什麼要求發佈網站在頁面上包含規範鏈接或 noindex 標記以防止其與您自己的頁面在搜索引擎排名中競爭的原因。

如何修復重複內容

要解決重複內容問題,請確定您希望 Google 將哪個副本識別為原始版本。 您還需要決定是要完全刪除重複頁面,還是只是想告訴 Google 不要將它們編入索引。 根據您的決定,有幾種不同的方法可以清理您的重複內容。

Noindex 與 Meta Robots 標籤和 Robots.txt

將重複內容對您的 SEO 的影響降至最低的一種方法是通過修改元機器人標籤來手動取消對任何重複頁面的索引。 為此,請使用元機器人標籤並將其值設置為“noindex,follow”。 將此標記應用於您希望從搜索結果中排除的每個頁面的 HTML 標題。

元機器人標籤允許搜索引擎抓取應用它的頁面上的鏈接,但阻止搜索爬蟲將它們包含在其索引中。

如果您不想將其編入索引,為什麼還要讓 Google 抓取該頁面? 因為 Google 已明確警告不要限制對您網站上任何重複內容的抓取訪問。 他們想知道它的存在,即使您不希望他們將其編入索引。

當應用於您的 HTML 代碼時,noindex 標記應如下所示:

<head> [code] <meta name=”robots” content=”noindex, follow”> [如果需要其他代碼] </head>

元機器人標籤是一種簡單而有效的方法,可以對重複內容進行索引,並避免可能的 SEO 問題,因為您的網站上有明顯相似或完全相同的重複頁面。

如果您想要阻止 Google 和其他搜索引擎編制索引的整個目錄,請編輯您的 robots.txt 文件。

301 重定向

處理重複內容問題的另一種方法是使用 301 重定向。 301 是永久重定向,將流量從重複頁面轉發到另一個 URL。 301 重定向對 SEO 友好,可幫助您將多個頁面組合到一個 URL 中,從而鞏固其鏈接資產。

當您使用 301 重定向時,重複頁面或明顯相似的頁面將不再接受任何流量,因此請僅在您確定重複頁面不再可訪問時使用它,例如修剪內容時。 如果您仍然希望該頁面可訪問,請使用元機器人標籤對其進行無索引。

相對規範

管理重複內容的另一種方法是使用 rel=canonical 屬性來確定頁面的優先級。 將 rel=canonical 屬性放在 <head> HTML 標記內,以告訴搜索引擎特定頁面作為另一個頁面的副本存在,並且屬於該頁面的所有鏈接和排名能力實際上都應歸因於規範頁。

rel=canonical 標籤在應用於 HTML 代碼時看起來像這樣:

<head> [code] <link href=”優先頁面的 URL” rel=”canonical” /> </head>

您還可以使用自引用規範標籤來指示您希望將特定頁面視為原始版本。

從您的 XML 站點地圖中刪除 URL

您的 XML 站點地圖應該只包含您想要編入索引的 URL。 如果您沒有使用自動更新站點地圖的動態 URL,則需要手動編輯站點地圖並刪除您未編入索引或重定向的所有 URL。

在 Google Search Console 中刪除 URL

如果您選擇重定向頁面或限制索引,請請求 Google 從其索引中刪除該 URL。

登錄您的 Google Search Console 並從左側菜單中選擇“刪除”。

GSC 中的 url 刪除工具

將彈出一個框,讓您知道提交 URL 將在六個月內從 Google 的索引中刪除它。 在那之後,如果 Google 抓取您的網站並遇到該網址,它將被重新編制索引,除非它已被重定向或被機器人標記阻止。 如果您有多個共享前綴的 URL,您還可以提交前綴以暫時從 Google 索引中刪除所有 URL。

請求從 Google 的索引中刪除

六個月後,Google 將再次嘗試抓取您的網址。 如果您已正確重定向或未將它們編入索引,它們將不再出現在搜索引擎結果頁面 (SERP) 上。

需要幫助識別技術 SEO 問題嗎?

希望提高您網站的排名能力? 與數據驅動的 SEO 機構合作,該機構將與您一起確定您網站上的技術 SEO 問題,並製定成功的 SEO 策略來幫助您爬升 SERP。 立即預訂免費的 SEO 諮詢,看看我們能為您做些什麼!