Дублированный контент SEO: как проверить дублирующийся контент

Опубликовано: 2022-06-14

Дублированный контент может повлиять на то, какие из ваших страниц будут отображаться в результатах поиска, и растратить ваш краулинговый бюджет. К счастью, есть способы определить дублированный контент и либо удалить его с вашего веб-сайта, либо из индекса Google, чтобы предотвратить его негативное влияние на вашу способность ранжироваться.

Что такое дублированный контент?

Дублирование контента происходит, когда один и тот же контент появляется более чем в одном месте с уникальным URL-адресом.

Контент не обязательно должен быть точным совпадением, чтобы его можно было зарегистрировать как дубликат — он также может быть тем, что Google называет «заметно похожим». Этот контент по существу «достаточно близок», чтобы считаться дублирующимся контентом, даже если некоторый текст может отличаться.

Большинство владельцев сайтов усердно работают над тем, чтобы их контент был свежим и оригинальным, и тем не менее в Интернете все еще много дублированного контента. Иногда владельцы сайтов даже не подозревают об этом. Так как же это происходит?

Почему дублируется контент?

Большая часть дублированного контента в Интернете возникает из-за индексации таких вещей, как версии страниц для печати, продукты, которые находятся или связаны с несколькими разными URL-адресами, а также дискуссионные форумы, которые создают настольные и урезанные мобильные версии одной и той же страницы. .

Но это не единственные способы дублирования контента на вашем сайте. Вот еще несколько примеров того, как дублирование контента может происходить внутри вашего сайта и снаружи на других сайтах.

Созданные внутри дубликаты

Заметно похожие страницы продуктов

Иногда имеет смысл намеренно создавать похожие страницы, особенно в электронной коммерции. Например, предположим, что вы продаете один и тот же продукт в двух разных странах. В этом случае вы можете выбрать две почти идентичные страницы, за исключением того, что одна может отображать цену в долларах США, а другая — в канадских долларах.

Другим примером являются страницы продуктов, которые кажутся заметно похожими, потому что они содержат одну и ту же копию, а единственными реальными отличиями являются другое изображение продукта, название продукта и цена продукта.

Системы управления контентом

Иногда системы управления контентом создают дублированный контент, о котором вы даже не подозреваете. Некоторые системы автоматически добавляют теги и параметры URL для поиска, что приводит к нескольким путям к одному и тому же контенту.

Варианты URL

Вы также можете получить дублированный контент, если у вас есть разные варианты URL-адресов с одинаковым контентом. Как упоминалось ранее, системы управления контентом могут делать это самостоятельно, и в итоге вы можете получить два варианта URL, например https://www.website.com/blog1 и https://www.website.com/blogs/blog1 . Другие варианты URL-адресов, такие как косая черта в конце или URL-адреса с заглавными буквами, могут вызвать ту же проблему.

Когда это происходит, Google может не знать, какую страницу ранжировать, и некоторые внешние источники могут ссылаться на одну из этих страниц, в то время как другие ссылаются на дубликат, нарушая при этом ссылочный вес вашей страницы.

HTTP против HTTPS и www против без www

Большинство веб-сайтов доступны с www или без него, а также по URL-адресам HTTP или HTTPS. Однако, если вы неправильно настроили свой сайт, Google может индексировать страницы более чем одного из них, что приведет к дублированию контента.

Удобные для печати и мобильных URL-адреса

Страницы для печати или для мобильных устройств, размещенные по другим URL-адресам, чем исходная страница, приведут к дублированию контента, если только они не будут должным образом не проиндексированы.

Идентификаторы сеанса

Идентификаторы сеансов могут быть ценными инструментами для отслеживания посетителей, посещающих ваш сайт. Обычно это делается путем добавления длинной строки идентификатора сеанса к URL-адресу. Поскольку каждый идентификатор сеанса уникален, создается новый URL-адрес и дублируется ваш контент.

UTM-параметры

Параметры могут отслеживать входящих посетителей из различных источников. Как и идентификаторы сеансов, они генерируют уникальные URL-адреса, несмотря на то, что содержимое страницы одинаково, что создает дублированный контент при индексировании.

Внешние дубликаты

Синдицированный контент

Распространение вашего контента на другие сайты в Интернете может стать отличным способом привлечь больше трафика на ваш сайт и сделать ваше имя известным. Однако этот контент может по-прежнему отображаться как дублированный контент, если он не отформатирован с использованием соответствующих тегов канонического заголовка. Например, использование канонических тегов в статьях на Medium может защитить исходный контент от регистрации в качестве дубликата.

Плагиат

Хотя большая часть дублированного контента не является злонамеренной по своей природе, некоторые веб-мастера намеренно копируют контент, стремясь извлечь выгоду из контента, который они не создавали сами.

Дублированный контент SEO: почему это важно?

Если дублированный контент случается так часто, почему это имеет значение? Вот пять способов, которыми это может повлиять на вашу способность занимать высокие позиции в результатах поиска.

1. Штраф Google за дублирование контента

Google напрямую не наказывает дублирующийся контент — в большинстве случаев. Если Google считает, что дублированный контент на вашем сайте является «обманчивым» и «предназначенным для манипулирования результатами поисковых систем», он может принять меры, наложив штраф за дублированный контент. Таким образом, даже если это случается не часто, в соответствии с рекомендациями Google по дублированию контента, вы все равно можете столкнуться с прямым штрафом, если ваш дублированный контент достаточно вопиющий и считается, что он был создан со злым умыслом.

Штраф Google за дублированный контент встречается редко, поэтому более насущной проблемой является связь между дублирующимся контентом и SEO.

2. Раздувание индекса

Раздувание индекса происходит, когда сканеры поисковых систем получают доступ и индексируют неважный или низкокачественный контент — например, те страницы, которые можно распечатать, о которых я упоминал. Это влияет на вашу способность ранжировать важные страницы, поскольку поисковые системы не будут знать, какую версию вашего контента предложить пользователям, и могут ранжировать другую версию, чем вы бы предпочли. Это также влияет на краулинговый бюджет.

3. Бюджет сканирования

Google ограничивает время, затрачиваемое на сканирование сайтов. Количество ресурсов, которые Google предоставляет для сканирования и индексации вашего сайта, является вашим краулинговым бюджетом. Когда у вас много дублированного контента, вы рискуете потратить краулинговый бюджет на страницы, которые не так важны.

4. Каннибализация ключевых слов

Если ранжируется более одной копии страницы, ваши страницы будут конкурировать друг с другом за одни и те же ключевые слова и видимость. Соперничать со всеми достаточно сложно, зачем усложнять задачу еще и с самим собой?

В конечном счете, вы не можете просто игнорировать проблемы SEO с дублированием контента. По возможности старайтесь объединять или удалять повторяющийся контент.

5. Уменьшение ссылочного капитала

Допустим, Google решает ранжировать две из ваших заметно похожих страниц. Как они узнают, следует ли приписывать всю ценность контента одной странице или вместо этого следует разделить авторитет, ссылочный вес и доверие между обеими страницами? Эта ситуация может снизить ценность SEO вашего контента, что приведет к его низкой эффективности.

Ссылочный вес ваших обратных ссылок также будет разделен между двумя страницами в зависимости от того, решат ли другие сайты ссылаться на них.

Как проверить дублированный контент на вашем собственном сайте

Найти дублирующийся контент на вашем сайте легко и бесплатно. Используйте бесплатные версии Screaming Frog и Siteliner для методичного сканирования вашего сайта и выявления любых точных или почти дублирующих страниц.

Как использовать Screaming Frog для обнаружения дублированного контента

Screaming Frog — это сканер веб-сайтов и инструмент SEO-аудита, который может помочь вам выявить проблемы с дублированием контента на вашем веб-сайте. Вот как можно использовать Screaming Frog для бесплатного сканирования до 500 URL-адресов.

1. Просканируйте свой сайт с помощью SEO Spider

Сначала скачайте и откройте Screaming Frog. Введите URL-адрес веб-сайта, который вы хотите просканировать, в поле «Введите URL-адрес для Spider» и нажмите «Пуск».

скриншот сео паука

2. Проверьте наличие дубликатов на вкладке «Содержание»

Нажмите на вкладку «Содержимое», чтобы проверить наличие точных и близких дубликатов. Вы сможете увидеть точные дубликаты в режиме реального времени, но вам нужно выполнить «Анализ сканирования», чтобы увидеть список почти дубликатов.

поиск дублированного контента с помощью кричащей лягушки

3. Проверьте наличие дубликатов

Перейдите на вкладку «Анализ сканирования» в строке меню и выберите «Пуск» в раскрывающемся меню.

Когда анализ сканирования завершится, вы увидите заполненные почти повторяющиеся столбцы. Вы узнаете, что он завершен, потому что индикатор выполнения «анализа» будет показывать 100%, а почти повторяющийся фильтр больше не будет отображать сообщение «требуется анализ сканирования».

поиск почти дублированного контента с помощью кричащей лягушки

4. Просмотр дубликатов на вкладке «Содержание»

«Наиболее близкое совпадение», «Нет. Рядом с дубликатами» и столбцы «Адрес» будут заполнены после завершения анализа сканирования.

Фильтр «Точные дубликаты» отобразит страницы, идентичные друг другу на основе сканирования HTML-кода. Установленный порог подобия определяет, что квалифицируется как «почти дубликаты». Чтобы изменить порог, перейдите в «Конфигурация → Паук → Контент». По умолчанию этот порог установлен на 90%, но вы можете изменить его на любое другое.

Теперь, когда сканирование завершено, вручную просмотрите любую страницу, которая появляется как точная или почти копия.

Как использовать Siteliner для обнаружения дублированного контента

Siteliner — еще один бесплатный инструмент, который вы можете использовать для сканирования вашего веб-сайта (или любого другого веб-сайта) на наличие дублирующегося контента. Однако бесплатная версия ограничит вас одним использованием каждые 30 дней и ограничит количество результатов до 250 страниц. Если вам нужно выполнить несколько поисков или вы хотите увидеть больше результатов, подпишитесь на премиум-версию.

использование Siteliner для поиска дублирующегося контента

Чтобы проверить дублированный контент с помощью Siteliner, просто введите URL-адрес, который вы хотите найти, в поле поиска на их домашней странице.

Затем Siteliner проведет сканирование сайта и сообщит вам, сколько дублированного контента было найдено, и выделит то, что, по его мнению, является вашей главной проблемой. Он также будет отображать еще несколько показателей, в том числе некоторые, которые могут быть полезны для SEO, такие как среднее время загрузки страницы, внутренние и внешние ссылки и входящие ссылки.

результаты Siteliner для внутреннего дублированного контента

В главном меню нажмите «Дублирующийся контент», чтобы увидеть, какие страницы Siteline идентифицирует как имеющие дублирующийся контент.

Нажмите на каждую отдельную строку, чтобы увидеть, какой текст помечен как повторяющийся.

Примечание. Siteline идентифицирует верхние и нижние колонтитулы, которые появляются на нескольких страницах, как дублирующийся контент, поэтому вы можете получить много страниц с низким процентом совпадения, поскольку каждая из них имеет одно и то же меню или содержимое нижнего колонтитула.

Как проверить, не скопировал ли кто-то другой ваш контент

Существуют также инструменты поиска дубликатов контента, которые вы можете использовать, чтобы проверить, не скопировал ли кто-то другой в Интернете ваш контент. Copyscape — это бесплатный инструмент для проверки содержимого веб-сайта, эффективный и простой в использовании.

Просто вставьте URL-адрес в поле поиска и нажмите кнопку «Перейти» рядом с ним. Затем Copyscape выполнит поиск по всей сети, чтобы увидеть, существует ли где-либо еще подобный текстовый контент.

скриншот копискейпа

Если он что-нибудь найдет, Copyscape вернет результаты и упорядочит их в списке, похожем на результаты поиска Google. Это позволяет вам легко прокручивать их и видеть, сколько вашего контента было скопировано. Вы можете думать об этом как о средстве проверки дубликатов контента Google.

результаты копирования для внешнего дублированного контента

Что вы можете сделать, если обнаружите, что кто-то другой скопировал ваш контент?

Во-первых, обратитесь к владельцу веб-сайта и попросите его либо удалить контент, либо добавить каноническую ссылку на исходный контент на вашем веб-сайте. Если это не сработает, отправьте запрос на удаление в соответствии с Законом США "Об авторском праве в цифровую эпоху" в Google.

Примечание. Если вы намеренно распространили свой контент и разрешили другим веб-сайтам его публиковать, он все равно будет отображаться как дубликат. Вот почему важно требовать, чтобы сайт публикации включал каноническую ссылку или тег noindex на страницу, чтобы она не конкурировала с вашей собственной страницей в рейтинге поисковых систем.

Как исправить дублированный контент

Чтобы устранить проблемы с дублированием контента, определите, какую копию вы хотите, чтобы Google распознавал как исходную версию. Вам также нужно будет решить, хотите ли вы полностью удалить дубликаты страниц или просто хотите запретить Google их индексировать. В зависимости от того, что вы решите, существует несколько различных способов очистки дублирующегося контента.

Noindex с тегами Meta Robots и robots.txt

Один из способов свести к минимуму влияние дублированного контента на SEO — вручную деиндексировать все повторяющиеся страницы, изменив метатеги robots. Для этого используйте метатег robots и установите для него значение «noindex, follow». Примените этот тег к заголовку HTML каждой страницы, которую вы хотите исключить из результатов поиска.

Метатег robots позволяет поисковым системам сканировать ссылки на странице, к которой он применяется, но не позволяет поисковым роботам включать их в свои индексы.

Зачем вообще разрешать Google сканировать страницу, если вы не хотите, чтобы она была проиндексирована? Потому что Google прямо предостерег от ограничения доступа сканирования к любому дублирующемуся контенту на вашем сайте. Они хотят знать, что он есть, даже если вы не хотите, чтобы он его индексировал.

Тег noindex должен выглядеть следующим образом при применении к вашему HTML-коду:

<head> [код] <meta name="robots" content="noindex, follow"> [другой код, если необходимо] </head>

Мета-тег robots — это простой и эффективный способ деиндексировать дублированный контент и избежать возможных проблем с SEO из-за значительного сходства или точных дубликатов страниц на вашем веб-сайте.

Если у вас есть целые каталоги, которые вы хотите запретить Google и другим поисковым системам индексировать, отредактируйте файл robots.txt.

301 редиректы

Еще один способ справиться с проблемой дублирования контента — переадресация 301. 301 — это постоянные перенаправления, которые перенаправляют трафик с дублирующей страницы на другой URL-адрес. 301 редиректы оптимизированы для SEO и помогают объединить несколько страниц в один URL-адрес, чтобы они укрепили свой ссылочный вес.

Когда вы используете перенаправление 301, дубликат или во многом похожая страница больше не будет принимать какой-либо трафик, поэтому используйте его только тогда, когда вы согласны с тем, что дубликат страницы больше не доступен, например, при обрезке контента. Если вы все еще хотите, чтобы страница была доступна, используйте метатег robots, чтобы не индексировать ее.

Относительно канонического

Еще один способ управлять дублирующимся контентом — использовать атрибут rel=canonical для определения приоритетов страниц. Поместите атрибут rel=canonical внутри HTML-тега <head>, чтобы сообщить поисковым системам, что конкретная страница существует как копия другой страницы и что все ссылки и ранжирование, принадлежащие этой странице, на самом деле должны быть отнесены к каноническим. страница.

Тег rel=canonical выглядит примерно так при применении к вашему HTML-коду:

<head> [code] <link href="URL ПРИОРИТЕТНОЙ СТРАНИЦЫ" rel="canonical" /> </head>

Вы также можете использовать самореферентный канонический тег, чтобы указать, что вы хотите, чтобы конкретная страница рассматривалась как исходная версия.

Удалить URL-адреса из вашего XML-файла Sitemap

Ваша XML-карта сайта должна включать только URL-адреса, которые вы хотите проиндексировать. Если вы не используете динамический URL-адрес, который автоматически обновляет карту сайта, вам потребуется вручную отредактировать карту сайта и удалить все URL-адреса, которые вы не индексируете или не перенаправляете.

Удалить URL в Google Search Console

Если вы решите перенаправить страницу или ограничить индексирование, попросите Google удалить этот URL из индекса.

Войдите в консоль поиска Google и выберите «Удаление» в меню слева.

инструмент для удаления URL в GSC

Появится всплывающее окно, сообщающее, что отправка URL-адреса удалит его из индекса Google всего на шесть месяцев. По истечении этого времени, если Google просканирует ваш сайт и обнаружит URL-адрес, он будет повторно проиндексирован, если только он не был перенаправлен или заблокирован тегом robots. Если у вас есть несколько URL-адресов с общим префиксом, вы также можете отправить префикс, чтобы временно удалить все URL-адреса из индекса Google.

запросить удаление из индекса Google

Через шесть месяцев Google снова попытается просканировать ваши URL-адреса. Если вы правильно перенаправили или не проиндексировали их, они больше не будут отображаться на странице результатов поисковой системы (SERP).

Нужна помощь в выявлении технических проблем SEO?

Хотите улучшить ранжирование вашего сайта? Сотрудничайте с агентством SEO, работающим с данными, которое будет работать с вами, чтобы выявить технические проблемы SEO на вашем веб-сайте и разработать выигрышную стратегию SEO, которая поможет вам подняться в поисковой выдаче. Закажите бесплатную консультацию по SEO сегодня и узнайте, что мы можем сделать для вас!