Расширенная оптимизация на странице — помимо плотности ключевых слов: TF-IDF для SEO
Опубликовано: 2021-02-26Все мы знаем, что поисковая оптимизация (SEO) не нова. В настоящее время это хорошо зарекомендовавшая себя и многогранная область, которая претерпела множество изменений. Меняющийся способ, которым поисковые системы оценивают и ранжируют страницы, привел ко многим из этих поворотов в SEO (посмотрите эту статью о стоимости SEO).
Создание ссылок — еще одна вещь, которая приобрела значительную известность. Это произошло, когда важность обратных ссылок стала очевидной. Более техническое SEO вышло на первый план, когда информационная архитектура любого данного сайта была признана решающим фактором.
Затем важность содержания стала очевидной. Поисковые системы дали понять, что сайты должны иметь качественный и релевантный контент. Поначалу это побудило SEO-специалистов бежать за плотностью ключевых слов и инструментами планирования ключевых слов. Вскоре стало очевидно, что это не лучший путь. Или, по крайней мере, что использование этих инструментов для теневых практик, таких как наполнение ключевыми словами, не сработает. Это не обманет алгоритмы поисковых систем.
Google и другие поисковые системы ищут действительно качественный контент. Они вознаграждают контент, который действительно имеет отношение к его предполагаемой тематике и отвечает желаемым намерениям пользователя. Создание такого контента было основным советом Google по восстановлению после знаменитого — или печально известного — обновления Medic.
Заказать консультацию
В результате становится очевидным, что Google и другие поисковые системы могут точно оценить и оценить тему и смысл контента. Один из способов сделать это — использовать tf-idf. Tf-idf — один из старейших факторов ранжирования, используемых поисковыми системами. На самом простом уровне это позволяет им понять, о чем страницы.
Это окончательное руководство по tf-idf для SEO предоставит вам всю информацию, которая может вам понадобиться. В нем будет рассказано, что такое tf-idf и как он работает, как tf-idf связан с SEO и как и когда вы можете использовать анализ tf-idf.
Что такое TF-IDF?
Tf-idf — это числовая статистика, используемая при поиске информации. Он показывает, насколько важно слово или фраза для данного документа по сравнению с другими документами в коллекции или «корпусе». Значение tf-idf увеличивается пропорционально количеству раз, которое слово или фраза встречается в документе.
Затем это компенсируется количеством раз, которое это слово или фраза встречается во всех документах корпуса. Это важно, поскольку учитывает тот факт, что некоторые слова чаще встречаются в общем употреблении.
Возьмем в качестве примера поисковый запрос «лучший SEO». «The» — это слово, которое будет встречаться много раз во всех документах по всему корпусу. В результате для значения td-idf менее важно, если в искомом документе появляется 'the', чем если встречаются другие менее распространенные слова.
Tf-idf является произведением двух статистик. Это означает, что вы умножаете одно на другое. Таким образом, он представляет важность слова или фразы и компенсирует общую частоту этого слова или фразы. Две статистики — частота терминов (tf) и частота обратных документов (idf).
Срок Частота
Частота терминов — это более простая половина tf-idf. Он показывает, как часто термин появляется в данном документе. Все, что нужно для определения частотности терминов, — это длина слова в документе и количество появлений термина. Затем вы делите количество раз, когда слово появляется на общее количество слов. Это означает, что частота термина всегда будет значением между нулем и единицей.
На самом простом уровне частота терминов определяется следующим образом:
TF (частота терминов) = t (количество раз, когда термин появляется в документе) / d (общее количество слов в документе)
Учитывая длину документа и количество появлений термина, вы получите четкое представление о том, насколько документ релевантен данному термину. Однако вы не можете знать наверняка, если не знаете, как часто этот термин встречается в документах в целом. Вот где появляется обратная частота документа (idf).
Обратная частота документа
Слова, которые очень часто используются во многих документах, не годятся для определения того, какие документы релевантны конкретному поисковому запросу. Обратная частота документа — это статистика, которая уменьшает вес, придаваемый этим общим терминам.
Это гарантирует, что если вы ищете «быстрая коричневая лиса», многократное появление «the» в документе не будет иметь такого значения, как наличие других слов. Обратная частота документа — это мера того, сколько информации предоставляет слово или термин.
Формула для отработки idf выглядит довольно сложной:
IDF = логарифм (Nd/fi)
Если разбить на части, то не так уж и сложно.
Log — это просто математическая функция, которую не так уж важно понимать. Вы можете просто нажать кнопку «журнал» на калькуляторе, если вам когда-нибудь понадобится. «Nd» — это количество документов в коллекции или корпусе, в которых выполняется поиск. «fi» — это количество тех документов, которые содержат поисковый запрос.
Затем вы получаете значение IDF, разделив количество документов на количество документов с условием поиска, а затем применив функцию журнала.
Пример решения TF-IDF
Теперь мы можем взять то, что мы узнали, и использовать это для очень простого примера. Скажем, у вас есть документ из 100 слов, и вы ищете его по слову «ключевое слово». Если это слово встречается три раза, вы можете вычислить частотность термина следующим образом:
3 (количество терминов в документе) / 100 (всего слов) = 0,03
Частота вашего термина составляет 0,03. Теперь предположим, что в корпусе, который вы ищете, всего десять миллионов документов, и «ключевое слово» встречается в 1000 из них. Теперь у вас есть все необходимое для работы с вашим idf:
Лог(10 000 000/1000) = 4
Ваша обратная частота документа равна 4. Значение tf-idf — это просто частота термина, умноженная на idf, поэтому:
0,03 (тс) х 4 (идф) = 0,12
Ваше значение tf-idf равно 0,12. Это само по себе мало что вам говорит, но его можно сравнить с другими значениями. Чем выше значение tf-idf, тем более значим термин для данного документа. Самые высокие значения tf-idf получаются при высокой частоте терминов и небольшом количестве документов, содержащих этот термин в корпусе. Следующая таблица должна помочь продемонстрировать это:
Термин Частота (TF) | Размер корпуса (Nd) | Документы с термином (fi) | Обратная частота документа (IDF) | TF-IDF |
0,03 | 10 000 000 | 1000 | 4 | 0,12 |
0,04 | 10 000 000 | 900 | 4.05 | 0,162 |
0,05 | 10 000 000 | 800 | 4.10 | 0,205 |
0,06 | 10 000 000 | 700 | 4.15 | 0,249 |
0,07 | 10 000 000 | 600 | 4.22 | 0,295 |
TF-IDF, SEO и LSI
Tf-idf чаще всего используется как часть скрытого семантического индексирования (LSI). Это, безусловно, то, что напрямую связывает tf-idf и SEO. LSI с tf-idf — это метод обработки языка. Это позволяет ранжировать документы на основе релевантности отдельному поисковому запросу или более широкой тематической области.
LSI работает, идентифицируя закономерности в отношениях между различными фразами и понятиями в неструктурированных коллекциях текста. Он основан на идее, что слова, используемые в одном и том же контексте, обычно имеют родственные или сходные значения.
Устанавливая закономерности между терминами и фразами, LSI позволяет различать общую тему или тему текста. Когда LSI с tf-idf применяется к корпусу документов, запрос или условие поиска будут возвращать более точные результаты.

Это связано с тем, что результаты будут включать документы, концептуально схожие по смыслу с поиском. Это будет иметь место, даже если документы не содержат определенных слов из поискового запроса. Цель LSI с tf-idf состоит в том, чтобы понять фактические темы и фокусы корпуса документов.
Короче говоря, tf-idf, когда он используется как часть LSI, позволяет машинам понять, о чем страницы текста. Таким образом, Google и другие поисковые системы могут оценивать релевантность и полезность контента.
Важность tf-idf для SEO, безусловно, становится все более очевидной. Это один из первых факторов ранжирования в поисковых системах, и его даже можно рассматривать как ключевой строительный блок поисковых систем и поисковой выдачи. Что еще более важно, tf-idf помогает Google оценить фактическую релевантность и полезность страниц по отношению к любому поисковому запросу или запросу.
Возникает вопрос, как наше лучшее понимание tf-idf можно использовать для SEO. Будь то SEO-агентство SaaS или владелец малого бизнеса, желающий увеличить органический трафик. AJ Ghergich высказал свое мнение в видеоролике SEMrush по этой теме:
«Общая цель tf-idf — статистически измерить, насколько важно слово в наборе документов. Это как действительно полезный инструмент для определения плотности ключевых слов на стероидах».
SEMrush
Это аккуратная небольшая аналогия, но она может ввести в заблуждение. Анализ Tf-idf лучше всего не использовать для определения ключевых слов для вставки в контент. Лучше думать об этом как о своего рода инструменте для вдохновения.
Использование tf-idf для сравнения вашего собственного контента с аналогичными страницами, имеющими более высокий рейтинг, может дать вам предложения о том, как обогатить контент. Он будет указывать на ключевые слова и фразы, для которых контент с более высоким рейтингом имеет лучшие значения tf-idf, чем ваши страницы.
Это покажет, какие предметные области и темы ваш контент не охватывает так подробно или как похожие страницы. Затем у вас есть дорожная карта того, как улучшить свой контент так, чтобы он обязательно понравился Google. То есть за счет повышения его релевантности и того, насколько хорошо он удовлетворяет намерения потенциальных читателей, которые ищут определенные ключевые слова или фразы.
Использование TF-IDF для SEO
Использование TF-IDF для SEO не связано с плотностью ключевых слов. Он выходит далеко за рамки этого.
Выполнение анализа tf-idf действительно выявляет термины и фразы, с которыми ваш контент не имеет отношения, а также другие страницы. Тогда ваш следующий шаг — не начинать вставлять эти фразы в существующий контент, чтобы повысить плотность ключевых слов. Что вы хотите сделать, так это оптимизировать свой контент, чтобы он больше соответствовал темам и темам, связанным с этими фразами.
Например, у вас может быть страница с SEO в качестве основной темы. Анализ tf-idf может показать, что он имеет меньшее значение для термина «создание ссылок», чем другие страницы, которые занимают высокие позиции в поисковой выдаче. Это говорит вам о том, что ваш контент не дает достаточно актуальной и полезной информации о построении ссылок. Таким образом, у вас есть определенный способ улучшить свой контент.
Прежде чем вы сможете подумать об улучшении своего контента, вам нужно знать, как выполнять анализ tf-idf. Давайте разберемся с этим прямо сейчас.
Как выполнить анализ TF-IDF
Технически возможно запустить анализ tf-idf вручную, выполняя собственные расчеты. Хотя возможно, это не рекомендуется. Как вы уже видели, расчеты могут быть немного сложными и всегда требуют времени.
Это даже не самая большая проблема. Анализ tf-idf имеет смысл только в том случае, если корпус, с которым вы сравниваете контент, актуален и полезен. Вы хотите иметь возможность сравнивать значения tf-idf вашего контента с другими страницами, которые хорошо оцениваются по вашим важным ключевым словам. Вот где на помощь приходит инструмент tf-idf, например, предлагаемый Ryte.
Инструмент Ryte может сравнить действующий URL-адрес вашего сайта с десяткой лучших результатов поиска Google по заданному ключевому слову или поисковому запросу. Затем он предоставит список важных связанных терминов и фраз, для которых контент с высоким рейтингом имеет высокое значение tf-idf.
Кроме того, инструмент Ryte также оценит выбранный вами URL-адрес по этим фразам и терминам. Он покажет, имеет ли ваш контент такие же высокие, высокие или низкие значения tf-idf для каждого из них.
Эта информация покажет вам, где и как нужно улучшить ваш контент. Это даст вам темы и предметы, которые ваша страница не охватывает достаточно эффективно. Таким образом, вы сможете настроить страницу так, чтобы она лучше соответствовала потребностям и намерениям ее читателей.
Вы, вероятно, теперь задаетесь вопросом, когда вам следует использовать анализ tf-idf. В конце концов, есть много других вещей, которые также необходимо сделать в области SEO и за ее пределами.
Когда использовать анализ TF-IDF
Никогда не бывает плохого времени, чтобы подумать об улучшении содержания вашего сайта. В сутках также не так много часов. Это означает, что лучше всего проводить анализ tf-idf в обстоятельствах, когда он, скорее всего, будет иметь значение. Есть несколько примеров именно таких обстоятельств;
- Раскрытие потенциала существующего контента
Tf-idf может быть очень полезен, если у вас есть страница, которая стабильно занимает второе место в результатах поиска Google. Достигнув такого высокого места в рейтинге, страница явно имеет потенциал. Анализ tf-idf может помочь вам разработать точные настройки и дополнения, необходимые для последнего прыжка на первую страницу.
- Руководство новым контент-планом
Анализ tf-idf превосходен в качестве вдохновения для контента. Выполнение анализа страниц, хорошо ранжируемых по определенным предметам и темам, покажет вам, что должен охватывать ваш собственный контент. Это может стать отличной основой для наброска плана целого ряда нового контента.
- Остановка снижения рейтинга
Если у вас есть страница, которая раньше была самой результативной, но теряет рейтинг по важным ключевым словам, tf-idf может помочь и здесь. Он может показать вам, по каким ключевым словам и темам страницы, опережающие ваши, достигают лучших значений tf-idf. Затем вы можете соответствующим образом улучшить и обновить свой собственный контент.
TF-IDF для SEO — выход за пределы плотности ключевых слов
В современном мире SEO так много нужно учитывать. Архитектура сайта, ссылки, плотность ключевых слов и все остальные традиционные элементы по-прежнему имеют решающее значение. Однако можно утверждать, что контент теперь является королем. Или, по крайней мере, ему нужно уделять столько же внимания, сколько и любому из этих факторов.
Сайтам больше не может сойти с рук переполнение ключевыми словами или заполнение страниц дублирующимся или скрытым спамом. Сайты должны содержать высококачественный контент, который действительно полезен для читателей. Tf-idf — это основной способ, с помощью которого Google и другие поисковые системы оценивают контент в этом отношении.
Поэтому крайне важно понять, как работает tf-idf и как он связан с SEO. Правильное понимание и применение tf-idf для SEO может помочь вам обогатить свой контент и увидеть вознаграждение в органическом трафике.
Заказать консультацию

Ник Браун является основателем и генеральным директором ускоренного агентства SaaS SEO. Ник запустил несколько успешных онлайн-бизнесов, пишет для Forbes, опубликовал книгу и вырос из агентства в Великобритании до компании, которая сейчас работает в США, странах Азиатско-Тихоокеанского региона и Европы, Ближнего Востока и Африки и насчитывает 160 человек. Однажды на него напала горная горилла.