Zaawansowana optymalizacja strony — poza zagęszczeniem słów kluczowych: TF-IDF dla SEO

Opublikowany: 2021-02-26

Wszyscy wiemy, że optymalizacja wyszukiwarek (SEO) nie jest niczym nowym. Obecnie jest to dobrze ugruntowana i wieloaspektowa dziedzina, która przeszła wiele zmian. Zmieniający się sposób, w jaki wyszukiwarki oceniają i klasyfikują strony, doprowadził do wielu zwrotów akcji w SEO (zajrzyj do tego artykułu na temat kosztów SEO).

Tworzenie linków to kolejna rzecz, która zyskała na znaczeniu. Stało się tak, gdy znaczenie linków zwrotnych stało się jasne. Bardziej techniczne SEO wyszło na pierwszy plan, gdy architektura informacyjna dowolnej witryny została uznana za kluczowy czynnik.

Znaczenie treści stało się wtedy oczywiste. Wyszukiwarki dały do ​​zrozumienia, że ​​witryny powinny zawierać wysokiej jakości, trafne treści. Na początku skłoniło to specjalistów SEO do ubiegania się o gęstość słów kluczowych i narzędzia do planowania słów kluczowych. W krótkim czasie stało się jasne, że nie jest to najlepsza droga. A przynajmniej, że używanie tych narzędzi do podejrzanych praktyk, takich jak upychanie słów kluczowych, nie zadziała. Nie oszukałoby to algorytmów wyszukiwarek.

Google i inne wyszukiwarki szukają rzeczywistych treści wysokiej jakości. Nagradzają treści, które są naprawdę istotne dla ich rzekomej tematyki i które odpowiadają pożądanym intencjom użytkownika. Tworzenie takich treści było główną radą Google dotyczącą powrotu do zdrowia po ich słynnej – lub niesławnej – Aktualizacji Medic.

Zarezerwuj konsultację

W rezultacie oczywiste jest, że Google i inne wyszukiwarki mogą dokładnie oceniać i oceniać temat i znaczenie treści. Jednym ze sposobów, w jaki to robią, jest użycie tf-idf. Tf-idf jest jednym z najstarszych czynników rankingowych używanych przez wyszukiwarki. Na najprostszym poziomie pozwala im zrozumieć, o czym są strony.

Ten kompletny przewodnik po tf-idf dla SEO zawiera wszystkie informacje, których możesz potrzebować. Omówi, czym jest tf-idf i jak działa, jak tf-idf odnosi się do SEO oraz jak i kiedy można wykorzystać analizę tf-idf.

Co to jest TF-IDF?

Tf-idf to statystyka liczbowa używana do wyszukiwania informacji. Reprezentuje, jak ważne jest słowo lub fraza dla danego dokumentu w porównaniu z innymi dokumentami w zbiorze lub „korpusie”. Wartość tf-idf zwiększa się proporcjonalnie do liczby wystąpień słowa lub frazy w dokumencie.

Jest to następnie kompensowane przez liczbę wystąpień tego słowa lub wyrażenia we wszystkich dokumentach w korpusie. Jest to ważne, ponieważ uwzględnia fakt, że niektóre słowa pojawiają się częściej w powszechnym użyciu.

Weźmy na przykład wyszukiwane hasło, takie jak „najlepsze SEO”. „The” to słowo, które pojawiłoby się wiele razy we wszystkich dokumentach w korpusie. W rezultacie mniej ważne dla wartości td-idf jest to, czy w wyszukiwanym dokumencie pojawia się „the”, niż to, czy występują inne, mniej popularne słowa.

Tf-idf jest iloczynem dwóch statystyk. Oznacza to, że mnożysz jeden przez drugi. W ten sposób reprezentuje znaczenie słowa lub frazy i równoważy ogólną częstotliwość tego słowa lub frazy. Te dwie statystyki to Częstotliwość terminów (tf) i Odwrotna częstotliwość dokumentów (idf).

Częstotliwość terminów

Częstotliwość terminów to prostsza połowa tf-idf. Reprezentuje, jak często termin pojawia się w danym dokumencie. Wszystko, co jest potrzebne do obliczenia częstotliwości terminów, to długość słowa w dokumencie i liczba wystąpień terminu. Następnie dzielisz liczbę wystąpień słowa przez całkowitą liczbę słów. Oznacza to, że częstość składowa zawsze będzie wartością z przedziału od zera do jednego.

Na najprostszym możliwym poziomie częstotliwość terminów jest obliczana w następujący sposób:

TF (częstotliwość terminów) = t (liczba wystąpień terminu w dokumencie) / d (całkowita liczba słów w dokumencie)

Biorąc pod uwagę długość dokumentu i liczbę wystąpień danego terminu, można uzyskać dokładny obraz tego, jak odpowiedni jest dokument w odniesieniu do danego terminu. Nie możesz jednak wiedzieć na pewno, chyba że wiesz, jak często ten termin pojawia się ogólnie w dokumentach. W tym miejscu pojawia się odwrotna częstotliwość dokumentów (idf).

Odwrotna częstotliwość dokumentów

Słowa, które są bardzo często używane w wielu dokumentach, nie są dobre do określania, które dokumenty są istotne dla określonego wyszukiwanego terminu. Odwrotna częstotliwość dokumentów to statystyka, która zmniejsza wagę tych wspólnych terminów.

Gwarantuje to, że jeśli szukasz „szybkiego brunatnego lisa”, „the” pojawiające się wiele razy w dokumencie nie będzie miało takiego znaczenia, jak obecność innych słów. Odwrotna częstotliwość dokumentów jest miarą tego, ile informacji dostarcza słowo lub termin.

Formuła obliczania idf wygląda na dość skomplikowaną:

IDF = log (Nd / fi)

Jeśli podzielisz to na części, nie jest to takie skomplikowane.

Log to po prostu funkcja matematyczna, której zrozumienie nie jest zbyt ważne. W razie potrzeby możesz po prostu nacisnąć przycisk „log” na kalkulatorze. „Nd” to liczba dokumentów w przeszukiwanym zbiorze lub korpusie. „fi” to liczba tych dokumentów, które zawierają wyszukiwane hasło.

Następnie uzyskujesz swoją wartość IDF, dzieląc liczbę dokumentów przez liczbę dokumentów z wyszukiwanym terminem, a następnie stosując funkcję dziennika.

Przykład rozwiązania TF-IDF

Możemy teraz wziąć to, czego się nauczyliśmy, i użyć tego jako bardzo prostego przykładu. Załóżmy, że masz dokument zawierający 100 słów i szukasz w nim słowa „słowo kluczowe”. Jeśli to słowo pojawia się trzy razy, możesz obliczyć częstotliwość w następujący sposób:

3 (liczba terminów w dokumencie) / 100 (całkowita liczba słów) = 0,03

Twoja częstotliwość terminów wynosi 0,03. Załóżmy teraz, że w przeszukiwanym korpusie znajduje się łącznie dziesięć milionów dokumentów, a „słowo kluczowe” pojawia się w 1000 z nich. Masz teraz wszystko, czego potrzebujesz, aby wypracować swój idf:

Log(10 000 000/1000) = 4

Twoja odwrotna częstotliwość dokumentu to 4. Wartość tf-idf to po prostu częstotliwość term pomnożona przez idf, więc:

0,03 (tf) x 4 (idf) = 0,12

Twoja wartość tf-idf wynosi 0,12. To samo w sobie niewiele ci mówi, ale można je porównać z innymi wartościami. Im wyższa wartość tf-idf, tym większe znaczenie ma termin dla danego dokumentu. Najwyższe wartości tf-idf występują, gdy w korpusie występuje duża częstość występowania terminów i mała liczba dokumentów zawierających dany termin. Poniższa tabela powinna pomóc to wykazać:

Częstotliwość termiczna (TF)

Rozmiar korpusu (Nd)

Dokumenty z terminem (fi)

Odwrotna częstotliwość dokumentu (IDF)

TF-IDF

0,03

10 000 000 1000 4 0,12

0,04

10 000 000

900 4.05 0,162

0,05

10 000 000

800

4.10

0,205

0,06 10 000 000 700 4.15

0,249

0,07 10 000 000 600 4.22

0,295

TF-IDF, SEO i LSI

Tf-idf jest najczęściej używany jako część ukrytego indeksowania semantycznego (LSI). To z pewnością bezpośrednio łączy tf-idf i SEO. LSI z tf-idf to technika przetwarzania języka. Pozwala na uszeregowanie dokumentów w oparciu o znaczenie dla pojedynczego wyszukiwanego hasła lub szerszego obszaru tematycznego.

LSI działa poprzez identyfikowanie wzorców w relacjach między różnymi frazami i pojęciami w nieustrukturyzowanych zbiorach tekstu. Opiera się na założeniu, że słowa użyte w tych samych kontekstach mają zwykle pokrewne lub podobne znaczenia.

Ustanawiając wzorce między terminami i frazami, LSI umożliwia rozpoznanie ogólnego tematu lub przedmiotu tekstu. Gdy LSI z tf-idf zostanie zastosowane do korpusu dokumentów, zapytanie lub wyszukiwane hasło zwróci dokładniejsze wyniki.

To dlatego, że wyniki będą zawierać dokumenty koncepcyjnie podobne do wyszukiwania. Będzie tak nawet wtedy, gdy dokumenty nie zawierają określonych słów z wyszukiwanego hasła. Celem LSI z tf-idf jest zrozumienie rzeczywistych tematów i skupień korpusu dokumentów.

Krótko mówiąc, tf-idf używany jako część LSI pozwala maszynom zrozumieć, o jakie strony tekstu chodzi. W ten sposób Google i inne wyszukiwarki mogą oceniać trafność i użyteczność treści.

Znaczenie tf-idf dla SEO z pewnością staje się coraz bardziej jasne. Jest to jeden z najwcześniejszych czynników rankingowych w wyszukiwarkach, a nawet może być postrzegany jako kluczowy element budulcowy wyszukiwarek i SERP. Co ważniejsze, tf-idf pomaga Google ocenić rzeczywistą trafność i użyteczność stron w odniesieniu do dowolnego wyszukiwanego hasła lub zapytania.

To nasuwa pytanie, w jaki sposób nasze lepsze zrozumienie tf-idf może być wykorzystane do SEO. Czy to przez agencję SEO SaaS, czy przez właściciela małej firmy, który chce zwiększyć ruch organiczny. AJ Ghergich zabrał głos w filmie SEMrush na ten temat:

„Ogólnym celem tf-idf jest statystyczne zmierzenie, jak ważne jest słowo w zbiorze dokumentów. To naprawdę przydatne narzędzie do zagęszczania słów kluczowych na sterydach.

SEMrush

To zgrabna mała analogia, ale może być trochę myląca. Analiza Tf-idf nie jest najlepiej stosowana do identyfikowania słów kluczowych do wstawienia do treści. Lepiej myśleć o tym jako o narzędziu do inspiracji treściami.

Używanie tf-idf do porównywania własnych treści z podobnymi stronami, które mają lepszą pozycję w rankingu, może dać ci sugestie, jak wzbogacić treść. Wskaże na słowa kluczowe i frazy, dla których treści o wyższej randze mają lepsze wartości tf-idf niż Twoje strony.

To pokaże, które obszary tematyczne i tematy nie są omawiane w Twoich treściach tak szczegółowo lub jak na podobnych stronach. Następnie masz plan działania, jak ulepszyć swoje treści w sposób, który z pewnością spodoba się Google. Dzieje się tak poprzez zwiększenie jego trafności i tego, jak dobrze spełnia intencje potencjalnych czytelników, którzy szukają określonych słów kluczowych lub fraz.

Używanie TF-IDF do SEO

Używanie TF-IDF do SEO nie polega na gęstości słów kluczowych. Porusza się znacznie dalej.

Przeprowadzenie analizy tf-idf ujawnia terminy i wyrażenia, których nie dotyczą Twoje treści, a także inne strony. Następnym krokiem nie jest więc wstawianie tych fraz do istniejącej treści w celu zwiększenia gęstości słów kluczowych. To, co chcesz zrobić, to zoptymalizować treść, aby była bardziej odpowiednia dla tematów i tematów związanych z tymi wyrażeniami.

Możesz na przykład mieć stronę, której głównym tematem jest SEO. Analiza tf-idf może ujawnić, że ma mniejszą wartość dla terminu „tworzenie linków” niż inne strony, które zajmują wysokie pozycje w wyszukiwaniu SEO. Oznacza to, że Twoje treści nie zawierają wystarczających, przydatnych informacji na temat budowania linków. Po prostu masz określony sposób na ulepszenie swoich treści.

Zanim pomyślisz o ulepszeniu treści, musisz wiedzieć, jak przeprowadzić analizę tf-idf. Zajmijmy się tym teraz.

Jak przeprowadzić analizę TF-IDF

Technicznie możliwe jest ręczne przeprowadzenie analizy tf-idf, wykonując własne obliczenia. Chociaż jest to możliwe, nie jest to zalecane. Jak już widziałeś, obliczenia mogą być nieco skomplikowane i zawsze zajmują trochę czasu.

To nawet nie jest największy problem. Analiza tf-idf ma sens tylko wtedy, gdy korpus, z którym porównujesz treści, jest odpowiedni i użyteczny. Chcesz mieć możliwość porównania wartości tf-idf swojej treści z innymi stronami, które dobrze oceniają ważne słowa kluczowe. W tym miejscu pojawia się narzędzie tf-idf, takie jak oferowane przez Ryte.

Narzędzie Ryte może porównać aktywny adres URL z Twojej witryny z dziesięcioma najlepszymi wynikami wyszukiwania Google dla danego słowa kluczowego lub zapytania. Następnie wyświetli listę ważnych powiązanych terminów i fraz, dla których wysoko oceniana treść ma wysoką wartość tf-idf.

Ponadto narzędzie Ryte oceni również wybrany adres URL pod kątem tych fraz i terminów. Pokaże, czy Twoje treści mają równie wysokie, wyższe lub niższe wartości tf-idf dla każdego z nich.

Te informacje pokażą Ci, gdzie i jak Twoje treści muszą zostać ulepszone. Poda Ci tematy i tematy, których Twoja strona nie obejmuje wystarczająco skutecznie. Dzięki temu będziesz mógł dostosować stronę do potrzeb i intencji jej czytelników.

Prawdopodobnie zastanawiasz się teraz, kiedy powinieneś użyć analizy tf-idf. W końcu jest wiele innych rzeczy, które również wymagają zrobienia w dziedzinie SEO i poza nią.

Kiedy stosować analizę TF-IDF

Nigdy nie ma złego czasu na myślenie o ulepszeniu zawartości witryny. Doba ma też tylko określoną liczbę godzin. Oznacza to, że najlepiej jest wdrożyć analizę tf-idf w okolicznościach, w których jest to najbardziej prawdopodobne. Istnieje kilka przykładów właśnie takich okoliczności;

  • Odblokowanie potencjału istniejących treści

Tf-idf może być naprawdę przydatny, jeśli masz stronę, która konsekwentnie plasuje się na drugiej stronie wyszukiwania Google. Osiągnąwszy tak wysokie pozycje w rankingach, strona wyraźnie ma potencjał. Analiza tf-idf może pomóc w opracowaniu dokładnych poprawek i uzupełnień potrzebnych do ostatniego skoku na pierwszą stronę.

  • Kierowanie nowym planem zawartości

Analiza tf-idf jest znakomita jako inspiracja dla treści. Przeprowadzenie analizy stron, które mają dobrą pozycję w rankingu dla określonych tematów i tematów, pokaże Ci, jakie treści muszą obejmować Twoje własne treści. To może być świetna podstawa do naszkicowania planu całej masy nowych treści.

  • Aresztowanie spadających rankingów

Jeśli masz stronę, która kiedyś osiągała najlepsze wyniki, ale spada w rankingach ważnych słów kluczowych, tf-idf też może w tym pomóc. Może pokazać, dla jakich słów kluczowych i tematów strony wyprzedzające Twoje osiągają lepsze wartości tf-idf. Następnie możesz odpowiednio ulepszać i aktualizować własne treści.

TF-IDF dla SEO – wyjście poza gęstość słów kluczowych

We współczesnym świecie SEO jest tak wiele do rozważenia. Architektura witryny, linki, gęstość słów kluczowych i wszystkie inne tradycyjne elementy pozostają kluczowe. Można jednak argumentować, że treść jest teraz królem. Lub przynajmniej, że należy mu poświęcić tyle samo uwagi, co innym czynnikom.

Witryny nie mogą już uchodzić na sucho upychając słowa kluczowe lub wypełniając strony zduplikowanymi lub ukrytymi treściami będącymi spamem. Witryny muszą zawierać treści wysokiej jakości, które są naprawdę przydatne dla czytelników. Tf-idf to główny sposób, w jaki Google i inne wyszukiwarki oceniają treść pod tym względem.

Kluczowe jest zatem zrozumienie, jak działa tf-idf i jaki ma związek z SEO. Właściwe zrozumienie i wdrożenie tf-idf dla SEO może pomóc wzbogacić treść i zobaczyć korzyści w ruchu organicznym.

Zarezerwuj konsultację