SEO의 주제 모델링 – 더 높은 순위를 매기는 새로운 방법
게시 됨: 2022-04-24SEO의 주제 모델링은 문서 모음에서 주제를 발견하기 위해 통계 모델을 사용하는 것입니다. 수천 페이지에서 단어와 구의 동시 발생을 검사함으로써 알고리즘은 페이지에 주제 관련성을 할당하고 검색 쿼리에 대해 페이지 순위를 지정할 수 있습니다.
키워드에서 주제로
검색 엔진의 초창기인 1990년대 후반에 알고리즘은 결과의 키워드를 쿼리의 키워드와 일치시키는 것 이상을 수행하지 않았습니다. 검색 엔진은 쿼리의 컨텍스트나 키워드 이면의 의도를 이해하지 못했습니다.
그러나 검색 엔진은 그 이후로 먼 길을 왔습니다. 검색 엔진 알고리즘은 이제 키워드뿐만 아니라 키워드 이면의 주제도 이해합니다. 키워드보다는 주제에 대한 이러한 강조를 시맨틱 SEO라고 합니다.
주제 이해를 위한 첫 번째 큰 발전은 2013년 Google Hummingbird 업데이트와 함께 이루어졌습니다. 이때 Google은 개별 키워드뿐만 아니라 전체 구문을 분석하기 시작했습니다.
다음으로 큰 발전은 2015년 Google의 RankBrain 알고리즘으로 이루어졌습니다. 이 알고리즘은 자연어 처리(NLP)를 사용하여 검색어의 맥락과 의도를 이해했습니다.
이 무렵 관련성 척도로서의 키워드 밀도는 백미러에서 빠르게 사라지고 있었습니다. 주제 관련성으로 대체되었습니다. 현재 Google에서 순위를 매기는 것은 콘텐츠가 주제를 얼마나 포괄적으로 다루느냐에 달려 있습니다.
그 이후로 Google 및 기타 검색 엔진은 주제를 이해하는 데 점점 더 좋아지고 있습니다. 그들은 주제 모델링이라는 기술을 통해 이를 수행합니다.
주제 모델링 대 주제 분류
토픽 모델링은 단어와 구 사이에 존재하는 관계를 발견하기 위한 통계적 방법입니다.
주제 모델링을 통해 알고리즘은 감독되지 않은 정보 자체의 범주를 발견합니다. 문서 세트를 스캔하고 다른 단어 및 구와 함께 발생하는 빈도에 따라 단어 및 구를 클러스터링하여 이를 수행합니다. 주제 모델링은 '비지도' 학습 기술입니다. 알고리즘은 발견한 패턴을 기반으로 카테고리 자체를 발견합니다.
주제 모델링은 인간이 특정 규칙을 부여하여 알고리즘을 '훈련'해야 하는 기계 학습 기술인 주제 분류와 다릅니다.
주제 분류를 사용하면 먼저 사용하려는 정보의 범주를 정의해야 합니다. 그런 다음 미리 정의된 범주로 태그가 지정된 원시 데이터의 몇 가지 예를 알고리즘에 제공합니다. 그런 다음 알고리즘은 사전 정의된 범주를 사용하여 데이터를 분석합니다.
두 기술의 차이점은 다음과 같습니다. 주제 분류에서 인간은 알고리즘에 범주가 무엇인지 알려주는 반면, 주제 모델링에서는 단어와 구가 특정 패턴으로 클러스터링되는 방식에 대한 통계적 분석을 통해 알고리즘이 범주가 무엇인지 발견합니다.
이러한 텍스트 분석 방법은 검색 엔진뿐만 아니라 인터넷 전반에 걸쳐 사용되고 있습니다.
예를 들어, 대량의 온라인 고객 피드백을 받는 비즈니스는 주제 모델링 또는 주제 분류를 사용하여 피드백을 구매 후 알림, 경험 후속 조치, 브랜드 충성도 피드백, 고객 불만 및 고객 리뷰와 같은 범주로 분류할 수 있습니다.
두 가지 유형의 주제 모델링
지금까지는 '토픽 모델링'이라는 용어를 하나의 단어처럼 사용해 왔습니다. 그러나 실제로는 다양한 기술을 포괄하는 포괄적인 용어입니다.
이제 다양한 유형의 주제 모델링을 살펴보겠습니다.
잠재 디리클레 할당(LDA)
LDA(Latent Dirichlet Allocation)는 두 가지 가정을 기반으로 합니다. 유사한 주제는 유사한 단어를 사용하고 문서는 통계적 분포를 감지할 수 있는 여러 주제에 대해 이야기합니다.
LDA는 n-gram과 같은 단어 배열에 주제를 할당하여 문서를 주제 목록에 매핑합니다. n-gram은 자연어 처리에서 사용되는 일련의 단어입니다.
지정자 'n'은 n-gram의 단어 수를 나타냅니다. N=1인 경우 n-gram은 한 단어를 포함하고 N=2인 경우 n-gram은 두 단어를 포함하는 식입니다.
예를 들어, "The cow jumps over the moon"이라는 문장에는 다음과 같은 2단어 n-gram(bi-gram)이 포함됩니다.
- 소
- 소 점프
- 뛰어 넘다
- 위에
- 달
n-gram이 있으면 특정 단어가 동일한 문장이나 동일한 단락에서 또는 서로 특정 거리에서 나타날 가능성을 예측하는 계산을 수행할 수 있습니다.
Latent Dirichlet Allocation은 문서가 단어의 특정 배열로 구성되어 있고 이러한 배열이 문서의 주제를 결정한다는 가정 하에 작동합니다.
잠재 의미 분석
LDA와 마찬가지로 잠재 의미 분석은 분포 가설을 기반으로 합니다. 단어의 의미는 단어가 나타나는 컨텍스트를 보고 파악될 수 있습니다. 영어 언어학자인 JR Firth는 다음과 같이 말했습니다.
특정 단어 배열에 주제를 할당하는 LDA와 달리 잠재 의미 분석은 문서 집합에서 단어가 얼마나 자주 발생하는지 계산합니다. 유사한 주제에 속하는 문서에는 특정 단어에 대한 단어 빈도 분포가 거의 동일하다고 가정합니다.
단어 빈도를 계산하는 데 사용하는 방법은 Term Frequency-Inverse Document Frequency 또는 tf-idf입니다.
용어 빈도(TF)는 단일 문서에 키워드가 나타나는 횟수를 나타냅니다.
IDF(역 문서 빈도)는 문서 모음에 해당 용어가 나타나는 횟수를 측정합니다.
TF(Term Frequency)는 TF-IDF 값을 얻기 위해 IDF(Inverse Document Frequency)로 나뉩니다.
LDA와 LSA는 모두 감독되지 않은 기술입니다.
토픽 클러스터 - 더 높은 순위를 매기는 열쇠
보시다시피 검색 엔진은 키워드에서 주제로 관심을 돌리고 있습니다. 그들은 특정 단어가 다른 단어와 함께 발견되는 방식에서 패턴을 식별하기 위해 다양한 통계적 방법을 사용하고 있습니다. 이러한 패턴을 통해 검색 엔진은 주제를 식별할 수 있습니다.
이것이 바로 토픽 클러스터가 검색 결과에서 높은 순위를 매기는 데 중요한 부분이 된 이유입니다.
Google은 신뢰할 수 있는 검색 결과를 제공하기를 원합니다. 즉, 주제를 깊이 있고 폭넓게 잘 다루는 콘텐츠를 제공해야 합니다.
기둥 게시물 및 주제 클러스터
가장 좋은 방법은 주제 클러스터 모델을 사용하는 것입니다. 기둥 포스트라고 하는 중앙 페이지가 있는 페이지 모음입니다. 기둥 기둥은 주제를 깊이 있게 다루며 일반적으로 길이가 최소 3000단어입니다.
기둥 포스트에서는 주제와 관련된 모든 하위 주제를 다룹니다. 그러나 당신은 반드시 그 하위 주제에 대해 아주 자세하게 들어갈 필요는 없습니다. 각 하위 주제를 소개하는 몇 단락을 보낸 다음 해당 하위 주제를 더 자세히 다루는 별도의 블로그 게시물에 링크합니다.
예를 들어 기둥 포스트는 '정원 도구'에 관한 것일 수 있습니다. 정원 도구의 모든 주요 유형(예: 잔디 깎는 기계, 줄 자르기, 산울타리 자르기, 가지치기 가위, 멀처, 잎 송풍기, 테두리 도구, 스프링클러 등)을 간략하게 설명하는 기사는 평균보다 더 깁니다.
그런 다음 각 하위 주제에 대해 별도의 콘텐츠를 만들고 기둥 포스트에서 해당 기사로 링크합니다.
주제 클러스터가 SEO에 도움이 되는 이유는 무엇입니까?
주제 클러스터는 순위를 높이는 데 어떻게 도움이 됩니까? 귀하의 웹사이트에 특정 주제에 대한 주제 권한이 있음을 검색 엔진에 보여줍니다. 주제 클러스터를 생성하면 콘텐츠가 관련 키워드로 가득 차게 됩니다. 그리고 그것이 바로 검색 엔진 알고리즘이 지금 찾고 있는 것입니다. 일반적으로 함께 발견되는 키워드로 가득 찬 밀접하게 관련된 콘텐츠의 10~15페이지가 있는 웹사이트는 알고리즘에서 승인을 받습니다.
지금까지 이 기사에서 주제가 SEO의 초점으로 키워드를 대체하는 이유와 검색 엔진이 주제와 하위 주제를 이해하기 위해 다양한 주제 모델링 도구를 사용하는 방법을 살펴보았습니다.
콘텐츠 작성자는 특정 주제를 '매핑'하여 해당 주제를 포괄적으로 다루는 콘텐츠를 만들 수 있도록 도와주는 주제 모델링 도구가 있는지 궁금할 것입니다.
당연히 그러한 도구가 이미 존재합니다. 다음 섹션에서는 그 중 두 가지를 보여 드리겠습니다.
주제 모델링 도구
이 섹션에서는 주제에 대한 권위가 높은 콘텐츠를 작성하는 데 도움이 되는 두 가지 주제 모델링 도구를 살펴봅니다.
마켓뮤즈
MarketMuse는 AI 기반 콘텐츠 연구 및 키워드 플래너 도구입니다. 머신 러닝과 인공 지능을 사용하여 콘텐츠를 분석하고 다룰 주제를 제안하며 더 나은 콘텐츠를 만드는 데 도움이 되는 브리프를 개발합니다.
MarketMuse에 로그인하면 왼쪽 메뉴에 Research, Compete, Optimize, Questions, Connect의 다섯 가지 도구가 표시됩니다.

이러한 도구를 하나씩 살펴보겠습니다.
연구 도구
조사 도구에 키워드를 입력하면 MarketMuse가 해당 키워드에 대한 주요 주제를 식별합니다.

주제는 왼쪽 열에 나타납니다. 오른쪽 열에는 각 관련 주제에 대한 예상 검색량과 해당 주제에 대한 검색 추세를 보여주는 그래프가 표시됩니다.
맨 오른쪽에 있는 열은 콘텐츠에서 관련 주제를 언급해야 하는 제안된 횟수를 보여줍니다. MarketMuse는 이를 위해 색상 코드를 사용합니다.
- 노란색 = 1~2개의 멘션
- 녹색 = 3~10개의 멘션
- 파란색 = 10개 이상의 멘션
주제를 클릭하면 관련 주제별로 드릴다운할 수 있습니다. 해당 주제에 대한 변형 목록이 표시됩니다.

콘텐츠에 이러한 변형을 포함하면 여러 키워드의 순위를 매기는 데 도움이 됩니다. 또한 검색 엔진은 특정 단어가 주제를 심층적으로 다루는 콘텐츠에 함께 표시된다는 것을 인식하기 때문에 기사의 주제적 권위를 높일 것입니다.
경쟁 도구
Compete 도구는 수천 개의 문서를 분석하여 주제 모델을 생성합니다. 그런 다음 해당 모델에 대한 상위 20개 결과를 분석하고 결과를 히트 맵으로 표시합니다.
경쟁은 주어진 주제에 대한 경쟁을 평가 및 분석하고 해당 주제에 대해 원하는 범위에 대한 결정을 내리는 데 사용됩니다.
Compet의 히트 맵을 사용하면 경쟁에서 어떻게 여러분이 작성하고 싶은 주제에 접근하는지, 어떤 관련 주제를 포함해야 하는지, 콘텐츠를 군중에서 돋보이게 만들기 위해 다루어야 하는 주제를 빠르게 이해할 수 있습니다.

경쟁 화면 상단에 해당 주제에 대한 상위 20개 검색 결과가 표시됩니다. 각 검색 결과 아래에는 해당 기사에 대한 MarketMuse 콘텐츠 점수가 있습니다. 이것은 페이지가 주제를 얼마나 잘 다루고 있는지 보여주는 MarketMuse에서 개발한 독점 점수입니다.
히트 맵의 색상 코드는 각 콘텐츠가 주제를 얼마나 잘 다루고 있는지 보여줍니다.
- 빨간색 = 0 언급
- 노란색 = 1-2개의 언급
- 녹색 = 3-10개의 멘션
- 파란색 = 10개 이상의 멘션
페이지가 주제를 얼마나 잘 다루고 있는지 평가하는 빠른 방법은 세로로 열을 스캔하는 것입니다.

마찬가지로 행을 가로로 스캔하여 경쟁에서 특정 주제를 다루는 방법을 확인할 수 있습니다.

경쟁 도구에서 찾아야 할 또 다른 사항은 콘텐츠 점수입니다. 이를 통해 상위 콘텐츠가 해당 주제를 얼마나 잘 다루고 있는지 한 눈에 볼 수 있습니다.

점수가 낮으면 잘 조사된 콘텐츠로 해당 주제에 대해 높은 순위를 매길 수 있는 좋은 기회가 있음을 나타냅니다.
경쟁 화면의 왼쪽 아래에는 주제 모델을 구성하는 모든 주제가 표시됩니다.
Compete 도구를 사용할 때 찾아야 할 두 가지 항목이 있습니다. 필수 항목과 항목 간격입니다.
필수 주제 는 검색 결과의 최상위 페이지에서 지속적으로 발견되는 주제입니다. 잘 수행하려면 이러한 주제가 작품에 포함되어야 합니다.
주제 격차 는 경쟁에서 다루지 않는 주제입니다. 경쟁자가 놓치고 있는 주제를 포함하여 콘텐츠를 최적화할 수 있는 좋은 기회입니다.
최적화 도구
최적화 도구는 콘텐츠가 주제를 얼마나 잘 다루고 있는지에 대한 실시간 피드백을 제공하는 텍스트 편집기입니다. 키워드와 기사 URL을 입력하기만 하면 MarketMuse가 표시됩니다.

오른쪽 패널의 색상 코드는 해당 용어를 사용한 횟수와 해당 용어를 사용해야 하는 횟수를 보여줍니다.

콘텐츠에 제안된 용어를 추가하면 색상 코드가 업데이트되어 해당 용어에 대한 최적의 멘션 수에 도달했음을 보여줍니다.
'피드' 탭은 페이지를 아래로 스크롤할 때 콘텐츠가 주제를 얼마나 잘 다루고 있는지에 대한 실행 평가를 제공합니다.

경쟁 화면 상단에 콘텐츠 점수, 평균 점수, 목표 점수, 단어 수, 평균 단어 수 및 목표 단어 수를 알려주는 상태 표시줄이 표시됩니다.

질문 도구
MarketMuse의 질문 도구는 기사를 작성하는 조사 단계에 있을 때 유용합니다. 귀하의 주제와 관련하여 가장 자주 묻는 질문을 보여줍니다.

콘텐츠에 관련 질문을 포함하는 것은 기사의 주제적 권위를 높이는 또 다른 방법입니다.
화면 오른쪽에 "실행"이라는 버튼이 있는 열이 있습니다. 이렇게 하면 다른 네 가지 도구 중 하나에서 각 질문을 실행할 수 있는 옵션이 제공됩니다.

MarketMuse는 주제를 분석하고 작품 콘텐츠가 가능한 한 많은 주제를 다루고 있는지 확인하는 강력한 도구입니다. MarketMuse가 특히 유용한 이유는 특정 키워드에 대한 상위 순위 결과를 기반으로 한다는 것입니다.
검색 결과 상단에 순위가 매겨진 페이지에서 어떤 주제를 다루는지 보여줄 뿐만 아닙니다. 그것은 또한 당신에게 주제 격차를 보여줍니다. 주제 격차를 해결하여 콘텐츠를 다른 페이지와 차별화할 수 있습니다.
기사 인사이트
Article Insights는 또 다른 주제 모델링 도구입니다.
특정 주제에 대한 상위 10개 검색 결과에 나타나는 키워드를 식별하는 데 도움이 됩니다. 귀하의 콘텐츠를 경쟁업체의 콘텐츠와 비교하여 경쟁업체 분석에 도움이 되므로 귀하가 사용하지 않는 키워드를 그들이 사용하고 있는지 확인할 수 있습니다. 또한 키워드를 사람, 제품, 회사 또는 장소로 태그 지정하여 엔터티 감지를 돕습니다.
Article Insights에서 가장 먼저 해야 할 일은 프로젝트를 만드는 것입니다. 프로젝트에 이름을 지정한 다음 타겟팅하려는 키워드를 추가합니다.

그런 다음 키워드는 처리 대기열로 이동합니다. 분석을 완료하는 데 몇 분 정도 걸릴 수 있습니다.
키워드가 처리되면 보기 버튼을 클릭해야 합니다.
그러면 왼쪽의 쓰기 인터페이스와 오른쪽의 분석이라는 두 부분으로 구성된 화면이 표시됩니다.

기사 편집기에는 '기사'와 '간단한'이라는 두 개의 탭이 있습니다.

Brief는 기사에 대한 메모를 남길 수 있는 곳입니다. 작가와 기사를 공유할 수 있는 링크를 얻을 수 있는 공유 버튼이 있습니다.
오른쪽에는 콘텐츠에 대한 모든 분석이 포함된 패널이 있습니다.
여기에는 다음이 포함됩니다.
- 단어의 수
- 기사에서 사용한 키워드
- 경쟁자가 사용한 키워드(갭 분석)
- 당신이 사용한 표제와 경쟁자들이 사용한 표제의 수.
- 콘텐츠의 독창성
- 가독성 점수
처음부터 기사 작성을 시작하거나 URL에서 진행 중인 기사를 가져올 수 있습니다.

기사 편집기에 콘텐츠가 로드되면 도구는 해당 키워드에 대한 상위 10개 검색 결과를 기준으로 콘텐츠를 분석합니다.

- 패널 1과 2 는 기사의 완성도와 목표로 삼아야 하는 단어의 수를 보여줍니다.
- 패널 3 에는 콘텐츠에 사용된 상위 15개 키워드가 표시됩니다.
- 패널 4 는 경쟁업체가 사용한 키워드와 귀하가 사용한 키워드 수를 보여줍니다.
- 패널 5 는 귀하가 사용한 표제를 보여주고 이를 경쟁자가 사용한 표제와 비교합니다.
제목 패널 아래에는 '고유성' 점수를 표시하는 패널과 Flesch 읽기 점수를 제공하는 도구가 있습니다.

'고유성' 도구에는 '기사 재작성'이라는 버튼이 있습니다.
그것을 클릭하면 '연구' 탭에서 추가한 스니펫을 다시 작성하는 데 사용할 수 있는 유용한 동의어 제안과 함께 기사 편집기가 열립니다. 강조 표시된 단어 위에 커서를 올리면 도구는 해당 단어에 대한 대체 동의어를 제공합니다.

이것은 콘텐츠를 빠르게 다시 작성하는 데 도움이 되는 매우 유용합니다.
오른쪽 패널의 상단을 따라 7개의 탭이 있습니다. 지금까지 점수 탭에서 작업했습니다.
경쟁자 탭을 클릭하면 각 경쟁자에 대한 키워드 그룹화와 함께 해당 키워드에 대한 상위 10개 경쟁자 목록이 표시됩니다. 다음 키워드 그룹은 각 경쟁자가 사용하는 상위 키워드를 보여줍니다.

경쟁자를 선택하거나 선택 취소할 수 있습니다. 이는 귀하의 콘텐츠와 관련이 없다고 생각되는 결과가 있는 경우에 유용합니다.
다음 탭은 '연구'입니다. 이 탭은 상위 콘텐츠에서 스니펫을 가져옵니다.

연구 스니펫을 클릭하면 기사 편집기에 추가됩니다. 그런 다음 자신의 콘텐츠의 일부로 만들기 위해 다시 작성해야 합니다.
다음 탭은 '제목'입니다. 이 탭에는 선택한 각 경쟁업체에 사용된 제목이 표시됩니다. 페이지에 얼마나 많은 제목이 있고 제목이 어느 수준인지 정확히 볼 수 있습니다.

다음은 '질문' 탭입니다.
이 탭은 Google에서 귀하의 주요 키워드와 관련된 질문을 가져옵니다. 다음은 주제의 권위를 얻기 위해 기사에 추가할 수 있는 하위 주제입니다.

다음 탭은 '주제'입니다. 이 도구는 주제별로 그룹화된 관련 키워드를 보여줍니다. 해당 주제와 일치하는 단락이 해당 주제 패널에 배치됩니다.

주제 개요는 단락에 쉽게 추가할 수 있는 관련 키워드를 찾는 데 도움이 됩니다. 이러한 관련 단어를 단락에 추가하면 콘텐츠의 주제적 권위가 증가하고 기사의 품질이 크게 향상됩니다.
마지막 탭은 '중복'입니다. 이 도구는 콘텐츠 내에서 중복되는 조각을 감지합니다. 이 도구에서 빨간색으로 표시된 항목을 다시 작성해야 합니다.
유용한 기능이 있는 '점수' 탭의 키워드 패널로 돌아가 보겠습니다. 해당 패널에서 키워드를 클릭합니다.

그러면 해당 키워드가 경쟁자 탭에서 강조 표시됩니다. 그런 다음 경쟁업체가 해당 키워드를 사용한 횟수를 확인할 수 있습니다.

동일한 키워드가 '연구' 탭에서도 강조표시됩니다.

이것은 특정 키워드에 대해 콘텐츠를 최적화하려고 할 때 유용한 기능입니다.
결론
알고리즘이 키워드 중심에서 벗어나 주제를 이해하려고 함에 따라 콘텐츠가 주제를 포괄적으로 다루는 것이 점점 더 중요해지고 있습니다.
그것이 검색 결과의 상위에 랭크되는 핵심이 되고 있습니다.
이 기사에서는 검색 엔진이 문서 내 및 문서 세트 내에서 단어의 동시 발생을 더 잘 이해하기 위해 사용하고 있는 다양한 주제 모델링 기술을 살펴보았습니다.
문서 내에서 유사한 키워드의 존재, 빈도 및 근접성이 주제를 이해하기 위해 검색 엔진에서 사용되는 방법을 보았습니다.
검색 엔진이 주제의 권위를 이해하기 위해 이러한 도구를 사용하는 경우 콘텐츠 작성자는 콘텐츠가 주제를 적절하게 다루도록 동일한 기술을 사용해야 합니다.
이것이 바로 MarketMuse 및 Article Insights와 같은 도구가 필요한 곳입니다. AI를 사용하여 작성 중인 주제를 분석하고 해당 주제 내의 하위 주제와 해당 주제의 순위를 매기기 위해 사용해야 하는 키워드를 보여줍니다.
관련 리소스
- 토픽 클러스터 및 SEO – 콘텐츠 허브 구축을 위한 5가지 쉬운 팁
- 시맨틱 SEO - 초보자 가이드
- 간단한 5단계로 웹사이트에 사일로 구조 만들기
- 잠재 시맨틱 인덱싱이란 무엇입니까? 7가지 중요한 사실
- LSI 키워드 란 무엇이며 더 높은 순위를 매기기 위해 사용하는 방법
