SEO 가이드: Robots.txt 및 메타 로봇 ​​태그를 설정하는 방법

게시 됨: 2022-09-11

대부분의 SEO 전문가는 robots.txt와 Meta Robots 태그가 웹사이트에 대한 검색 엔진 봇 액세스를 제어하는 ​​데 사용된다는 사실을 알고 있지만, 이를 효과적으로 사용하는 방법도 모르고 있습니다. 둘 다 뚜렷한 장점과 단점이 있으며, 언제 채용할지 사이에서 균형을 잡는 것이 중요합니다. 이 문제를 해결하기 위해 이 문서에서 robots.txt 파일과 Meta Robots 태그를 설정하는 모범 사례를 간략하게 설명했습니다.

로봇.txt

Robots.txt
로봇.txt

Robots.txt는 검색 엔진 로봇에게 웹사이트에서 크롤링할 수 있는 부분과 크롤링할 수 없는 부분을 알려주는 텍스트 파일입니다. 로봇이 인터넷에서 정보를 크롤링하고 색인화하는 방법에 대한 일련의 지침인 REP(로봇 제외 프로토콜)의 일부입니다. 복잡하고 기술적으로 보일 수 있지만 robots.txt 파일을 만드는 것은 간단합니다. 시작하자!

다음은 간단한 robots.txt 파일의 예입니다.

사용자 에이전트: *

허용: /

허용하지 않음: /고마워요

사이트맵: https://www.example.com/sitemap.xml

로봇을 안내하기 위한 robots.txt 파일의 가장 중요한 지시문은 Allow와 Disallow입니다. 그들이 의미하는 바를 살펴보겠습니다.

통사론

사용자 에이전트 – 지시문이 의도된 사용자 에이전트 이름이 여기에 지정됩니다.

* 기호는 지시문이 모든 크롤러를 대상으로 함을 나타냅니다. 이 매개변수에 가능한 다른 값에는 Googlebot, yandexbot 및 bingbot 등이 있습니다.

허용: 이 명령은 지정된 URL(Uniform Resource Locator)을 크롤링할 수 있음을 Googlebot에 알립니다.

Disallow: 이 명령은 Googlebot이 지정한 URL을 크롤링하지 못하도록 합니다.

Sitemap: 이 명령은 웹사이트의 Sitemap URL을 지정하는 데 사용됩니다.

이 경우 User-agent: *는 명령 집합이 모든 유형의 봇과 관련이 있음을 나타냅니다.

허용: / 파일에서 허용되지 않는 페이지를 제외하고 전체 웹사이트를 크롤링할 수 있음을 크롤러에 알립니다. 마지막으로 Disallow: /thank-you는 /thank-you가 포함된 URL을 크롤링하지 않도록 Googlebot에 지시합니다.

User-agent, Allow 및 Disallow 지침은 크롤러를 허용 및 금지하는 robots.txt 파일의 기본 기능을 수행합니다.

최고의 Robots.txt 사례

다음은 자신의 robots.txt 파일을 설정할 때 따라야 하는 몇 가지 프로 SEO 팁입니다.

  • 무엇보다도 먼저, 숙제를 하고 웹사이트의 어느 부분이 색인 생성을 원하지 않는지 알아내십시오. 다른 사람의 robots.txt 파일을 복사하거나 재사용하지 마세요.
  • 검색 엔진 크롤러가 쉽게 액세스할 수 있도록 robots.txt 파일이 웹사이트의 루트 디렉토리에 있는지 확인하십시오.
  • 대소문자를 구분하므로 "robots.txt" 이외의 다른 이름으로 파일을 호출하지 마십시오.
  • robots.txt에 항상 사이트맵 URL을 포함하여 검색 엔진 봇이 웹사이트 페이지를 더 쉽게 찾을 수 있도록 합니다.
  • Robots.txt는 개인 정보나 향후 이벤트 페이지를 숨기는 데 사용되어서는 안 됩니다. robots.txt 파일은 공개 파일이기 때문에 도메인 이름 뒤에 /robots.txt를 추가하기만 하면 누구나 액세스할 수 있습니다. 숨기고 싶은 페이지는 누구나 볼 수 있으므로 로봇은 사용하지 않는 것이 좋습니다.
  • 루트 도메인의 각 하위 도메인에 대해 별도의 맞춤형 robots.txt 파일을 만듭니다.
  • 라이브를 시작하기 전에 원하지 않는 항목을 차단하고 있지 않은지 다시 확인하세요.
  • 실수를 발견하고 지시문이 작동하는지 확인하려면 Google의 robots.txt 테스트 도구를 사용하여 robots.txt 파일을 테스트하고 검증하십시오.
  • 루트 도메인의 각 하위 도메인에 대해 별도의 맞춤형 robots.txt 파일을 만듭니다.
  • 실수를 발견하고 지시문이 작동하는지 확인하려면 Google의 robots.txt 테스트 도구를 사용하여 robots.txt 파일을 테스트하고 검증하십시오.
  • robots.txt 파일에서 금지하는 웹사이트 페이지에 링크하지 마십시오. 내부 링크를 사용하면 링크된 페이지가 Google에서 크롤링됩니다.
  • robots.txt 파일의 형식이 올바른지 확인하세요.
  1. 새 줄에서 각 지시문을 정의해야 합니다.
  2. URL을 허용하거나 허용하지 않을 때 대소문자를 구분한다는 점에 유의하십시오.
  3. * 및 $를 제외하고 다른 특수 문자를 사용할 수 없습니다.
  4. 더 명확하게 하려면 # 기호를 사용하십시오. # 문자가 있는 줄은 크롤러에서 무시됩니다.
  • robots.txt 파일을 사용하여 숨길 페이지는 무엇입니까?
  1. 페이지 매김을 위한 페이지
  2. 페이지 쿼리 매개변수의 변형
  3. 계정 또는 프로필 페이지
  4. 관리자를 위한 페이지
  5. 장바구니에서
  6. 페이지 감사합니다
  • 어디에서나 연결되지 않고 robots.txt로 색인이 생성되지 않은 페이지를 차단합니다.
  • robots.txt와 관련하여 웹마스터는 종종 실수를 합니다. 이에 대해서는 별도의 문서에서 설명합니다. 그것을 확인하고 멀리하십시오 – 전형적인 robots.txt 실수

로봇 태그

robots.txt 파일은 웹사이트의 어느 부분에 액세스할 수 있는지 크롤러에게 알려줍니다. 그러나 색인을 생성할 수 있는지 여부는 크롤러에게 알리지 않습니다. 이를 지원하기 위해 로봇 태그를 사용하여 크롤러에게 인덱싱 및 기타 다양한 작업을 지시할 수 있습니다. Meta Robots와 X-robots 태그는 두 가지 형태의 로봇 태그입니다.

Robots Tags
로봇 태그

메타 로봇 ​​태그

메타 로봇 ​​태그는 검색 엔진에 페이지를 크롤링하고 색인을 생성하는 방법을 알려주는 HTML 코드 조각입니다. 웹 페이지의 head> 섹션에서 찾을 수 있습니다. Meta Robots 태그는 다음과 같습니다.

<메타 이름=”로봇” 콘텐츠=”noindex,nofollow”>

Meta Robots Tag
메타 로봇 ​​태그

이름과 내용은 Meta Robots 태그의 두 가지 속성입니다.

이름 속성

name 속성에 정의된 값은 로봇의 이름입니다(예: Googlebot, MSNbot 등). 위의 예에서 볼 수 있듯이 값을 robots로 간단히 정의할 수 있습니다. 이는 지시문이 모든 종류의 크롤링 로봇에 적용됨을 나타냅니다.

콘텐츠 속성

컨텐츠 필드에서 다양한 유형의 값을 정의할 수 있습니다. 콘텐츠 속성은 페이지 콘텐츠를 크롤링하고 색인을 생성하는 방법에 대해 크롤러에 지시합니다. robots 메타 태그가 없으면 크롤러는 페이지를 색인으로 취급하고 기본적으로 따라갑니다.

free backlinks makerOpens in a new tab.
무료 백링크 메이커

다음은 콘텐츠 속성에 대한 다양한 유형의 값입니다.

  1. all: 이 지시문은 크롤러에게 원하는 모든 것을 크롤링하고 인덱싱할 수 있음을 알려줍니다. 이것은 색인과 동일한 방식으로 작동하고 지침을 따릅니다.
  2. index: index 지시문은 크롤러에게 페이지를 인덱싱할 수 있음을 알려줍니다. 이것은 기본적으로 고려됩니다. 색인을 생성하기 위해 페이지에 추가할 필요는 없습니다.
  3. noindex: 크롤러는 페이지의 색인을 생성할 수 없습니다. 페이지가 이미 색인화된 경우 크롤러는 이 지시문에 의해 색인에서 페이지를 제거하라는 지시를 받습니다.
  4. 따르기: 검색 엔진은 페이지의 모든 링크를 따르고 링크 자산을 전달하도록 지시됩니다.
  5. nofollow: 검색 엔진은 웹사이트의 링크를 따르거나 자산을 전달할 수 없습니다.
  6. 없음: noindex, nofollow 지시문과 유사합니다.
  7. noarchive: 페이지의 캐시된 사본이 검색 엔진 결과 페이지(SERP)에 표시되지 않습니다.
  8. nocache: 이 지시문은 noarchive와 유사하지만 Internet Explorer 및 Firefox에서만 지원됩니다.
  9. nosnippet: 페이지의 확장된 설명(메타 설명이라고도 함)이 검색 결과에 표시되지 않습니다.
  10. notranslate - Google이 SERP에서 페이지 번역을 제공하지 못하도록 합니다.
  11. noimageindex - Googlebot이 웹사이트의 사진을 크롤링하는 것을 방지합니다.
  12. available_after – 지정된 날짜/시간 이후에는 이 페이지를 검색 결과에 표시하지 않습니다. 타이머가 있는 noindex 태그와 유사합니다.
  13. max-snippet: 이 지시문을 사용하면 Google이 페이지의 SERP에 표시해야 하는 최대 문자 수를 지정할 수 있습니다. 아래 샘플의 문자 수는 150자로 제한됩니다.
  14. 예 – <meta name=”robots” content=”max-snippet:150″/>
  15. max-video-preview – 비디오 샘플 미리 보기의 최대 시간(초)이 설정됩니다. 아래의 경우 Google은 10초 미리보기를 표시합니다. -- <meta name=”robots” content=”max-video-preview:10″ />
  16. max-image-preview – SERP의 페이지에 표시해야 하는 이미지 크기를 Google에 알려줍니다. 세 가지 옵션을 사용할 수 있습니다.
  • 없음 – 이미지 스니펫이 표시되지 않습니다.
  • standard – 기본 이미지 미리보기가 사용됩니다.
  • Large – 가능한 가장 큰 미리보기가 표시될 수 있음

X 로봇 태그

페이지 수준에서만 Meta Robots 태그가 크롤링 및 인덱싱을 조절할 수 있습니다. X-robots 태그와 Meta Robots 태그의 유일한 차이점은 X-robots 태그가 페이지의 HTTP 헤더에 정의되어 전체 페이지 또는 선택한 요소의 크롤링 및 인덱싱을 관리한다는 것입니다. HTML이 아닌 페이지 제어, 크롤링 및 인덱싱에 주로 사용됩니다.

X Robots Tag
X 로봇 태그

X-Robots 태그의 예

X-robots 태그는 이 스크린샷과 같이 Meta Robots 태그와 동일한 지시문 세트를 사용합니다. X-robots 태그를 사용하려면 헤더를 변경하려면 a.htaccess,.php 또는 서버 구성 파일에 액세스해야 합니다.

로봇 태그에 대한 최고의 SEO 사례

1) Meta Robots와 x-robots 중 하나는 중복되므로 같은 페이지에서 사용하면 안 됩니다.
2) 메타 로봇 ​​태그를 noindex와 같은 지시문과 함께 사용할 수 있습니다. 귀하의 페이지가 인덱싱되는 것을 원하지 않지만 링크된 페이지에 링크 형평성을 전달하려는 경우 따르십시오. robots.txt로 인덱싱을 방지하는 대신 인덱싱을 제어하는 ​​데 이상적인 방법입니다.
3) 웹사이트의 색인을 생성하기 위해 색인을 포함하거나 각 페이지의 지침을 따를 필요가 없습니다. 기본적으로 고려됩니다.
4) 페이지 색인이 생성된 경우 robots.txt를 사용하여 페이지를 중지하지 말고 대신 메타 로봇을 활용하십시오. 크롤러는 Meta Robots 태그를 검사하기 위해 페이지를 크롤링해야 하며 robots.txt 차단으로 인해 크롤링이 방지됩니다. 즉, Meta Robots 태그는 더 이상 사용되지 않습니다.
이러한 상황에서는 먼저 로봇 메타 태그를 사용한 다음 Google에서 사이트의 색인을 제거할 때까지 기다리십시오. 색인이 제거된 후 robots.txt를 사용하여 이를 방지하고 크롤링 비용을 절약할 수 있습니다. 그러나 중요한 페이지에 대한 링크 형평성을 전달하는 데 사용될 수 있으므로 이를 피해야 합니다. 완전히 쓸모가 없는 경우에만 robots.txt를 사용하여 색인이 제거된 페이지를 금지하십시오.
5) X-robots 태그를 사용하여 사진, PDF, 플래시 또는 비디오와 같은 비 HTML 파일의 크롤링을 제어합니다.

결론

웹사이트의 크롤링 및 색인 생성을 제어하려면 robots.txt 및 robots 태그를 사용해야 합니다. 스파이더가 사이트에 도달하는 방법을 제어하는 ​​몇 가지 옵션이 있습니다. 그러나 그들 모두가 문제를 해결하는 데 효과적이지는 않을 것입니다. 예를 들어 색인에서 일부 페이지를 제거하려는 경우 robots.txt 파일에서 차단하는 것만으로는 작동하지 않습니다.

여기서 기억해야 할 가장 중요한 것은 웹사이트에 필요한 것이 무엇인지 파악한 다음 사이트가 차단되었을 때 이를 처리할 영리한 전략을 선택하는 것입니다. 이 조언이 귀하에게 가장 적합한 옵션을 결정하는 데 도움이 되기를 바랍니다.

페이지가 차단되는 것을 방지하기 위해 어떤 접근 방식을 사용합니까? 아래 의견란에 여러분의 생각을 공유해 주세요.

SEO 유용한 링크 구축 리소스:

  • 2021년 최고의 소셜 북마크 사이트 목록
  • SEO를 위한 상위 이미지 제출 사이트 목록 2021
  • 기사 제출 사이트 목록 2021
  • 2021년 상위 100개 상위 DA 디렉토리 제출 사이트 목록
  • 2021년 최고의 보도 자료 제출 사이트
  • 최고의 High DA DoFollow 블로그 댓글 사이트 목록 2021
  • 2021년 동영상 제출 사이트 목록
  • 2021년 High DA 비즈니스 목록 사이트 목록
  • 2021년 높은 DA 분류 제출 사이트 목록
  • 높은 DA 질문 및 답변 웹 사이트 목록 2021