Robots.txt 파일을 만드는 방법(그리고 필요한 이유)

게시 됨: 2022-06-07

사람들에게 SEO를 설명하는 것은 어려울 수 있습니다. 처음에는 별로 중요해 보이지 않을 수 있는 작은 단계가 많이 있기 때문입니다.

간과하기 쉬운 한 가지 중요한 단계는 검색 엔진 크롤러가 색인을 생성할 페이지와 색인을 생성하지 않을 페이지를 알려주는 것입니다. robots.txt 파일을 사용하여 이 작업을 수행할 수 있습니다.

오늘의 게시물에서는 robots.txt 파일을 만드는 방법을 정확하게 설명하여 사이트의 이 기본 부분을 정사각형으로 만들고 크롤러가 원하는 방식으로 사이트와 상호 작용하는지 확인할 수 있습니다.

robots.txt 파일이란 무엇입니까?

robots.txt 파일은 사이트에서 크롤링하고 색인을 생성할 페이지를 검색 엔진 크롤러에게 알려주는 간단한 지시문입니다.

이는 검색 엔진 로봇이 웹을 크롤링하고 사이트 콘텐츠를 평가 및 색인화한 다음 해당 콘텐츠를 사용자에게 제공하는 방법을 제어하는 표준 절차 제품군인 REP(로봇 제외 프로토콜)의 일부입니다. 이 파일은 크롤러가 크롤링할 수 있는 위치와 크롤링할 수 없는 위치를 지정합니다. 또한 크롤러가 웹 사이트를 보다 효율적으로 크롤링하는 데 도움이 되는 정보를 포함할 수 있습니다.

REP에는 웹 크롤러가 특정 웹 페이지와 포함된 이미지 또는 파일을 크롤링하고 색인을 생성하는 방법에 대한 특정 지침이 포함된 페이지의 HTML에 포함된 지시문인 "메타 로봇 태그"도 포함됩니다.

Robots.txt와 Meta Robots 태그의 차이점은 무엇입니까?

앞서 언급했듯이 로봇 제외 프로토콜에는 페이지의 HTML에 포함된 코드 조각인 "메타 로봇 태그"도 포함됩니다. 특정 웹페이지 의 웹 크롤러에게 방향을 제공한다는 점에서 robots.txt 파일과 다릅니다. 전체 페이지나 사진 및 비디오와 같이 페이지에 포함된 특정 파일에 대한 액세스를 허용하지 않습니다.

대조적으로 robots.txt 파일은 내부용으로만 사용되는 하위 디렉토리와 같이 웹사이트의 전체 세그먼트가 인덱싱되지 않도록 하기 위한 것입니다. robots.txt 파일은 특정 페이지가 아니라 사이트의 루트 도메인에 있으며 지시문은 참조하는 디렉토리 또는 하위 디렉토리에 포함된 모든 페이지에 영향을 미치도록 구성되어 있습니다.

Robots.txt 파일이 필요한 이유는 무엇입니까?

robots.txt 파일은 매우 중요한 믿을 수 없을 정도로 단순한 텍스트 파일입니다. 이것이 없으면 웹 크롤러는 찾은 모든 단일 페이지의 색인을 생성합니다.

이것이 왜 중요합니까?

우선 전체 사이트를 크롤링하려면 시간과 리소스가 필요합니다. 이 모든 것은 비용이 들기 때문에 Google은 특히 해당 사이트가 매우 큰 경우 크롤링할 사이트의 양을 제한합니다. 이를 "크롤링 예산"이라고 합니다. 크롤링 예산은 응답 시간, 가치가 낮은 URL, 발생한 오류 수를 비롯한 여러 기술 요소에 의해 제한됩니다.

또한 검색 엔진이 모든 페이지에 대한 무제한 액세스를 허용하고 크롤러가 색인을 생성하도록 하면 색인이 커질 수 있습니다. 이는 Google이 귀하가 검색 결과에 표시하고 싶지 않은 중요하지 않은 페이지의 순위를 지정할 수 있음을 의미합니다. 이러한 결과는 방문자에게 좋지 않은 경험을 제공할 수 있으며 결국 순위를 매기고 싶은 페이지와 경쟁하게 될 수도 있습니다.

robots.txt 파일을 사이트에 추가하거나 기존 파일을 업데이트하면 크롤링 예산 낭비를 줄이고 색인 팽창을 제한할 수 있습니다.

권장 읽을거리

기술 SEO 가이드: 기술 SEO란 무엇입니까?
지수 팽창이란 무엇입니까? (그리고 그것을 고치는 방법)

내 Robots.txt 파일은 어디에서 찾을 수 있습니까?

사이트에 robots.txt 파일이 있는지 확인하는 간단한 방법이 있습니다. 인터넷에서 찾아보세요.

사이트의 URL을 입력하고 끝에 "/robots.txt"를 추가하기만 하면 됩니다. 예를 들면: victoriousseo.com/robots.txt 는 당신에게 우리를 보여줍니다.

사이트 URL을 입력하고 끝에 "/robots.txt"를 추가하여 직접 시도해 보세요. 다음 세 가지 중 하나가 표시되어야 합니다.

유효한 robots.txt 파일을 나타내는 몇 줄의 텍스트
실제 robots.txt 파일이 없음을 나타내는 완전히 빈 페이지
404 오류

사이트를 확인하고 두 번째 두 결과 중 하나를 얻는 경우 검색 엔진이 노력을 집중해야 하는 위치를 더 잘 이해할 수 있도록 robots.txt 파일을 만드는 것이 좋습니다.

Robots.txt 파일을 만드는 방법

robots.txt 파일에는 검색 엔진 로봇이 읽고 따를 수 있는 특정 명령이 포함되어 있습니다. 다음은 robots.txt 파일을 생성할 때 사용할 용어입니다.

알아야 할 일반적인 Robots.txt 용어

사용자 에이전트 : 사용자 에이전트는 최종 사용자를 위해 웹 콘텐츠를 검색하고 표시하는 작업을 수행하는 소프트웨어입니다. 웹 브라우저, 미디어 플레이어 및 플러그인은 모두 사용자 에이전트의 예로 간주될 수 있지만 robots.txt 파일의 맥락에서 사용자 에이전트는 크롤링 및 색인을 생성하는 검색 엔진 크롤러 또는 스파이더(예: Googlebot)입니다. 당신의 웹사이트.

허용: robots.txt 파일에 포함된 경우 이 명령은 user-agent가 뒤따르는 모든 페이지를 크롤링하도록 허용합니다. 예를 들어 명령이 "허용: /"이면 모든 웹 크롤러가 "http://www.example.com/"에서 슬래시 다음에 오는 모든 페이지에 액세스할 수 있음을 의미합니다. robots.txt에서 허용하지 않는 항목은 암시적으로 허용되므로 크롤링하려는 모든 항목에 대해 이를 추가할 필요가 없습니다. 대신, 허용되지 않는 경로에 있는 하위 디렉토리에 대한 액세스를 허용하는 데 사용하십시오. 예를 들어, WordPress 사이트에는 /wp-admin/ 폴더에 대한 disallow 지시문이 있는 경우가 많으며, 이를 통해 크롤러가 폴더의 다른 항목에 도달하지 않고 /wp-admin/admin-ajax.php에 도달할 수 있도록 허용 지시문을 추가해야 합니다. 메인 폴더.

Disallow: 이 명령은 특정 사용자 에이전트가 지정된 폴더 다음에 오는 페이지를 크롤링하는 것을 금지합니다. 예를 들어 명령이 "Disallow: /blog/"로 표시되면 사용자 에이전트가 /blog/ 하위 디렉터리가 포함된 URL을 크롤링할 수 없으므로 전체 블로그를 검색에서 제외할 수 있습니다. 당신은 아마 절대 그렇게 하고 싶지 않을 것입니다. 그러나 당신은 할 수 있습니다. 그렇기 때문에 robots.txt 파일 변경에 대해 생각할 때마다 disallow 지시문 사용의 의미를 고려하는 것이 매우 중요합니다.

크롤링 지연: 이 명령은 비공식적인 것으로 간주되지만 웹 크롤러가 요청으로 서버를 압도할 가능성이 있는 것을 방지하기 위해 설계되었습니다. 일반적으로 너무 많은 요청으로 인해 서버 문제가 발생할 수 있는 웹사이트에서 구현됩니다. 일부 검색 엔진은 지원하지만 Google은 지원하지 않습니다. Google Search Console을 열고 속성의 크롤링 속도 설정 페이지로 이동한 다음 슬라이더를 조정하여 Google의 크롤링 속도를 조정할 수 있습니다. 이것은 Google이 최적이 아니라고 생각하는 경우에만 작동합니다. 차선책이라고 생각하고 Google이 동의하지 않는 경우 조정을 위해 특별 요청을 제출해야 할 수도 있습니다. Google은 웹사이트의 크롤링 속도를 최적화하도록 허용하는 것을 선호하기 때문입니다.

XML Sitemap: 이 지시문은 웹 크롤러에게 XML 사이트맵의 위치를 알려주는 기능을 정확히 수행합니다. "Sitemap: http://www.example.com/sitemap.xml"과 같은 형식이어야 합니다. 여기에서 사이트맵 모범 사례에 대해 자세히 알아볼 수 있습니다.

Robots.txt 생성을 위한 단계별 지침

자신만의 robots.txt 파일을 만들려면 메모장이나 TextEdit와 같은 간단한 텍스트 편집기에 액세스해야 합니다. 워드 프로세서는 일반적으로 독점 형식으로 파일을 저장하고 파일에 특수 문자를 추가할 수 있으므로 워드 프로세서를 사용하지 않는 것이 중요합니다.

편의상 "www.example.com"을 사용하겠습니다.

user-agent 매개변수를 설정하는 것으로 시작하겠습니다. 첫 번째 줄에 다음을 입력합니다.

사용자 에이전트: *

별표는 모든 웹 크롤러가 귀하의 웹사이트를 방문할 수 있음을 의미합니다.

일부 웹 사이트는 봇이 크롤링할 수 있도록 허용하는 지시문을 사용하지만 이는 필요하지 않습니다. 허용하지 않은 사이트의 모든 부분은 암시적으로 허용됩니다.

다음으로 허용하지 않는 매개변수를 입력합니다. "return"을 두 번 눌러 사용자 에이전트 줄 뒤에 중단을 삽입한 다음 다음을 입력합니다.

허용하지 않음: /

그 뒤에 어떤 명령도 입력하지 않기 때문에 웹 크롤러가 사이트의 모든 페이지를 방문할 수 있습니다.

특정 콘텐츠에 대한 접근을 차단하고 싶다면 disallow 명령어 뒤에 디렉토리를 추가하면 됩니다. robots.txt 파일에는 다음 두 가지 금지 명령이 있습니다.

허용하지 않음: /wp/wp-admin/

허용하지 않음: /*?*

첫 번째는 WordPress 관리 페이지(이 기사와 같은 내용을 편집하는 곳)가 크롤링되지 않도록 합니다. 이것은 우리가 검색 순위를 매기는 것을 원하지 않는 페이지이며 비밀번호로 보호되어 있기 때문에 크롤링을 시도하는 것도 Google의 시간 낭비입니다. 두 번째는 블로그 검색 결과 페이지와 같이 물음표가 포함된 URL이 크롤링되는 것을 방지합니다.

명령을 완료했으면 사이트맵에 연결합니다. 이 단계는 기술적으로 필요하지 않지만 웹 스파이더가 사이트에서 가장 중요한 페이지를 가리키도록 하고 사이트 아키텍처를 명확하게 해주기 때문에 권장되는 모범 사례입니다. 다른 줄 바꿈을 삽입한 후 다음을 입력합니다.

사이트맵: http://www.example.com/sitemap.xml

이제 웹 개발자가 파일을 웹사이트에 업로드할 수 있습니다.

WordPress에서 Robots.txt 파일 만들기

WordPress에 대한 관리자 액세스 권한이 있는 경우 Yoast SEO 플러그인 또는 AIOSEO를 사용하여 robots.txt 파일을 수정할 수 있습니다. 또는 웹 개발자가 FTP 또는 SFTP 클라이언트를 사용하여 WordPress 사이트에 연결하고 루트 디렉토리에 액세스할 수 있습니다.

robots.txt 파일을 루트 디렉토리 이외의 다른 위치로 이동하지 마십시오. 일부 출처에서는 이를 하위 디렉터리나 하위 도메인에 배치할 것을 제안하지만 이상적으로는 루트 도메인인 www.example.com/robots.txt에 있어야 합니다.

Robots.txt 파일을 테스트하는 방법

robots.txt 파일을 만들었으므로 이제 테스트할 차례입니다. 다행히도 Google은 Google Search Console의 일부로 robots.txt 테스터를 제공하여 이를 쉽게 만듭니다.

사이트의 테스터를 열면 구문 경고와 논리 오류가 강조 표시됩니다.

특정 Googlebot이 귀하의 페이지를 "보는" 방법을 테스트하려면 페이지 하단의 텍스트 상자에 사이트의 URL을 입력한 다음 오른쪽의 드롭다운에서 다양한 Googlebot 중에서 선택하십시오. "TEST"를 누르면 선택한 봇의 동작을 시뮬레이션하고 지시문이 Googlebot이 페이지에 액세스하는 것을 방해하는지 표시합니다.

Robots.txt의 단점

Robots.txt 파일은 매우 유용하지만 한계가 있습니다.

Robots.txt 파일은 웹사이트의 일부를 보호하거나 숨기는 데 사용되어서는 안 됩니다(그렇게 하면 데이터 보호법을 위반할 수 있음). 내가 당신에게 자신의 robots.txt 파일을 검색하라고 제안했을 때를 기억하십니까? 즉, 귀하뿐만 아니라 누구나 액세스할 수 있습니다. 보호해야 할 정보가 있는 경우 가장 좋은 방법은 특정 페이지나 문서를 암호로 보호하는 것입니다.

또한 robots.txt 파일 지시문은 단순히 요청입니다. Googlebot 및 기타 합법적인 크롤러가 명령을 준수할 것으로 예상할 수 있지만 다른 봇은 단순히 무시할 수 있습니다.

마지막으로 크롤러가 특정 URL을 색인화하지 않도록 요청하더라도 표시되지 않습니다. 다른 웹사이트가 링크될 수 있습니다. 웹사이트의 특정 정보를 공개적으로 볼 수 없도록 하려면 암호로 보호해야 합니다. 색인이 생성되지 않도록 하려면 페이지에 noindex 태그를 포함하는 것이 좋습니다.

기술 SEO에 대해 자세히 알아보기: 체크리스트 다운로드

웹사이트의 SEO를 직접 사용하는 방법에 대한 단계별 지침을 포함하여 SEO에 대해 자세히 알고 싶으십니까? 2022 SEO 체크리스트를 다운로드하여 검색 순위를 높이고 웹사이트에 더 많은 유기적 트래픽을 유도하는 데 도움이 되는 귀중한 리소스가 포함된 포괄적인 할 일 목록을 얻으십시오.

SEO 체크리스트 및 계획 도구

당신은 당신의 SEO에 바늘을 이동할 준비가 되셨습니까? 대화형 체크리스트와 계획 도구를 받고 시작하십시오!