it-gundan.com

몇 개의 디렉토리를 제외하고 사이트를 크롤링 할 수 있도록 robots.txt를 어떻게 구성합니까?

Robots.txt가 검색 엔진이 사이트를 통과 할 수 있도록하기위한 가장 좋은 초기 또는 일반 설정은 무엇입니까?

항상 사용해야하는 일반 설정이 있습니까?

7
Mike

Google 웹 마스터 도구에는 '크롤러 액세스'라는 섹션이 있습니다.

이 섹션에서는 robots.txt를 매우 쉽게 만들 수 있습니다.

예를 들어 블로그를 제외한 모든 것을 test robot.txt라는 폴더에 허용하려면

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

특별한 요구 사항이 없다면 최상의 구성은 아무것도 아닙니다. (404가 오류 로그를 채우지 않도록 빈 파일을 추가하고 싶을 수도 있습니다.)

사이트에서 디렉토리를 차단하려면 'Disallow'절을 사용하십시오.

User-agent: *
Disallow: /example/

이전 'Disallow'절을 무시하는 'Allow'절도 있습니다. 따라서 'example'폴더를 허용하지 않은 경우 'example/foobar'와 같은 폴더를 허용 할 수 있습니다.

Robots.txt는 원하는 경우 해당 페이지를 방문하는 사람을 막지 못하므로 일부 페이지를 비밀로 유지해야하는 경우 일종의 인증 (예 : 사용자 이름/암호) 뒤에 숨겨야합니다.

많은 robots.txt 파일에있을 수있는 다른 지시문은 '사이트 맵'으로, XML 사이트 맵이있는 경우이를 지정합니다. 자체적으로 줄에 넣으십시오.

Sitemap: /sitemap.xml

official robots.txt 사이트 에는 다양한 옵션에 대한 자세한 정보가 있습니다. 그러나 일반적으로 대부분의 사이트에는 구성이 거의 필요하지 않습니다.

1
DisgruntledGoat

robots.txt 파일 에 대해 알아야 할 모든 것이 있습니다.

0
Jason