it-gundan.com

큰 검색 엔진을 제외한 모든 검색 엔진 차단

Google, Yahoo & Bing (및 Google 이미지와 같은 관련 사이트)을 제외한 모든 검색 엔진이 서버와 대역폭을 많이 소비하지만 트래픽을 발생시키지 않기 때문에 사이트를 크롤링하지 못하도록 차단하고 싶습니다.

이것은 쉽게 이루어 지거나 어려워 집니까? 누군가가 robots.txt 파일에 붙여 넣을 수있는 작은 검색 엔진 목록을 유지 관리하는 것이 좋습니다.

또한 robots.txt 또는 사이트를 무시하고 크롤링을 크롤링하거나 크롤링하지 못하게하는 크롤러를 차단할 수는 없지만 이것이 내가 원하는 것은 아닙니다. 나는 단지 Altavistas, Hotbots, Lycos (이것들조차도 존재한다)와 대학 실험 크롤러가 내 시간을 낭비하지 못하게 막고 싶다.

2
Craig

지금까지 뭐 해봤 어?

웹 마스터 도구 robots.txt 생성기 사용하여 :

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

그러나 나는 그것을 테스트하지 않았습니다.

3
delete

실제로 얼마나 큰 문제입니까?

걱정해야 할 봇은 규칙을 따르지 않고 정기적 인 방문자 인 봇입니다.

검색 엔진 트래픽은 합법적이며 Dan이 지적한 것처럼 Google도 소규모 대학 프로젝트로 시작했습니다. 작은 사람들을 차별하는 것은 공평하지 않으며 장기적으로 현명하지 않을 수도 있습니다.

Kinopiko의 답변이 작동하고 Google의 웹 마스터 도구를 사용하면 robot.txt (사이트 구성, 크롤러 액세스)를 만들고 테스트 할 수 있지만 실제 검색 엔진의 트래픽이 문제인 경우 현재 호스팅 중일 수 있습니다 해결책은 좋은 거래가 아닙니다.

3
Sylver

규칙을 따르지 않는 규칙은 로그에서 찾은 다음 IP로 차단할 수 있습니다.

일반적으로 봇이 사람이 되기에는 너무 빨리 페이지를 읽는다는 사실에 의해 봇을 발견 할 수 있습니다.

1
Sruly