it-gundan.com

봇을 인덱싱하는 데 사용되는 IP 주소의 인덱스가 있습니까?

트래픽이 최소 인 페이지가 있지만 적중시 정적 알림을 설정합니다. 이제 봇이 무시되기를 원하므로 지금하는 것은 "알림 없음"목록에 봇을 추가하는 것입니다.

인덱싱 로봇이 사용하는 IP 주소의 참조 목록이 있습니까?

예를 들어 다음과 같은 목록 :

$no_mail = array(
    '67.195.115.105', // yahoo bot
    '207.46.199.50', // msn bot
    '61.135.249.246', //youdao bot
    '207.46.199.32', // msn bot
);
7
artlung

http://www.user-agents.org/ 당신이 찾고있는 것일 수 있습니다.

5

모든 검색 엔진은 수많은 IP 주소를 사용합니다. 대신 사용자 에이전트 문자열을보고 싶을 것입니다. 모든 크롤러 목록을 보려면 이 페이지 를 확인하십시오.

PHP에서는 다음과 같이 작동합니다.

$bots = array( 'googlebot', 'msnbot', 'Slurp', 'mediapartners-google' );
$isRobot = false;
$ua = strtolower( $_SERVER['HTTP_USER_AGENT'] );

foreach ( $bots as $bot ) {
  if ( strpos( $ua, $bot ) !== false )
    $isRobot = true;
}

if ( !$isRobot ) {
  // do your thing
}
2
DisgruntledGoat

왜 이것을 robots.txt 파일에 넣지 않습니까?

User-agent: *
Disallow: /path/page-you-dont-want-crawled.html

그렇게하면 봇을 계속 사냥 할 필요가 없습니다. Google, Yahoo 및 MSN에 수백 개의 봇이 있고 항상 다른 IP 주소와 새로운 봇이 생성되는 것은 아무 것도 없습니다. 위의 추가는 모든 번거 로움없이 파일 페이지에 대해 동일하게 수행되어야합니다.

1
Ben Hoffman

http://ekstreme.com/phplabs/search-engine-authentication 에 봇을 인식하는 코드가 있으며 http://www.google의 Google 도움말 센터 기사) .com/support/webmasters/bin/answer.py? answer = 8055 Googlebot 확인). http://ekstreme.com/phplabs/crawlercontroller.php 에는 크롤러를 인식하는 데 사용할 수있는 코드가 있습니다.이 코드는 "좋은"크롤러 및 스팸성 코드를 쉽게 인식하도록 확장 할 수 있습니다. 지금 인식합니다.

일반적으로 일부 사용자 에이전트는 일반 사용자가 사용하고 일부 IP 주소는 공유 할 수 있으므로 사용자 에이전트 이름 또는 IP 주소에만 의존하지 않는 것이 중요합니다.

즉, 이메일 알림에만이 기능을 사용하는 경우 사용자 에이전트에서 알려진 간단한 패턴을 무시하고 오 탐지 및 오 탐지로 진행됩니다. 사이트에서 활성화 된 가장 일반적인 크롤러의 로그 파일을 확인하고 사용자 에이전트 이름의 고유 한 부분 만 확인하십시오 ( "googlebot | Slurp | msnbot | bingbot"을 사용하는 것으로 충분할 수 있음).

1
John Mueller

봇 필터링에 대해 진지한 경우 한 가지 방법 또는 다른 방법으로 로컬 목록도 구현해야합니다. 때로는 무작위로 보이는 IP가 내가 관리하는 웹 사이트에 집착하는 경우가 있습니다. 실험적으로 보이지만 일반적으로 인식되지 않는 봇은 제대로 구현되지 않은 대학교 프로젝트입니다.

또한 : Cuil 봇 (Twiceler)은 악마입니다.

1
Thomas

Useragent에 액세스 할 수 있습니까? 그것은 실제 사용자와 봇이 무엇인지를 해결하는 더 나은 방법으로 보입니다. 주소를 변경하는 합법적 크롤러에게는 더 탄력적이며, 봇으로 위장하는 것이 있으면 이메일을 받고 싶지 않을 것입니다 어쨌든.

0
Cebjyre

이 시도...

$UI_Agent = $_SERVER['HTTP_USER_AGENT'];

if(eregi("bot", $UI_Agent)) {
    // do your bot stuff here
}

HTH, 버드

0
Bud