it-gundan.com

"허용 안 함"외에 인터넷 아카이브를 제어 할 수 있습니까?

사이트에서 Internet Archive 아카이브를 제어하는 ​​메커니즘이 있습니까? 모든 페이지를 허용하지 않는 것으로 알고 있습니다 추가 할 수 있음 :

User-agent: ia_archiver
Disallow: /
  1. 봇에게 한 달에 한 번 또는 1 년에 한 번 내 사이트를 크롤링하고 싶다고 말할 수 있습니까?

  2. 자산을 가져 오지 않아 사이트/페이지가 올바르게 보관되지 않거나 보관되지 않습니다. Internet Archive 봇에게 사이트를 가져갈 때 필요한 자산을 알려주는 방법이 있습니까?

13
artlung

참고 :이 답변은 점점 오래되었습니다.

Internet Archive의 웹 컬렉션에 가장 큰 기여를 한 사람은 Alexa Internet입니다. Alexa가 목적을 위해 크롤링하는 자료는 몇 달 후에 IA에 기증되었습니다. 질문에 언급 된 허용 안 함 규칙을 추가해도 크롤링에는 영향을 미치지 않지만 Wayback은 '역사적으로'존중합니다 (액세스 거부, 자료는 여전히 아카이브에 있음). 자료를 실제로 보관하지 않으려면 Alexa의 로봇을 제외해야합니다 인터넷 보관소).

Alexa의 크롤링에 영향을 줄 수있는 방법이있을 수 있지만 그 점에 익숙하지 않습니다.

IA는 자체 크롤러 (Heritrix)를 개발 한 후 자체 크롤링을 시작했지만 크롤링 대상이되는 경향이 있습니다 (그들은 의회 도서관에서 선거 크롤링을 수행하고 프랑스 및 호주 등에서 국가 크롤링을 수행했습니다). Google과 Alexa가 수행하는 지속적인 세계 규모의 크롤링에는 관여하지 않습니다. IA의 최대 크롤링은 20 억 페이지를 크롤링하는 특수 프로젝트였습니다.

이러한 크롤링은 프로젝트 특정 요소에서 파생 된 일정에 따라 운영되므로 사이트를 방문하는 빈도 나 if 사이트를 방문하는 빈도에 영향을 줄 수 없습니다.

IA가 사이트를 크롤링하는 방법과시기에 직접 영향을 미치는 유일한 방법은 Archive-It 서비스를 사용하는 것입니다. 이 서비스를 사용하면 맞춤 크롤링을 지정할 수 있습니다. 결과 데이터는 궁극적으로 IA의 웹 컬렉션에 통합됩니다. 그러나 이것은 유료 구독 서비스입니다.

8
Kris

대부분의 검색 엔진은 "Crawl-delay"지시문을 지원하지만 IA가 지원하는지 잘 모르겠습니다. 그래도 시도해 볼 수 있습니다.

User-agent: ia_archiver
Crawl-delay: 3600

이는 요청 간 지연을 3600 초 (즉, 1 시간) 또는 매월 ~ 700 건으로 제한합니다.

# 2는 가능하지 않다고 생각합니다. IA 봇은 자산을 적절한 시점에 가져옵니다. 너무 많은 스토리지를 사용하지 않도록 파일 크기 제한이있을 수 있습니다.

2
DisgruntledGoat