it-gundan.com

검색 엔진이 PDF를 크롤링하고 작성시 준수해야 할 규칙이 있습니까?

내가 작업하는 웹 사이트에는 수백 개의 PDF가 있습니다. 나는 그들이 검색에서 돌아 오는 것을 본 적이 없다고 생각하지만 외부 사이트에서 직접 연결되어 있습니다. 제품 문서이므로 키워드로 가득합니다.

Google이나 다른 검색 엔진이 크롤링하도록하기 위해 특별한 조치가 필요합니까?

Google이 더 좋아하는 PDF를 만드는 데 도움이되는 강력하고 빠른 규칙이 있습니까? 예를 들어, 생성 중에 Adobe가 생성 한 깨진 PDF 태그를 정리하기 위해 고스트 스크립트를 통해 실행해야합니까?

22
Ben Hoffman

Google 확실히 PDF 파일 색인 검색 쿼리에 filetype:pdf를 추가하여 PDF 파일 만 검색 할 수 있습니다 ( ).

PDF를 최적화하기 위해 수행해야 할 주요 작업은 다음과 같습니다.

  • 의미있는 파일 이름을 지정하십시오
  • 모든 문서 메타 데이터 속성 (제목, 저자, 키워드 등)을 완성하십시오
  • PDF이 (가) 실제 텍스트로 구성되어 있고 스캔 이미지가 아닌지 확인하십시오
  • HTML 문서와 마찬가지로 제목을 올바로 사용하여 좋은 콘텐츠를 확보하십시오.

더 많은 팁을 보려면 최적화 PDF 문서검색 엔진 용 PDF를 최적화하기위한 11 가지 팁 을 읽으십시오.

17
Dan Diplo

다른 검색 엔진에 대해서는 잘 모르겠지만 Google이 우려하는 한 robots.txt를 통해 제외하지 않는 것이 기본 규칙입니다.

This 는 PDF 검색을 지원한다는 최초의 발표였습니다.

1
intlect

웹 사이트를 준수하는 것이 SEO를 해치지 않는 것처럼 PDF에 액세스 할 수있게하는 것은 아프지 않습니다. Adobe 기본 제공 접근성 검사기는 완벽하지는 않지만 최소한 해당 영역을 수정하면 시작할 수 있습니다.

아마 4 ~ 5 분마다 5 분을 보내는데, 대부분 온라인에 넣은 텍스트 PDF입니다. 페이지 수와 해당 페이지의 복잡도에 따라 시간이 고르게 올라갑니다.

편집을 수행 할 Adobe Acrobat Pro가 있다고 가정합니다.

  • 내게 필요한 옵션 전체 검사를 실행하십시오. (빠른 점검은 나에게 무의미합니다)
  • 문서 속성 (키워드, 주제, 언어 등)에서 메타 정보 업데이트
  • 태그가 추가되었는지 확인
  • 텍스트에 텍스트, 이미지로 이미지, 배경으로 배경으로 태그가 지정되어 있는지 확인하십시오.
  • 쓸모없는 보풀 (예 : 장식 또는 디자인)을 배경으로 태그 지정
  • 이미지에 좋은 대체 텍스트를 추가하십시오
  • 읽기 순서에서 텍스트가 올바르게 정렬되어 있는지 확인하십시오.
  • 컨텐츠 도구 모음에서 텍스트가 복제되거나 잘못 번역되지 않았는지 확인하십시오.
  • 스캔 한 페이지에서 OCR 스캐너 사용

테이블과 같은 고급 편집 및 정말 이상한 Adobe 오류를 위해 CommonLook이라는 플러그인을 사용합니다. CommonLook은 작업을 수행하지만 Adobe 도구를 싫어하는 것만 큼 싫어합니다.

Touch Up Reading Order 도구, Tags 도구 모음, Reading Order 도구 모음 및 Content 도구 모음에 익숙해 지십시오. 저의 직업은 웹을 사용하기 전에 완전히 호환되는 문서가 필요하지만, 간단한 태깅 및 문서 속성의 이점을 누릴 수 있습니다.

1
MrChrister