it-swarm.cn

搜索引擎是否会抓取PDF,如果是,那么制作它们时会遵循任何规则

我正在处理的网站上有几百个PDF。我不认为我曾经见过他们中的任何人回来搜索,但直接从网站链接。它们也充满了关键字,因为它们是产品文档。

我们需要做些什么特别的事情才能让Google或其他搜索引擎抓取它们吗?

是否有任何硬性规定制作PDF以帮助谷歌更喜欢它们?例如,我应该通过ghostscript运行它们来清理Adobe在生成期间创建的损坏的PDF标签吗?

22
Ben Hoffman

Google 绝对索引PDF文件 您可以通过在搜索查询中添加filetype:pdf来搜索PDF文件( 示例 )。

我想说要优化PDF的主要工作是如此易于索引将是:

  • 给它一个有意义的文件名
  • 完成所有文档元数据属性(标题,作者,关键字等)
  • 确保PDF由实际文本而非扫描图像组成
  • 确保您拥有正确使用标题的良好内容,就像使用HTML文档一样

有关更多提示,请阅读 优化PDF文档优化搜索引擎PDF的11个技巧

17
Dan Diplo

我不确定其他搜索引擎,但就谷歌而言,主要规则是不通过robots.txt排除它们。

是他们最初宣布支持PDF搜索。

1
intlect

就像制作一个网站兼容不会伤害你的SEO,使你的PDF可访问不会受到伤害。 Adobe内置的辅助功能检查程序远非完美,但至少修复这些区域将帮助您入门。

我可能每4或5分钟花5分钟,主要是我们放在网上的文字PDF。时间会根据页数和这些页面的复杂程度而均匀上升。

假设您有Adobe Acrobat Pro进行编辑:

  • 运行辅助功能完全检查。 (快速检查对我来说毫无意义)
  • 更新文档属性(关键字,主题,语言等)中的元信息
  • 确保添加标签
  • 确保文本标记为文本,图像标记为图像,背景标记为背景
  • 标记无用的绒毛(如装饰或设计)作为背景
  • 为图像添加好的替代文字
  • 确保在阅读顺序中正确订购文本
  • 在内容工具栏中,确保文本不重复或严重错误翻译
  • 在扫描的页面上使用OCR扫描仪

对于像表格这样的高级编辑和非常古怪的Adobe错误,我们使用一个名为CommonLook的插件。 CommonLook完成了工作,但我讨厌它几乎和讨厌Adobe工具一样多。

熟悉Touch Up Reading Order工具,标签工具栏,阅读顺序工具栏和内容工具栏。在上网之前,我的工作需要完全合规的文档,但任何人都可以从一些简单的标记和文档属性中受益。

1
MrChrister