it-swarm.cn

什么是理想的自托管搜索引擎?

我有一个内部(内部网)站点,由几个博客和论坛,数百个静态页面,大量PDF文件和其他几种文档类型组成。它在过去几年中松散地粘在一起,现在我的工作就是保持它。

我正在寻找一个我可以自己主持的搜索引擎,理想情况是:

  1. 如果给定要搜索的数据库信息和表,则允许直接搜索博客/论坛数据库。

  2. 处理大多数文本文档(PDF/DOC/ODF)

  3. 是开源的,或者允许在购买后访问源代码

对我来说写什么语言或平台并不重要。通常,我只是使用Google网站搜索,但这不是内联网的选项。

11
Tim Post

退房Lucene

写在 Java 也可用于 .net框架

这是一篇CodeProject文章,解释了它是如何工作的以及它是如何使用的。 http://www.codeproject.com/KB/library/IntroducingLucene.aspx

7
jessegavin

我以前用过 Sphider 并且给我留下了深刻的印象。

2
Darryl Hein

SearchBlox 基于Lucene可能能够满足您的需求。它是免费的,配有履带式。

2
user5213

通常情况下,我只是使用Google网站搜索,但这不是内联网的选项。

实际上Google搜索设备相当于Google网站搜索内部网。但是,这不是开源的(谷歌网站搜索也不是,如果你没有注意到。)

0
delete