之前软言软语曾介绍过几款文件内容搜索工具,请参看 “[Win]批量搜索与替换的开源软件:grepWin & RegexSearch” & “[Win]FileSeek:能够搜索文件内容的搜索工具”。但这几款软件基本上都不支持诸如 Word 文件之类的文档文件内容的搜索,算是比较遗憾的地方。而 DocSearcher 则是一款专门用来搜索文档文件内容的便利工具,基于开源的 Lucene,POI Apache APIs 及 PDF Box API。
| 软件名称 | DocSearcher |
|---|---|
| 授权 / 价格 | 开源软件 / 免费 |
| 系统平台 | 所有 |
| 运行环境 | 所有 |
| 网址 | 官方网站 |
DocSearcher 是一款专门搜索文档文件的工具,由于采用开源的 Lucene,POI Apache APIs 以及 PDF Box API,因此能够搜索 HTML,MS Word,MS Excel,RTF,PDF,OpenOffice(及 Star Office) 文档以及文本文档内容的能力。 其他文件格式目前则不支持,也许随着内置搜索引擎的改进,更多的格式将会包含其中。
使用说明
可以以关键词(keywords)或短语(phrases)来构建你的搜索,点击 “search” 即可获得搜索结果。
搜索结果将会显示在一个表格中,单击结果中的文件可以在标准网页浏览器中打开。
想要返回搜索结果,只需要单击搜索结果图标 ()。
DocSearcher 内置 4 种搜索方式,包括:关键词(Keyword),短语(Phrase),逻辑( Boolean),以及通配符(Wild Card)。以下为各个搜索方式的举例:
搜索示例 搜索类型 搜索说明 电子证券 交易处理 关键词(keywords)搜索 搜索含有 “电子证券” 或 “交易处理” 的文档。 电子证券 交易处理 短语(phrase)搜索 搜索含有 “电子证券 交易处理”短语的文档,及 “电子证券” 与 “交易处理”作为整体是连续在一起出现的,当然中间有空格。 "电子证券" - "交易处理" 逻辑(boolean)搜索 包含 “电子证券” 但不包含 “交易处理” 的文档。 电子* 通配符(wild card)搜索 所有以电子开头的词,例如电子文档,电子交易等。
(注:似乎对中文支持不是很理想)
使用步骤
1. 首先确认你的系统已经安装了 JRE。
2. 运行 DocSearch.jar 后即可启动,界面如下。
3. 在搜索 之前,首先要建立索引。打开菜单 “Index -> Create new index”。
如果所示,首先在最上面文本框中输入该索引的名称(此处不建议使用中文,经软言软语测试,此处若使用中文第一次使用无问题,当重启程序后变成无法识别的问号了),然后在下面选择你要索引的目录,该目录即包含你要搜索的文档文件。然后在下面 “Search Depth” 中选择你要索引的目录深度,0 表示不索引子目录。“Searched by default” 默认为选择,表示搜索时使用该索引。
另外,你还可以配置 “Advanced Options” 选项卡来获得索引 Web Server,CD ROM 的能力,此处不做深入讨论。“Update” 选项卡出可以选择何时更新该索引。“Archiving” 选项卡则可以将你的索引压缩存档,作为备份或者导出功能来使用。
配置完后,单击 “Add New Index” 开始创建索引。索引结束后,弹出如下窗口显示统计信息。
4. 在主界面的 General options 选项卡中,可以选择搜索的类型(Type of search):关键字(Keywords)或短语(Phrase),搜索范围(Search in)可以为:正文与标题(body and title),标题(title),摘要(summary),正文(body)以及关键词(keywords)。在此处做搜索实验 。
索引目录内容为如下所示:
“ 论文” 文件夹中包含一个二级子文件夹以及一个名为 “第三方支付平台探讨.doc” 的 MS Word 文件。
(1). 在正文与标题中搜索关键字 “电子证券 交易处理”,结果如下:
(2). 在正文中搜索短语 “电子证券 交易处理”,结果如下所示:
从上图可以看到无法以短语形式搜索出 “电子证券 交易处理”。正文内容节选如下:
以上仅为不完全的测试,作为一个使用方法的入门参考。不过,经过几次使用发现,有部分情况下无法正确搜索出内容,没发现具体是因为什么,可能是对中文支持还不完美。不管怎样,大部分情况下使用效果还不错,如果有兴趣可以尝试一下。相信以后的升级会解决一些问题,带来更好的搜索效果。









用电脑主要就是用软件,很多人都花费大量时间来找寻能够为工作和生活提供便利的软件。有的人可能跟软言软语一样,不只在一个系统平台上使用电脑,这个时候就会涉及到跨平台软件的使用,为此软言软语主要致力于跨平台软件解决方案的研究。不管软件本身是单平台还是跨平台,都希望大家在此能够找到适合自己的解决方案。也欢迎大家分享自己在软件方面的经验,推荐好用的软件或Web给软言软语。


[...] This post was mentioned on Twitter by Bai Hua, 软言软语. 软言软语 said: DocSearcher:文档文件内容搜索工具,可以搜索 MS Word,Excel,PDF,OpenOffice 等文档格式内容。http://goo.gl/ZMHN [...]
确实很徐奥这样的工具呢,以前用的几个都是只能查找纯文本的……word这种rtf格式的基本上都不行
这个目前用起来还不错,可以试试。
很实用的软件。
很久不见新文章了啊。
最近没看到太好的东西,也就没有写什么,宁缺勿滥吗:)
推友@jay_lolo前来围观.
很不错的利器.谢谢!!
感谢围观。
这个工具不错,站也很好关注你
谢谢
我在使用了,java的反映速度确实有些慢,在select folder/files的时候,双击一个文件夹会变成改名的状态,经常需要点击两三次。另外,我搜索php文件貌似不成功……
php文件成功了–# 自言自语了,在索引之后搜索速度非常之快啊……
基于索引的搜索方式应该会很快。php文件也是文本格式,搜索上应该不存在问题。