开源项目从主流文档中提取内容的开源工具比较和选择

santochancf · 2015年10月31日 · 5023 次阅读

在 Fiberead，需要将一些常见格式的文档（如 Word，PDF 等）中的文字提取出来，方便进一步分析和处理。刚开始处理的文档很少，就「Quick and Dirty」的使用 OpenOffice 的headless模式来做了转换。随着业务扩展，需要处理的文档越来越多，大量文档的的并行处理会启动很多 OpenOffice 的进程，占用过多的系统资源，从而导致一些提取工作失败。虽然通过重试机制还可以保证处理完成，但这种方案明显已经不稳定了。所以花了一些时间进行改进了一下文本提取任务。这里顺便比较一下常见的开源工具。

OpenOffice/LibreOffice

OpenOffice/LibreOffice（后简称为OpenOffice）是最初的选择方案。主要一个优势是可以处理Doc（Word 97）格式的文档。OpenOffice 使用headless模式可以一个命令完成文件转换，但每次都要启动一下 OpenOffice 进程。通过阅读文档发现，OpenOffice 是可以通过服务端模式启动，监听一个端口来处理转换请求。如：

/Applications/LibreOffice.app/Contents/MacOS/soffice --headless --accept="socket,host=127.0.0.1,port=8100;urp;"

但是接口方式是UNO. 然后原生 Language Binding 里没有 Ruby。这样就无法通过 Ruby 直接调用这个服务。使用 Ruby 实现一个又会花费很多时间。

由于支持 Python，所以旧有 Python 实现的UnoConv。这个工具封装了一下监听，比较方便调用：

unoconv --listener
unoconv -f txt test.doc

这样可以通过启动这个服务，通过调用unoconv命令完成转换。基于 OpenOffice 的处理办法都有一个通用的问题，就是输出无法支持 STDOUT，使用 Ruby 做 Wrapper 时就还需要创建读取临时文件来处理。

Tika

Apache Tika (后简称 Tika) 是一个 Java 实现的文档文本提取工具，也支持提取一些文档的的元数据。Tika 可以支持更多的格式，包括并不限于：MS Office 的各种格式，iWorks，CAD，甚至图片和视频的文本也可以提取。Tika 是一个 Java Library, 所以可以通过程序调用。同时也支持命令进行转换，如： java -jar tika.jar -t test.doc

同时还单独提供了 Server 版，可以通过 HTTP 的接口转换文档：

java -jar ./tika-server-1.11.jar
curl -T test.docx http://localhost:9998/tika --header "Accept: text/plain

这种方式对 Ruby 来说更加友好。可以方便使用以下代码完成转换

require 'curb'

c = Curl::Easy.new("http://localhost:9998/tika")
c.headers["Accept"] = "text/plain"
c.http_put(File.open(file_path, econding: 'UTF-8').read)
c.body_str.force_encoding('UTF-8')

简单比较

名称	调用方式	运行内存占用	安装文件大小	性能比较
OpenOffice	Ruby -> Python process -> OpenOffice UNO	40MB + 19MB*N(OpenOfficePython 进程)	约 1GB	1000 20KB Doc 文件耗时 4 秒
Apache Tika	Ruby -> HTTP PUT Request	100MB	56MB	1000 20KB Doc 文件耗时 160 秒

结论

使用 Apache Tika 可以快速完成升级，并且便于后面扩展。所以可以做一个 Upstart Script，方便将 Tika 运行为服务：

description     "Apache Tika Server"

start on filesystem or runlevel [2345]
stop on shutdown

respawn
respawn limit 3 12

exec java -jar /opt/tika/tika-server-1.11.jar

Gist

1 个赞

暂无回复。

需要登录后方可回复, 如果你还没有账号请注册新账号

1 个赞

共收到 0 条回复

收到新回复，点击立即加载

开源项目 从主流文档中提取内容的开源工具比较和选择

开源项目 从主流文档中提取内容的开源工具比较和选择

OpenOffice/LibreOffice

Tika

简单比较

结论

开源项目从主流文档中提取内容的开源工具比较和选择

开源项目从主流文档中提取内容的开源工具比较和选择