Java C/C++;Apache Tika的替代方案

Java C/C++;Apache Tika的替代方案,java,c++,full-text-search,metadata,apache-tika,Java,C++,Full Text Search,Metadata,Apache Tika,我正在为基于Java的ApacheTika框架寻找C/C++替代方案。具体地说,我正在一个框架下搜索文件meata和结构化文本提取。在一些在线搜索和浏览之后,我拥有的最接近的东西是GNU libextractor和一系列单独的文件过滤器,它们解析文档以提取文本数据(pdftoext、xls2cv..等等) 有谁能推荐一个与Apache的Tika相当的好库吗 谢谢 < P> Tika有网络服务器模式,所以你可以使用它启动TIKA,然后从C++代码发送请求?< /P> 或者,Tika具有CLI模式,

我正在为基于Java的ApacheTika框架寻找C/C++替代方案。具体地说,我正在一个框架下搜索文件meata和结构化文本提取。在一些在线搜索和浏览之后,我拥有的最接近的东西是GNU libextractor和一系列单独的文件过滤器,它们解析文档以提取文本数据(pdftoext、xls2cv..等等)

有谁能推荐一个与Apache的Tika相当的好库吗


谢谢

< P> Tika有网络服务器模式,所以你可以使用它启动TIKA,然后从C++代码发送请求?< /P> 或者,Tika具有CLI模式,因此您可以每次启动一个新的Tika进程,并从管道中读取数据。

提供了一个名为的库,供他们的文件索引器内部使用


使用C++、QT5支持大部分基本格式,如-MS-Office -2007、ODF、PDF、图像、视频、音频和电子书。p> 这在理论上是一个不错的想法,但有没有记录在案?了解服务器模式可能需要深入了解代码和讨论组。Tika项目的文档似乎有点问题,这是不幸的,因为它看起来是一个全面的工具。可能现在只在代码中记录,因为它正在积极开发中。如果你感兴趣,最好的办法是在邮件列表上提问,这可能会促使一位负责该邮件的提交人撰写一些文档:)对于将来遇到这个问题的人来说,这个问题——从长远来看,该帖子有望包含正确的答案!这就是我——我会一直关注它,如果我需要写一些文档,我也会把它链接到这里。谢谢链接。在很多地方提出的问题最终会在某个地方找到答案,这是有道理的。注意:这个库只是炮弹其他程序,比如catdoc来获取文本。