Apache 是否有将任何通用文档类型转换为HTML的库/项目

Apache 是否有将任何通用文档类型转换为HTML的库/项目,apache,unix,document,converter,file-type,Apache,Unix,Document,Converter,File Type,是否有任何项目试图为不同的文件类型->HTML或文本构建转换器。文件格式是最常见的格式;它们包括PDF、DOCX、XLSX、PPTX、PS等。我已经知道一些Unix实用程序,如pdftotext。另外,我知道Apache的Tika和POI项目。有没有通用接口?类似于正如您所说,类UNIX系统的原理是使用小型实用程序/过滤器来完成最新的X2HTML、t2html、txt2html、pdftohtml等。。您可以使用shell脚本、perl、python等创建自己的接口,并将这些过滤器用作回调

是否有任何项目试图为不同的文件类型->HTML或文本构建转换器。文件格式是最常见的格式;它们包括PDF、DOCX、XLSX、PPTX、PS等。我已经知道一些Unix实用程序,如pdftotext。另外,我知道Apache的Tika和POI项目。有没有通用接口?类似于

正如您所说,类UNIX系统的原理是使用小型实用程序/过滤器来完成最新的X2HTML、t2html、txt2html、pdftohtml等。。您可以使用shell脚本、perl、python等创建自己的接口,并将这些过滤器用作回调