UIMA Ruta输入类型-html
我有pdf和word文件,需要用作Ruta的输入。我可以将它们转换为文本文件,但如果我这样做,就会丢失所有的表格和格式。我是否可以在不丢失任何信息的情况下使用它们UIMA Ruta输入类型-html,uima,ruta,Uima,Ruta,我有pdf和word文件,需要用作Ruta的输入。我可以将它们转换为文本文件,但如果我这样做,就会丢失所有的表格和格式。我是否可以在不丢失任何信息的情况下使用它们 谢谢 您需要一个能够将pdf(/doc/docx)转换为html的附加程序。主要有两种不同类型的PDF转换器:使用绝对位置生成漂亮html的转换器和仅依赖html元素和css的转换器。对于处理表,我建议使用后一种。我个人使用商业解决方案,但也有很多好的开源软件,例如 如果您有html,那么您可以应用HtmlAnnotator和Html
谢谢 您需要一个能够将pdf(/doc/docx)转换为html的附加程序。主要有两种不同类型的PDF转换器:使用绝对位置生成漂亮html的转换器和仅依赖html元素和css的转换器。对于处理表,我建议使用后一种。我个人使用商业解决方案,但也有很多好的开源软件,例如
如果您有html,那么您可以应用HtmlAnnotator和HtmlConverter来获取html标记的纯文本和注释,如中所述谢谢Peter!我可以知道您会推荐哪些商业解决方案用于word和pdf文件吗?我们使用adobe professional,但他们创建的HTML与Ruta不兼容。我对Word/docx的经验已经过时。PDF:我评估了Adobe Pro、Nuance Omnipage、Abbyy finereader amonst等。每种方法都有不同的优点。目前,我使用Datalogics PDF Alchemist。为什么adobe的html不兼容?