Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/xslt/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/heroku/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
UIMA Ruta输入类型-html_Uima_Ruta - Fatal编程技术网

UIMA Ruta输入类型-html

UIMA Ruta输入类型-html,uima,ruta,Uima,Ruta,我有pdf和word文件,需要用作Ruta的输入。我可以将它们转换为文本文件,但如果我这样做,就会丢失所有的表格和格式。我是否可以在不丢失任何信息的情况下使用它们 谢谢 您需要一个能够将pdf(/doc/docx)转换为html的附加程序。主要有两种不同类型的PDF转换器:使用绝对位置生成漂亮html的转换器和仅依赖html元素和css的转换器。对于处理表,我建议使用后一种。我个人使用商业解决方案,但也有很多好的开源软件,例如 如果您有html,那么您可以应用HtmlAnnotator和Html

我有pdf和word文件,需要用作Ruta的输入。我可以将它们转换为文本文件,但如果我这样做,就会丢失所有的表格和格式。我是否可以在不丢失任何信息的情况下使用它们


谢谢

您需要一个能够将pdf(/doc/docx)转换为html的附加程序。主要有两种不同类型的PDF转换器:使用绝对位置生成漂亮html的转换器和仅依赖html元素和css的转换器。对于处理表,我建议使用后一种。我个人使用商业解决方案,但也有很多好的开源软件,例如


如果您有html,那么您可以应用HtmlAnnotator和HtmlConverter来获取html标记的纯文本和注释,如

中所述谢谢Peter!我可以知道您会推荐哪些商业解决方案用于word和pdf文件吗?我们使用adobe professional,但他们创建的HTML与Ruta不兼容。我对Word/docx的经验已经过时。PDF:我评估了Adobe Pro、Nuance Omnipage、Abbyy finereader amonst等。每种方法都有不同的优点。目前,我使用Datalogics PDF Alchemist。为什么adobe的html不兼容?