Parsing Tika和解析具有行和列跨度的数据

Parsing Tika和解析具有行和列跨度的数据,parsing,xhtml,apache-tika,Parsing,Xhtml,Apache Tika,我在过去的两天里一直在寻找这个,但是很难找到。但这里的问题是,当你在谷歌搜索任何单词时,不同的和变体的文档都会显示这些词是不相关的 问题是:是否可以使用tika apache解析器从不同类型的文档中检索或获取解析数据,其中列跨度和行跨度为xhtml。如果是,是否有教程或任何文档可以帮助我完成这项工作。不幸的是,没有,开箱即用 您需要扩展用于解析电子表格的基本库,以便将这些信息输入到Tika输出中 另一种方法是使用Tika将愉快地解析一系列包含文件格式的表,并将该表作为XHTML提供给您。这就是你

我在过去的两天里一直在寻找这个,但是很难找到。但这里的问题是,当你在谷歌搜索任何单词时,不同的和变体的文档都会显示这些词是不相关的


问题是:是否可以使用tika apache解析器从不同类型的文档中检索或获取解析数据,其中列跨度和行跨度为xhtml。如果是,是否有教程或任何文档可以帮助我完成这项工作。

不幸的是,没有,开箱即用

您需要扩展用于解析电子表格的基本库,以便将这些信息输入到Tika输出中


另一种方法是使用

Tika将愉快地解析一系列包含文件格式的表,并将该表作为XHTML提供给您。这就是你想要的吗?如果没有,您是否可以编辑您的问题以使其更清楚?Tika将很高兴地将Excel电子表格转换为基于表格的XHTML!是什么让你认为它不会呢?同意,Tika能够呈现简单的表格,其中单元格不跨多行或多列。在我们的实验中,一旦引入了这一方面,就行/列的布局而言,产生的XHTML与原始电子表格失去了保真度,这对我们的目的很重要。考虑到蒂卡的工作是从文件中提取文本——老实说,我们要求的文本太多了,因此,我们转向了其他机械化的文本。您是否想过提出增强请求?理想情况下包括一个小样本文件和一个失败的单元测试?如果没有人指出问题,那么项目很可能永远不会意识到!这不是问题。我们希望使用Tika的目的不是故意的(IMHO)。它仍然值得提出。Tika社区可以决定它是否合适,但是如果没有报告和显示它的文件,那里甚至没有人会知道!