Parsing Tika和解析具有行和列跨度的数据_Parsing_Xhtml_Apache Tika

Parsing Tika和解析具有行和列跨度的数据

parsing

Parsing Tika和解析具有行和列跨度的数据,parsing,xhtml,apache-tika,Parsing,Xhtml,Apache Tika,我在过去的两天里一直在寻找这个，但是很难找到。但这里的问题是，当你在谷歌搜索任何单词时，不同的和变体的文档都会显示这些词是不相关的问题是：是否可以使用tika apache解析器从不同类型的文档中检索或获取解析数据，其中列跨度和行跨度为xhtml。如果是，是否有教程或任何文档可以帮助我完成这项工作。不幸的是，没有，开箱即用您需要扩展用于解析电子表格的基本库，以便将这些信息输入到Tika输出中另一种方法是使用Tika将愉快地解析一系列包含文件格式的表，并将该表作为XHTML提供给您。这就是你

我在过去的两天里一直在寻找这个，但是很难找到。但这里的问题是，当你在谷歌搜索任何单词时，不同的和变体的文档都会显示这些词是不相关的

问题是：是否可以使用tika apache解析器从不同类型的文档中检索或获取解析数据，其中列跨度和行跨度为xhtml。如果是，是否有教程或任何文档可以帮助我完成这项工作。

不幸的是，没有，开箱即用

您需要扩展用于解析电子表格的基本库，以便将这些信息输入到Tika输出中

另一种方法是使用

Tika将愉快地解析一系列包含文件格式的表，并将该表作为XHTML提供给您。这就是你想要的吗？如果没有，您是否可以编辑您的问题以使其更清楚？Tika将很高兴地将Excel电子表格转换为基于表格的XHTML！是什么让你认为它不会呢？同意，Tika能够呈现简单的表格，其中单元格不跨多行或多列。在我们的实验中，一旦引入了这一方面，就行/列的布局而言，产生的XHTML与原始电子表格失去了保真度，这对我们的目的很重要。考虑到蒂卡的工作是从文件中提取文本——老实说，我们要求的文本太多了，因此，我们转向了其他机械化的文本。您是否想过提出增强请求？理想情况下包括一个小样本文件和一个失败的单元测试？如果没有人指出问题，那么项目很可能永远不会意识到！这不是问题。我们希望使用Tika的目的不是故意的（IMHO）。它仍然值得提出。Tika社区可以决定它是否合适，但是如果没有报告和显示它的文件，那里甚至没有人会知道！