Java 使用Tika解析元标记并从正文中获取HTML内容
我使用伟大的ApacheTika库解析文件。我想用我自己的解析器提取元标记,然后只从Java 使用Tika解析元标记并从正文中获取HTML内容,java,xml-parsing,apache-tika,Java,Xml Parsing,Apache Tika,我使用伟大的ApacheTika库解析文件。我想用我自己的解析器提取元标记,然后只从-标记中获取HTML格式的内容,并将其存储在数据库中 我已经尝试了数小时/数天:-(,但找不到解决方案: 当我在-tag之后使用ToHTMLContentHandler时,我会得到一个无效命名空间的异常,没有-tag BodyContentHandler只返回不带HTML标记的正文文本 tika应用程序似乎使用了一个TransformerHandler来获取HTML(我以前从未听说过这种处理程序)。我可以用它从
-标记中获取HTML格式的内容,并将其存储在数据库中
我已经尝试了数小时/数天:-(,但找不到解决方案:
- 当我在
-tag之后使用
时,我会得到一个无效命名空间的异常,没有ToHTMLContentHandler
-tag
只返回不带HTML标记的正文文本BodyContentHandler
似乎使用了一个tika应用程序
来获取HTML(我以前从未听说过这种处理程序)。我可以用它从TransformerHandler
-标记中获取HTML并自己解析元标记吗?这是一种比使用
更好的方法吗到HTMLContenthandler
谢谢,我不知道这些有趣的文章,但它们并不能解决我的问题。当我伪造
-start元素时,我使用了TransformerHandler
,它在
标记后也可以工作。很高兴看到这里!如果你有问题的解决方案,你可以在这里发布,并将此线程标记为“A”所以,其他有类似问题的人可以从这里获得参考。很难发布我的解决方案的通用版本,这只是一个黑客。如果其他人有类似问题,我建议他查看tika应用程序的源代码,并阅读更多有关XSLT处理的信息。