Java 使用Tika解析元标记并从正文中获取HTML内容

Java 使用Tika解析元标记并从正文中获取HTML内容,java,xml-parsing,apache-tika,Java,Xml Parsing,Apache Tika,我使用伟大的ApacheTika库解析文件。我想用我自己的解析器提取元标记,然后只从-标记中获取HTML格式的内容,并将其存储在数据库中 我已经尝试了数小时/数天:-(,但找不到解决方案: 当我在-tag之后使用ToHTMLContentHandler时,我会得到一个无效命名空间的异常,没有-tag BodyContentHandler只返回不带HTML标记的正文文本 tika应用程序似乎使用了一个TransformerHandler来获取HTML(我以前从未听说过这种处理程序)。我可以用它从

我使用伟大的ApacheTika库解析文件。我想用我自己的解析器提取元标记,然后只从
-标记中获取HTML格式的内容,并将其存储在数据库中

我已经尝试了数小时/数天:-(,但找不到解决方案:

  • 当我在
    -tag之后使用
    ToHTMLContentHandler
    时,我会得到一个无效命名空间的异常,没有
    -tag
  • BodyContentHandler
    只返回不带HTML标记的正文文本
  • tika应用程序
    似乎使用了一个
    TransformerHandler
    来获取HTML(我以前从未听说过这种处理程序)。我可以用它从
    -标记中获取HTML并自己解析元标记吗?这是一种比使用
    到HTMLContenthandler
    更好的方法吗

检查以下链接是否对您有所帮助


谢谢,我不知道这些有趣的文章,但它们并不能解决我的问题。当我伪造
-start元素时,我使用了
TransformerHandler
,它在
标记后也可以工作。很高兴看到这里!如果你有问题的解决方案,你可以在这里发布,并将此线程标记为“A”所以,其他有类似问题的人可以从这里获得参考。很难发布我的解决方案的通用版本,这只是一个黑客。如果其他人有类似问题,我建议他查看
tika应用程序的源代码,并阅读更多有关XSLT处理的信息。