Java 使用Tika解析元标记并从正文中获取HTML内容_Java_Xml Parsing_Apache Tika

Java 使用Tika解析元标记并从正文中获取HTML内容

java

Java 使用Tika解析元标记并从正文中获取HTML内容,java,xml-parsing,apache-tika,Java,Xml Parsing,Apache Tika,我使用伟大的ApacheTika库解析文件。我想用我自己的解析器提取元标记，然后只从-标记中获取HTML格式的内容，并将其存储在数据库中我已经尝试了数小时/数天：-（，但找不到解决方案：当我在-tag之后使用ToHTMLContentHandler时，我会得到一个无效命名空间的异常，没有-tag BodyContentHandler只返回不带HTML标记的正文文本 tika应用程序似乎使用了一个TransformerHandler来获取HTML（我以前从未听说过这种处理程序）。我可以用它从

我使用伟大的ApacheTika库解析文件。我想用我自己的解析器提取元标记，然后只从

-标记中获取HTML格式的内容，并将其存储在数据库中

我已经尝试了数小时/数天：-（，但找不到解决方案：

当我在
-tag之后使用
```
ToHTMLContentHandler
```
时，我会得到一个无效命名空间的异常，没有
-tag
```
BodyContentHandler
```
只返回不带HTML标记的正文文本
```
tika应用程序
```
似乎使用了一个
```
TransformerHandler
```
来获取HTML（我以前从未听说过这种处理程序）。我可以用它从
-标记中获取HTML并自己解析元标记吗？这是一种比使用
```
到HTMLContenthandler
```
更好的方法吗

检查以下链接是否对您有所帮助

谢谢，我不知道这些有趣的文章，但它们并不能解决我的问题。当我伪造

-start元素时，我使用了

TransformerHandler

，它在

标记后也可以工作。很高兴看到这里！如果你有问题的解决方案，你可以在这里发布，并将此线程标记为“A”所以，其他有类似问题的人可以从这里获得参考。很难发布我的解决方案的通用版本，这只是一个黑客。如果其他人有类似问题，我建议他查看

tika应用程序的源代码，并阅读更多有关XSLT处理的信息。