如何使用java在不严格的HTML中搜索？_Java_Full Text Search

如何使用java在不严格的HTML中搜索？

java

如何使用java在不严格的HTML中搜索？,java,full-text-search,Java,Full Text Search,我有一个服务，可以连接到远程站点并搜索HTML中的一些元素，输入的数据大约为100-200KB，但是用字符串解析它非常慢。我想要一些关于fast框架的建议。。。因此，任何一个？1）如果您能够负担大约1Mb的内存使用来将html解析为DOM树，那么您可以使用宽容的html解析器（例如，NekoHTML） 2）否则，使用正则表达式提取数据。这将更快，所需内存更少。但是你必须想出一些好的表达式，你将无法提取一些复杂的结构信息。如果你试图解析HTML文档，你可以试试看。HTML不是xml有效的：（我不

我有一个服务，可以连接到远程站点并搜索HTML中的一些元素，输入的数据大约为100-200KB，但是用字符串解析它非常慢。我想要一些关于fast框架的建议。。。因此，任何一个？

1）如果您能够负担大约1Mb的内存使用来将html解析为DOM树，那么您可以使用宽容的html解析器（例如，NekoHTML）

2）否则，使用正则表达式提取数据。这将更快，所需内存更少。但是你必须想出一些好的表达式，你将无法提取一些复杂的结构信息。

如果你试图解析HTML文档，你可以试试看。HTML不是xml有效的：（我不能使用xml解析器。我将尝试使用NekoHTML和XPath。我希望结果是好的。谢谢男士：）