如何使用java在不严格的HTML中搜索?
我有一个服务,可以连接到远程站点并搜索HTML中的一些元素,输入的数据大约为100-200KB,但是用字符串解析它非常慢。我想要一些关于fast框架的建议。。。因此,任何一个?1)如果您能够负担大约1Mb的内存使用来将html解析为DOM树,那么您可以使用宽容的html解析器(例如,NekoHTML)如何使用java在不严格的HTML中搜索?,java,full-text-search,Java,Full Text Search,我有一个服务,可以连接到远程站点并搜索HTML中的一些元素,输入的数据大约为100-200KB,但是用字符串解析它非常慢。我想要一些关于fast框架的建议。。。因此,任何一个?1)如果您能够负担大约1Mb的内存使用来将html解析为DOM树,那么您可以使用宽容的html解析器(例如,NekoHTML) 2) 否则,使用正则表达式提取数据。这将更快,所需内存更少。但是你必须想出一些好的表达式,你将无法提取一些复杂的结构信息。如果你试图解析HTML文档,你可以试试看。HTML不是xml有效的:(我不
2) 否则,使用正则表达式提取数据。这将更快,所需内存更少。但是你必须想出一些好的表达式,你将无法提取一些复杂的结构信息。如果你试图解析HTML文档,你可以试试看。HTML不是xml有效的:(我不能使用xml解析器。我将尝试使用NekoHTML和XPath。我希望结果是好的。谢谢男士:)