Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/328.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用java在不严格的HTML中搜索?_Java_Full Text Search - Fatal编程技术网

如何使用java在不严格的HTML中搜索?

如何使用java在不严格的HTML中搜索?,java,full-text-search,Java,Full Text Search,我有一个服务,可以连接到远程站点并搜索HTML中的一些元素,输入的数据大约为100-200KB,但是用字符串解析它非常慢。我想要一些关于fast框架的建议。。。因此,任何一个?1)如果您能够负担大约1Mb的内存使用来将html解析为DOM树,那么您可以使用宽容的html解析器(例如,NekoHTML) 2) 否则,使用正则表达式提取数据。这将更快,所需内存更少。但是你必须想出一些好的表达式,你将无法提取一些复杂的结构信息。如果你试图解析HTML文档,你可以试试看。HTML不是xml有效的:(我不

我有一个服务,可以连接到远程站点并搜索HTML中的一些元素,输入的数据大约为100-200KB,但是用字符串解析它非常慢。我想要一些关于fast框架的建议。。。因此,任何一个?

1)如果您能够负担大约1Mb的内存使用来将html解析为DOM树,那么您可以使用宽容的html解析器(例如,NekoHTML)


2) 否则,使用正则表达式提取数据。这将更快,所需内存更少。但是你必须想出一些好的表达式,你将无法提取一些复杂的结构信息。

如果你试图解析HTML文档,你可以试试看。HTML不是xml有效的:(我不能使用xml解析器。我将尝试使用NekoHTML和XPath。我希望结果是好的。谢谢男士:)