Java 如何快速解析大html文本?

Java 如何快速解析大html文本?,java,html,html-parsing,Java,Html,Html Parsing,我面临的难题是如何在有限的时间内解析大的html文本以获得纯文本和包含的url 我尝试过htmlparser.jar和jsoup,但是随着html文本长度的增长,它们都需要越来越多的时间来解析,最终超过了有限的时间 是否有更好的算法或策略可以更快地解析大型html,从而不会超过有限的时间?快速应该有多快?我们谈论的是什么样的时间限制?这个html的大小是多少?你到底需要提取什么?你真的需要一个解析器吗?或者你能使用一些正则表达式吗?任何策略都会“随着html文本长度的增长,需要越来越多的时间来解

我面临的难题是如何在有限的时间内解析大的html文本以获得纯文本和包含的url

我尝试过htmlparser.jar和jsoup,但是随着html文本长度的增长,它们都需要越来越多的时间来解析,最终超过了有限的时间


是否有更好的算法或策略可以更快地解析大型html,从而不会超过有限的时间?

快速应该有多快?我们谈论的是什么样的时间限制?这个html的大小是多少?你到底需要提取什么?你真的需要一个解析器吗?或者你能使用一些正则表达式吗?任何策略都会“随着html文本长度的增长,需要越来越多的时间来解析”。很抱歉我的错误描述。例如,我想从长度为800000的html中提取纯文本和url,时间限制为100ms。谢谢你的回复@也许你是对的。可以并行解析大型html吗?谢谢你的回复@苏格兰人