Java jsoup巨大的html下载

Java jsoup巨大的html下载,java,jsoup,Java,Jsoup,我试图下载一个HTML文件,它实际上是一个大约有6000行的表,所以我写了这段代码 Document _DOM=Jsoup.connect(_EXACT1_URL) .cookies(_COOCKIES) .timeout(70000) .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0") .g

我试图下载一个HTML文件,它实际上是一个大约有6000行的表,所以我写了这段代码

 Document _DOM=Jsoup.connect(_EXACT1_URL)
            .cookies(_COOCKIES)
            .timeout(70000)
            .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0")
            .get();
当我试图解析我的文档(_DOM)并计算行时,我得到的是1127行 我尝试将文档字符串写入一个文件(page.html),然后进行解析,得到了相同的结果,当我使用浏览器(Firefox)下载时,文件大小约为(1.2MB),实际大小为(6MB) 我像这样增加了JVM堆大小的内存

java -Xms32m -Xmx500 -jar myJarFile.jar, unfortunately, get the same result.
我将非常感谢您的帮助。

我相信您需要设置。默认大小为1mb

例如:

Document _DOM = Jsoup.connect(_EXACT1_URL)
               .cookies(_COOCKIES)
               .timeout(70000)
               .maxBodySize(1024*1024*10) // Size in Bytes - 10 MB 
               .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0")
               .get();

Jsoup对解析后的Html进行格式化,因此格式化可能与网站的格式化不同。但你到底有什么问题?