JSoup不横穿整个HTML页面

JSoup不横穿整个HTML页面,html,jsoup,Html,Jsoup,我试图刮一个网页,但出于某种原因,似乎我只能横切到页面上的某一点。我已经将整个文档打印到了文件中,以确保我需要的元素在那里(我知道有时一些代码由于JavaScript等原因无法捕获)。将html代码输出到文本文件后,我能够验证JSoup是否成功捕获了所需的数据 我已尝试增加超时和maxbody大小,以确保其不受限制 有人能指出我遗漏了什么吗 doc = Jsoup.connect("https://www.mississaugahardware.com/products?keyword=dcf6

我试图刮一个网页,但出于某种原因,似乎我只能横切到页面上的某一点。我已经将整个文档打印到了文件中,以确保我需要的元素在那里(我知道有时一些代码由于JavaScript等原因无法捕获)。将html代码输出到文本文件后,我能够验证JSoup是否成功捕获了所需的数据

我已尝试增加超时和maxbody大小,以确保其不受限制

有人能指出我遗漏了什么吗

doc = Jsoup.connect("https://www.mississaugahardware.com/products?keyword=dcf680n1&mainc=")
            .header("Accept-Encoding", "gzip, deflate")
            .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0")
            .maxBodySize(0)
            .timeout(600000)
            .get();


    Elements info = doc.select("span[class=PriceListModeBig");

我能够为页面顶部附近的元素提取值,但不能再往下拉。

您的请求返回一个包含以下伪html行的文档:

<td><span class=&quot;PriceListModeBig&quot;>$99.00 CAD <span class=&quot;productitalic&quot;></span></td>

您的选择器错误。。。当您使用类时(您可以使用您正在使用的方法,但这不是常用的方法),您必须使用这个
span.PriceListModeBig
。除此之外,您没有关闭括号。我试图在您的代码示例中对网站进行爬网,我修复了选择器,但仍然一无所获。所以我猜网站是异步加载产品的。如果是这样的话,你就不能用jsoup爬网了。@EricMartinez一世也有同样的结果。当我将doc的整个值发送到输出文件时,我能够看到类和其中的值。这不意味着它加载正确吗?我不能肯定地告诉你,你说的话很有道理,但显然它不是那样工作的。如果你的问题已经完全解决了,请考虑接受我的答案。
doc = Jsoup.connect("https://www.mississaugahardware.com/products?keyword=dcf680n1&mainc=")
                .header("Accept-Encoding", "gzip, deflate")
                .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0")
                .maxBodySize(0)
                .timeout(600000).get();

Element el = doc.select("#dnn_ctr306650_ViewLayoutManager_SCESideMenu_2_hSearchResult").first();
String innerHtml = el.attr("value");        
Document docInner = Jsoup.parse(innerHtml);

Elements info = docInner.select("span.PriceListModeBig");