JSoup不横穿整个HTML页面_Html_Jsoup

JSoup不横穿整个HTML页面

html

JSoup不横穿整个HTML页面,html,jsoup,Html,Jsoup,我试图刮一个网页，但出于某种原因，似乎我只能横切到页面上的某一点。我已经将整个文档打印到了文件中，以确保我需要的元素在那里（我知道有时一些代码由于JavaScript等原因无法捕获）。将html代码输出到文本文件后，我能够验证JSoup是否成功捕获了所需的数据我已尝试增加超时和maxbody大小，以确保其不受限制有人能指出我遗漏了什么吗 doc = Jsoup.connect("https://www.mississaugahardware.com/products?keyword=dcf6

我试图刮一个网页，但出于某种原因，似乎我只能横切到页面上的某一点。我已经将整个文档打印到了文件中，以确保我需要的元素在那里（我知道有时一些代码由于JavaScript等原因无法捕获）。将html代码输出到文本文件后，我能够验证JSoup是否成功捕获了所需的数据

我已尝试增加超时和maxbody大小，以确保其不受限制

有人能指出我遗漏了什么吗

doc = Jsoup.connect("https://www.mississaugahardware.com/products?keyword=dcf680n1&mainc=")
            .header("Accept-Encoding", "gzip, deflate")
            .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0")
            .maxBodySize(0)
            .timeout(600000)
            .get();


    Elements info = doc.select("span[class=PriceListModeBig");

我能够为页面顶部附近的元素提取值，但不能再往下拉。

您的请求返回一个包含以下伪html行的文档：

<td><span class=&quot;PriceListModeBig&quot;>$99.00 CAD <span class=&quot;productitalic&quot;></span></td>

您的选择器错误。。。当您使用类时（您可以使用您正在使用的方法，但这不是常用的方法），您必须使用这个

span.PriceListModeBig

。除此之外，您没有关闭括号。我试图在您的代码示例中对网站进行爬网，我修复了选择器，但仍然一无所获。所以我猜网站是异步加载产品的。如果是这样的话，你就不能用jsoup爬网了。@EricMartinez一世也有同样的结果。当我将doc的整个值发送到输出文件时，我能够看到类和其中的值。这不意味着它加载正确吗？我不能肯定地告诉你，你说的话很有道理，但显然它不是那样工作的。如果你的问题已经完全解决了，请考虑接受我的答案。

doc = Jsoup.connect("https://www.mississaugahardware.com/products?keyword=dcf680n1&mainc=")
                .header("Accept-Encoding", "gzip, deflate")
                .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0")
                .maxBodySize(0)
                .timeout(600000).get();

Element el = doc.select("#dnn_ctr306650_ViewLayoutManager_SCESideMenu_2_hSearchResult").first();
String innerHtml = el.attr("value");        
Document docInner = Jsoup.parse(innerHtml);

Elements info = docInner.select("span.PriceListModeBig");