Java Jsoup正在获取href的内容
我正在使用Jsoup开发一个web刮板,希望从表中拉出一个链接 这就是我所看到的:Java Jsoup正在获取href的内容,java,html,web-scraping,jsoup,Java,Html,Web Scraping,Jsoup,我正在使用Jsoup开发一个web刮板,希望从表中拉出一个链接 这就是我所看到的: <ul class="inline-list indent> <li> ::marker <a href="www.linkhere.com" title="Some Text">Some Other Text</a> (Date & Time Stam
<ul class="inline-list indent>
<li>
::marker
<a href="www.linkhere.com" title="Some Text">Some Other Text</a>
(Date & Time Stamp)
</li>
这给了我一个错误:
NullPointerException:无法调用“org.jsoup.nodes.Element.attr(字符串)”,因为“llink”为null
您正在使用这样的选择器:
"ul.indent.inline-list:nth-of-type(1) > a"
第一部分ul.indent.inline列表:第n个类型(1)
选择第一个
元素。第二部分>a
期望
将是
的直接子级。这与您想要的不匹配,因为它们之间有
元素,因此解决方案是使用:
"ul.indent.inline-list:nth-of-type(1) > li > a"
或者,如果您的想法是匹配第一个
,则必须使用:
"ul.indent.inline-list > li:nth-of-type(1) > a"
如果您在web浏览器中禁用JavaScript浏览此页面,您是否仍能在此页面上看到相同的内容?对页面进行了微小更改,但我所关注的内容与向get请求中添加userAgent字符串的方式相同。这很有帮助,但它并不是只给我提供了链接,而是给了我从<到>的全部内容。我可能可以从这里得出一些结论。变量
link
包含整个元素“fromarticleLink=link.attr(“href”)代码>这就是您的页面地址所在的位置。
"ul.indent.inline-list > li:nth-of-type(1) > a"