Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/359.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 当apache.httpclient能够获取内容时,JSoup.connect抛出403错误_Java_Html Parsing_Jsoup - Fatal编程技术网

Java 当apache.httpclient能够获取内容时,JSoup.connect抛出403错误

Java 当apache.httpclient能够获取内容时,JSoup.connect抛出403错误,java,html-parsing,jsoup,Java,Html Parsing,Jsoup,我试图解析任何给定页面的HTML转储。我使用并尝试解析 我在Jsoup中找到了有用的函数,但调用Document doc=Jsoup.connect(url.get())时出现403错误 我尝试了HTTPClient,以获得html转储,并成功地获得了相同的url 为什么JSoup为同一个URL提供403,该URL提供来自commons http客户端的内容? 我做错什么了吗?有什么想法吗?工作解决方案如下(感谢Angelo Neuschitzer提醒将其作为解决方案): 因此,userAgen

我试图解析任何给定页面的HTML转储。我使用并尝试解析

我在Jsoup中找到了有用的函数,但调用
Document doc=Jsoup.connect(url.get())时出现403错误

我尝试了HTTPClient,以获得html转储,并成功地获得了相同的url

为什么JSoup为同一个URL提供403,该URL提供来自commons http客户端的内容?
我做错什么了吗?有什么想法吗?

工作解决方案如下(感谢Angelo Neuschitzer提醒将其作为解决方案):


因此,userAgent起到了关键作用:)

请撕碎链接。您连接到。检查链接,报告类似问题。我会尝试tcpdump或类似工具,查看HTTP客户端发送的数据与JSoup发送的数据之间的差异。@vacuum@AkashYadav谢谢!用户代理的事情是有意义的和工程!
Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag(HTML.Tag.CITE.toString);
for (Element link : links) {
            String linkText = link.text();
            System.out.println(linkText);
}