从java读取URL时缺少html元素
我使用此代码从java中的URL获取html代码从java读取URL时缺少html元素,java,html,web-scraping,Java,Html,Web Scraping,我使用此代码从java中的URL获取html代码 URL url = new URL(".."); URLConnection connection = url.openConnection(); InputStream inputStream = connection.getInputStream(); String html = IOUtils.toString(inputStream); inputSt
URL url = new URL("..");
URLConnection connection = url.openConnection();
InputStream inputStream = connection.getInputStream();
String html = IOUtils.toString(inputStream);
inputStream.close();
System.out.println(html);
它工作得很好,我可以看到它返回了一个html代码
问题是,当我在chrome中使用URL并显示页面源代码时,我发现java代码中返回的html缺少一些html元素
所以我错过了什么
解决方案
我们指定用户代理
,它就可以工作了
doc = Jsoup.connect("...")
.userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
.referrer("http://www.google.com")
.get();
你说缺少哪些html元素?可能这些元素是通过javascript生成的?@Naros我缺少一些div。@MadMatts不,我不这么认为。你说缺少哪些html元素?可能这些元素是通过javascript生成的?@Naros我缺少一些div。@MadMatts不,我不这么认为。