Java 为什么我的爬虫程序得到错误的HTML代码?

Java 为什么我的爬虫程序得到错误的HTML代码?,java,web-crawler,Java,Web Crawler,我想用java编写一个爬虫程序,用于一些学校练习。实际上,用jsoup库实现的爬虫程序代码是有效的,因为我请求的结果是一些HTML代码,但是当我搜索一个清楚地写在网站上的单词时,却没有找到,因为爬虫程序中的一些div,其中为空 然后我意识到,我得到的代码与导航到网站并右键单击“查看页面源代码”时可以看到的代码相同。 当我将代码与“右键单击->检查”进行比较时,代码与“查看页面源代码”中的代码不同 我可以做些什么来获取包含完整内容的HTML代码吗 请求的URL:由于此网站动态加载内容,您无法使用j

我想用java编写一个爬虫程序,用于一些学校练习。实际上,用jsoup库实现的爬虫程序代码是有效的,因为我请求的结果是一些HTML代码,但是当我搜索一个清楚地写在网站上的单词时,却没有找到,因为爬虫程序中的一些div,其中为空

然后我意识到,我得到的代码与导航到网站并右键单击“查看页面源代码”时可以看到的代码相同。 当我将代码与“右键单击->检查”进行比较时,代码与“查看页面源代码”中的代码不同

我可以做些什么来获取包含完整内容的HTML代码吗


请求的URL:

由于此网站动态加载内容,您无法使用jsoup获取正确的代码。

此网页动态加载代码,即加载初始内容,然后执行其他代码加载其余内容。jsoup只是一个HTML解析器,这意味着它可以解析给定的各种内容。它无法执行Javascript或等待外部文件加载


要浏览这样一个网站,你可能需要某种自动浏览器。我个人在Python中使用Selenium来抓取动态加载的网站

由于此网站动态加载内容,您无法使用jsoup获得正确的代码。

此网页动态加载代码,即加载初始内容,然后执行其他代码加载其余内容。jsoup只是一个HTML解析器,这意味着它可以解析给定的各种内容。它无法执行Javascript或等待外部文件加载


要浏览这样一个网站,你可能需要某种自动浏览器。我个人在Python中使用Selenium来抓取动态加载的网站

你看不到所有内容,因为网页充满了动态内容,而这些内容最初并没有出现在页面上。我不知道如何解决这个问题,也许selenium能帮上忙?你看不到所有东西,因为网页充满了动态内容,而这些内容最初并没有出现在页面上。我不知道怎么解决这个问题,也许硒能帮上忙?