Crawler4j、Jsoup和JavaScript:提取用JavaScript修改的属性值
我使用Crawler4j和Jsoup来抓取一个网站,它可以很好地处理HTML文本,但是有一些重要的内容,默认值是用CSS硬编码的,然后用JavaScript动态设置的。 例如,我有 我需要宽度值,在CSS中硬编码为10px,但在JavaScript中修改为5px 有没有一种方法可以在不使用其他爬虫的情况下获取此值?还是一个简单的选择? 我已经有很多代码了,所以如果有可能用Crawler4j重写的话,我不想重写所有的代码Crawler4j、Jsoup和JavaScript:提取用JavaScript修改的属性值,javascript,css,web-crawler,jsoup,crawler4j,Javascript,Css,Web Crawler,Jsoup,Crawler4j,我使用Crawler4j和Jsoup来抓取一个网站,它可以很好地处理HTML文本,但是有一些重要的内容,默认值是用CSS硬编码的,然后用JavaScript动态设置的。 例如,我有 我需要宽度值,在CSS中硬编码为10px,但在JavaScript中修改为5px 有没有一种方法可以在不使用其他爬虫的情况下获取此值?还是一个简单的选择? 我已经有很多代码了,所以如果有可能用Crawler4j重写的话,我不想重写所有的代码 我希望我的问题足够清楚,并提前感谢您的帮助 这在crawler4j和jsou
我希望我的问题足够清楚,并提前感谢您的帮助 这在
crawler4j
和jsoup
中都是不可能的。它们都只处理静态HTML内容
在官方GitHub存储库上,与动态JavaScript执行相关的几个开放问题:,和
为了实现您的目标,您需要基于和/或构建一个堆栈,然后将其用于高级爬网,包括JavaScript执行。这在
crawler4j
和jsoup
中都是不可能的。它们都只处理静态HTML内容
在官方GitHub存储库上,与动态JavaScript执行相关的几个开放问题:,和
为了实现您的目标,您需要基于和/或构建一个堆栈,然后将其用于高级爬网,包括JavaScript执行。您希望能够使用Jsoup实现您的目标,因为此工具只能下载静态html内容。我不熟悉Crawler4j,但我快速查看了文档,没有发现任何关于执行javascript的内容。您应该考虑使用工具,它模拟浏览器,即执行像HTMLUnb或SeleniumOkay那样的JavaScript代码,谢谢,我会尝试一个无头浏览器,我想您想用JToin实现您的目标,因为这个工具只能下载静态HTML内容。我不熟悉Crawler4j,但我快速查看了文档,没有发现任何关于执行javascript的内容。您应该考虑使用工具,它模拟浏览器,即执行像HTMLUnb或SeleniumOkay这样的JavaScript代码,谢谢,我会尝试一个无头浏览器。