Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/javascript/467.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/git/22.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Crawler4j、Jsoup和JavaScript:提取用JavaScript修改的属性值_Javascript_Css_Web Crawler_Jsoup_Crawler4j - Fatal编程技术网

Crawler4j、Jsoup和JavaScript:提取用JavaScript修改的属性值

Crawler4j、Jsoup和JavaScript:提取用JavaScript修改的属性值,javascript,css,web-crawler,jsoup,crawler4j,Javascript,Css,Web Crawler,Jsoup,Crawler4j,我使用Crawler4j和Jsoup来抓取一个网站,它可以很好地处理HTML文本,但是有一些重要的内容,默认值是用CSS硬编码的,然后用JavaScript动态设置的。 例如,我有 我需要宽度值,在CSS中硬编码为10px,但在JavaScript中修改为5px 有没有一种方法可以在不使用其他爬虫的情况下获取此值?还是一个简单的选择? 我已经有很多代码了,所以如果有可能用Crawler4j重写的话,我不想重写所有的代码 我希望我的问题足够清楚,并提前感谢您的帮助 这在crawler4j和jsou

我使用Crawler4j和Jsoup来抓取一个网站,它可以很好地处理HTML文本,但是有一些重要的内容,默认值是用CSS硬编码的,然后用JavaScript动态设置的。 例如,我有 我需要宽度值,在CSS中硬编码为10px,但在JavaScript中修改为5px

有没有一种方法可以在不使用其他爬虫的情况下获取此值?还是一个简单的选择? 我已经有很多代码了,所以如果有可能用Crawler4j重写的话,我不想重写所有的代码


我希望我的问题足够清楚,并提前感谢您的帮助

这在
crawler4j
jsoup
中都是不可能的。它们都只处理静态HTML内容

在官方GitHub存储库上,与动态JavaScript执行相关的几个开放问题:,和


为了实现您的目标,您需要基于和/或构建一个堆栈,然后将其用于高级爬网,包括JavaScript执行。

这在
crawler4j
jsoup
中都是不可能的。它们都只处理静态HTML内容

在官方GitHub存储库上,与动态JavaScript执行相关的几个开放问题:,和


为了实现您的目标,您需要基于和/或构建一个堆栈,然后将其用于高级爬网,包括JavaScript执行。

您希望能够使用Jsoup实现您的目标,因为此工具只能下载静态html内容。我不熟悉Crawler4j,但我快速查看了文档,没有发现任何关于执行javascript的内容。您应该考虑使用工具,它模拟浏览器,即执行像HTMLUnb或SeleniumOkay那样的JavaScript代码,谢谢,我会尝试一个无头浏览器,我想您想用JToin实现您的目标,因为这个工具只能下载静态HTML内容。我不熟悉Crawler4j,但我快速查看了文档,没有发现任何关于执行javascript的内容。您应该考虑使用工具,它模拟浏览器,即执行像HTMLUnb或SeleniumOkay这样的JavaScript代码,谢谢,我会尝试一个无头浏览器。