Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/84.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 无法刮除非html元素_Python_Html_Web Scraping - Fatal编程技术网

Python 无法刮除非html元素

Python 无法刮除非html元素,python,html,web-scraping,Python,Html,Web Scraping,我正试图从一些网站上获取搜索结果。问题是,并非所有这些网站都以纯html文本的形式返回搜索结果,很多搜索结果是通过JS、AJAX等动态生成的。但是,我可以通过Firefox inspector查看页面,准确地看到我需要的内容,因为脚本都运行并修改了html 我的问题是:在允许脚本运行后,是否有办法下载网页,或者至少让它们在本地运行。这样,我就得到了最终的html 作为参考,我正在使用python。可能。在这种情况下,问题在于php和JS 当然,您必须为脚本js提供一些运行环境,并经常向目标服务器

我正试图从一些网站上获取搜索结果。问题是,并非所有这些网站都以纯html文本的形式返回搜索结果,很多搜索结果是通过JS、AJAX等动态生成的。但是,我可以通过Firefox inspector查看页面,准确地看到我需要的内容,因为脚本都运行并修改了html

我的问题是:在允许脚本运行后,是否有办法下载网页,或者至少让它们在本地运行。这样,我就得到了最终的html

作为参考,我正在使用python。

可能。在这种情况下,问题在于php和JS

当然,您必须为脚本js提供一些运行环境,并经常向目标服务器返回测试值。对于服务器端语言来说,这并不容易。因此,今天我们主要利用这里提到的浏览器驱动或模拟工具

我为您找到了类似于v8js的python php插件:

PyV8是Google V8引擎的python包装器,它充当python和JavaScript对象之间的桥梁,并支持在python脚本中托管Google的V8引擎

如果配置正确,您的刮板:

获取站点的js 通过给定的插件计算此js 获取对目标html的访问权以进行进一步分析。
您必须使用Selinium,它发出完整的浏览器请求并将加载整个页面。我也有同样的问题,我使用了selinux