Python 无法刮除非html元素_Python_Html_Web Scraping

Python 无法刮除非html元素

python html web-scraping

Python 无法刮除非html元素,python,html,web-scraping,Python,Html,Web Scraping,我正试图从一些网站上获取搜索结果。问题是，并非所有这些网站都以纯html文本的形式返回搜索结果，很多搜索结果是通过JS、AJAX等动态生成的。但是，我可以通过Firefox inspector查看页面，准确地看到我需要的内容，因为脚本都运行并修改了html 我的问题是：在允许脚本运行后，是否有办法下载网页，或者至少让它们在本地运行。这样，我就得到了最终的html 作为参考，我正在使用python。可能。在这种情况下，问题在于php和JS 当然，您必须为脚本js提供一些运行环境，并经常向目标服务器

我正试图从一些网站上获取搜索结果。问题是，并非所有这些网站都以纯html文本的形式返回搜索结果，很多搜索结果是通过JS、AJAX等动态生成的。但是，我可以通过Firefox inspector查看页面，准确地看到我需要的内容，因为脚本都运行并修改了html

我的问题是：在允许脚本运行后，是否有办法下载网页，或者至少让它们在本地运行。这样，我就得到了最终的html

作为参考，我正在使用python。

可能。在这种情况下，问题在于php和JS

当然，您必须为脚本js提供一些运行环境，并经常向目标服务器返回测试值。对于服务器端语言来说，这并不容易。因此，今天我们主要利用这里提到的浏览器驱动或模拟工具

我为您找到了类似于v8js的python php插件：

PyV8是Google V8引擎的python包装器，它充当python和JavaScript对象之间的桥梁，并支持在python脚本中托管Google的V8引擎

如果配置正确，您的刮板：

获取站点的js 通过给定的插件计算此js 获取对目标html的访问权以进行进一步分析。

您必须使用Selinium，它发出完整的浏览器请求并将加载整个页面。我也有同样的问题，我使用了selinux