Python 无法刮除非html元素
我正试图从一些网站上获取搜索结果。问题是,并非所有这些网站都以纯html文本的形式返回搜索结果,很多搜索结果是通过JS、AJAX等动态生成的。但是,我可以通过Firefox inspector查看页面,准确地看到我需要的内容,因为脚本都运行并修改了html 我的问题是:在允许脚本运行后,是否有办法下载网页,或者至少让它们在本地运行。这样,我就得到了最终的html 作为参考,我正在使用python。可能。在这种情况下,问题在于php和JS 当然,您必须为脚本js提供一些运行环境,并经常向目标服务器返回测试值。对于服务器端语言来说,这并不容易。因此,今天我们主要利用这里提到的浏览器驱动或模拟工具 我为您找到了类似于v8js的python php插件: PyV8是Google V8引擎的python包装器,它充当python和JavaScript对象之间的桥梁,并支持在python脚本中托管Google的V8引擎 如果配置正确,您的刮板: 获取站点的js 通过给定的插件计算此js 获取对目标html的访问权以进行进一步分析。Python 无法刮除非html元素,python,html,web-scraping,Python,Html,Web Scraping,我正试图从一些网站上获取搜索结果。问题是,并非所有这些网站都以纯html文本的形式返回搜索结果,很多搜索结果是通过JS、AJAX等动态生成的。但是,我可以通过Firefox inspector查看页面,准确地看到我需要的内容,因为脚本都运行并修改了html 我的问题是:在允许脚本运行后,是否有办法下载网页,或者至少让它们在本地运行。这样,我就得到了最终的html 作为参考,我正在使用python。可能。在这种情况下,问题在于php和JS 当然,您必须为脚本js提供一些运行环境,并经常向目标服务器
您必须使用Selinium,它发出完整的浏览器请求并将加载整个页面。我也有同样的问题,我使用了selinux