Pycurl javascript
我创建了一个Python3脚本,允许我在搜索引擎(DuckDuckGo)上搜索,获取HTML源代码并将其写入文本文件Pycurl javascript,javascript,python,html,pycurl,Javascript,Python,Html,Pycurl,我创建了一个Python3脚本,允许我在搜索引擎(DuckDuckGo)上搜索,获取HTML源代码并将其写入文本文件 import pycurl from io import BytesIO buffer = BytesIO() c = pycurl.Curl() c.setopt(c.URL, 'https://duckduckgo.com/?q=test') c.setopt(c.WRITEDATA, buffer) c.setopt(c.FOLLOWLOCATION, True) c.p
import pycurl
from io import BytesIO
buffer = BytesIO()
c = pycurl.Curl()
c.setopt(c.URL, 'https://duckduckgo.com/?q=test')
c.setopt(c.WRITEDATA, buffer)
c.setopt(c.FOLLOWLOCATION, True)
c.perform()
c.close()
body = buffer.getvalue()
with open("output.htm", "w") as text_file:
text_file.write(str(body))
print(body.decode('iso-8859-1'))
代码的这一部分工作正常。然而,当我试图打开包含搜索引擎HTML源代码的
output.htm
文件时,我什么也没有得到(我得到了一个输入,里面写着我的搜索主题)。我希望有与运行curl相同的HTML源代码https://duckduckgo.com/?q=test
在我的终端上 Duckduckgo的html页面使用javascript将搜索结果加载到html标记中,因此curl
或PyCurl
将无法获得与浏览器中相同的html内容,因为curl
/PyCurl
仅获取互联网资源,而不提供任何javascript处理
在他们的服务器/数据库中查找搜索结果时,请使用而不是刮取