如何使用python spider下载文档文件_Python_Web Crawler

如何使用python spider下载文档文件

python web-crawler

如何使用python spider下载文档文件,python,web-crawler,Python,Web Crawler,我想在网站上下载一个文档文件。我有文件url，这意味着在登录后，当我在浏览器中输入url时，文件将自动下载。如果我没有登录，它将返回404错误。我只知道urllib.urlretrieve（url，'path/filename'）可以下载，但我不知道如何使用urlretrieve模拟登录状态。或者有没有其他下载方式？请帮助我，谢谢。也许您可以尝试抓取框架（其他人可以这样做，这只是一个示例），填写输入并提交很容易： from grab import Grab import logging log

我想在网站上下载一个文档文件。我有文件url，这意味着在登录后，当我在浏览器中输入url时，文件将自动下载。如果我没有登录，它将返回404错误。我只知道

urllib.urlretrieve（url，'path/filename'）

可以下载，但我不知道如何使用urlretrieve模拟登录状态。或者有没有其他下载方式？请帮助我，谢谢。

也许您可以尝试

抓取

框架（其他人可以这样做，这只是一个示例），填写输入并提交很容易：

from grab import Grab
import logging

logging.basicConfig(level=logging.DEBUG)
g = Grab()
g.go('https://github.com/login')
g.set_input('login', '***')
g.set_input('password', '***')
g.submit()

然后您可以下载您的文档文件。

尝试使用请求获得一个简单的解决方案：使用requests.Session创建会话，然后您可以发布请求。@AlexanderHuszagh我会尝试的，非常感谢