如何在python中爬行受密码保护的站点？_Python_Web Crawler

如何在python中爬行受密码保护的站点？

python web-crawler

如何在python中爬行受密码保护的站点？,python,web-crawler,Python,Web Crawler,目前，我有一个用Java编写的爬行器，它可以登录到供应商网站并爬行该网站。使用htmlunit 它保留会话cookie，甚至允许我启用/禁用javascript等我还使用htmlparser java帮助解析html并提取相关信息 python有类似的功能吗？python必须抓取支持密码验证和cookie的页面还有一种用于提取html的方法，但有些人更喜欢功能更完整的方法。Python必须抓取支持密码验证和cookie的页面还有一个用于提取html的，但是有些人更喜欢功能更丰富的程序。AP

目前，我有一个用Java编写的爬行器，它可以登录到供应商网站并爬行该网站。使用htmlunit

它保留会话cookie，甚至允许我启用/禁用javascript等

我还使用htmlparser java帮助解析html并提取相关信息

python有类似的功能吗？

python必须抓取支持密码验证和cookie的页面

还有一种用于提取html的方法，但有些人更喜欢功能更完整的方法。

Python必须抓取支持密码验证和cookie的页面

还有一个用于提取html的，但是有些人更喜欢功能更丰富的程序。

API使用urllib2 plus连接了一些不同的解析器和帮助程序例程。

真正酷的是，它大约是您必须编写的Java代码量的百万分之一；事实上，这正是我的意思。在使用BeautifulSoup之前，请查看lxml，它是一个更好/更快的通用解析器，BeautifulSoup适用于pocket Case和munged HTML，它还可以嵌入到lxml API中。如果你选择BS路线：获得3.0版，3.1版绝对是垃圾。真正酷的是，它大约是你必须编写的Java代码量的百万分之一；事实上，这正是我的意思。在使用BeautifulSoup之前，请查看lxml，它是一个更好/更快的通用解析器，BeautifulSoup适用于pocket Case和munged HTML，它还可以嵌入到lxml API中。如果你选择BS路线：获得3.0版，3.1版绝对是垃圾。