如何在python中爬行受密码保护的站点?

如何在python中爬行受密码保护的站点?,python,web-crawler,Python,Web Crawler,目前,我有一个用Java编写的爬行器,它可以登录到供应商网站并爬行该网站。使用htmlunit 它保留会话cookie,甚至允许我启用/禁用javascript等 我还使用htmlparser java帮助解析html并提取相关信息 python有类似的功能吗?python必须抓取支持密码验证和cookie的页面 还有一种用于提取html的方法,但有些人更喜欢功能更完整的方法。Python必须抓取支持密码验证和cookie的页面 还有一个用于提取html的,但是有些人更喜欢功能更丰富的程序。AP

目前,我有一个用Java编写的爬行器,它可以登录到供应商网站并爬行该网站。使用htmlunit

它保留会话cookie,甚至允许我启用/禁用javascript等

我还使用htmlparser java帮助解析html并提取相关信息

python有类似的功能吗?

python必须抓取支持密码验证和cookie的页面

还有一种用于提取html的方法,但有些人更喜欢功能更完整的方法。

Python必须抓取支持密码验证和cookie的页面


还有一个用于提取html的,但是有些人更喜欢功能更丰富的程序。

API使用urllib2 plus连接了一些不同的解析器和帮助程序例程。

API使用urllib2 plus连接了一些不同的解析器和帮助程序例程。

真正酷的是,它大约是您必须编写的Java代码量的百万分之一;事实上,这正是我的意思。在使用BeautifulSoup之前,请查看lxml,它是一个更好/更快的通用解析器,BeautifulSoup适用于pocket Case和munged HTML,它还可以嵌入到lxml API中。如果你选择BS路线:获得3.0版,3.1版绝对是垃圾。真正酷的是,它大约是你必须编写的Java代码量的百万分之一;事实上,这正是我的意思。在使用BeautifulSoup之前,请查看lxml,它是一个更好/更快的通用解析器,BeautifulSoup适用于pocket Case和munged HTML,它还可以嵌入到lxml API中。如果你选择BS路线:获得3.0版,3.1版绝对是垃圾。