Python 在抓取需要登录的网站时,我需要哪些信息?

Python 在抓取需要登录的网站时,我需要哪些信息?,python,web-scraping,Python,Web Scraping,我想在某个站点上访问我的企业数据库,并使用Python(我使用的是请求和BS4,如果需要的话,我可以更进一步)。但我不能。 有人能提供我们关于如何刮这些网站的信息和简单资源吗 我不是说提供用户名和密码。网站需要的远不止这些。 除了UN和PW之外,我如何知道我需要为我的脚本提供的信息(例如,我如何知道我必须提供认证令牌) 当没有HTTP URL,但有javascript形式的HREF时,如何处理该站点:_doPostBack 在这方面,我如何从登录页面过渡到我想要的页面(前面提到的javascri

我想在某个站点上访问我的企业数据库,并使用Python(我使用的是请求和BS4,如果需要的话,我可以更进一步)。但我不能。 有人能提供我们关于如何刮这些网站的信息和简单资源吗

我不是说提供用户名和密码。网站需要的远不止这些。 除了UN和PW之外,我如何知道我需要为我的脚本提供的信息(例如,我如何知道我必须提供认证令牌)

当没有HTTP URL,但有javascript形式的HREF时,如何处理该站点:_doPostBack

在这方面,我如何从登录页面过渡到我想要的页面(前面提到的javascript中包含的页面:_doPostBack)

我使用的图书馆是否足够?或者你建议在我的案例中使用和学习其他东西吗


非常感谢您的帮助。

您没有提到您用于刮取的内容,但由于此网站上的许多交互都是基于客户端代码的,因此我建议使用真正的浏览器来进行刮取,并使用客户端交互,而不是使用低级HTTP请求与网站进行交互(例如键入元素或单击按钮)。这样,您就不必担心要发送什么表单数据或如何自己获取链接的URL


一种推荐的方法是将BeutifulSoup与Selenium/WebDriver结合使用。关于如何做到这一点,有多种资源,例如:

谢谢!Selenium是否也能回答我的其他问题?我建议你阅读Selenium,尝试一下,自己去发现。