如何使用Python刮取受限网页

如何使用Python刮取受限网页,python,web-scraping,Python,Web Scraping,我想知道是否有任何方法可以使用Python从受限网页中刮取html 我已经能够在一个网页上执行登录,但我想在登录后刮取另一个网页,但该网页的URL显示的模式为:main\u URL/Restricted/Index.aspx 除了不受限制的部分之外,我还无法获得整个页面的HTML。如何获取受限网页的整个HTML? 以下是我目前的代码: from lxml import html from bs4 import BeautifulSoup as bs from urllib.request imp

我想知道是否有任何方法可以使用Python从受限网页中刮取html

我已经能够在一个网页上执行登录,但我想在登录后刮取另一个网页,但该网页的URL显示的模式为:
main\u URL/Restricted/Index.aspx

除了不受限制的部分之外,我还无法获得整个页面的HTML。如何获取受限网页的整个HTML? 以下是我目前的代码:

from lxml import html
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen
from requests import Session

payload = {
    'username': "username",
    'password': "password"
}

login_URL = 'https://www.something.com/login'

request_url = 'https://www.something.com/overview'

with requests.Session() as session:
    post = session.post(login_URL, data=payload)
    r = session.get(request_url)
    print(r.text)

感谢你的回答

尝试使用代理。使用适当的强代理可以绕过网站的安全机制,但这也取决于安全类型

正如上面的回答所说,如果需要,你也应该传递cookies


请提供更多关于你如何刮的信息。也请分享代码。

我不相信-为什么和hw使用代理会改变OP的代码?尝试使用Telerik Fiddler等工具窥探浏览器的操作,以完全检索页面。第二部分很可能是由浏览器执行的第一部分中的javascript检索的——解决方案是使用浏览器模拟,或者可能是编写第二个请求的代码(使用会话,以便维护cookie)。这不太可能与代理有关。