如何使用Python刮取受限网页_Python_Web Scraping

如何使用Python刮取受限网页

python web-scraping

如何使用Python刮取受限网页,python,web-scraping,Python,Web Scraping,我想知道是否有任何方法可以使用Python从受限网页中刮取html 我已经能够在一个网页上执行登录，但我想在登录后刮取另一个网页，但该网页的URL显示的模式为：main\u URL/Restricted/Index.aspx 除了不受限制的部分之外，我还无法获得整个页面的HTML。如何获取受限网页的整个HTML？以下是我目前的代码： from lxml import html from bs4 import BeautifulSoup as bs from urllib.request imp

我想知道是否有任何方法可以使用Python从受限网页中刮取html

我已经能够在一个网页上执行登录，但我想在登录后刮取另一个网页，但该网页的URL显示的模式为：

main\u URL/Restricted/Index.aspx

除了不受限制的部分之外，我还无法获得整个页面的HTML。如何获取受限网页的整个HTML？以下是我目前的代码：

from lxml import html
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen
from requests import Session

payload = {
    'username': "username",
    'password': "password"
}

login_URL = 'https://www.something.com/login'

request_url = 'https://www.something.com/overview'

with requests.Session() as session:
    post = session.post(login_URL, data=payload)
    r = session.get(request_url)
    print(r.text)

感谢你的回答

尝试使用代理。使用适当的强代理可以绕过网站的安全机制，但这也取决于安全类型

正如上面的回答所说，如果需要，你也应该传递cookies

请提供更多关于你如何刮的信息。也请分享代码。

我不相信-为什么和hw使用代理会改变OP的代码？尝试使用Telerik Fiddler等工具窥探浏览器的操作，以完全检索页面。第二部分很可能是由浏览器执行的第一部分中的javascript检索的——解决方案是使用浏览器模拟，或者可能是编写第二个请求的代码（使用会话，以便维护cookie）。这不太可能与代理有关。