如何使用Python刮取受限网页
我想知道是否有任何方法可以使用Python从受限网页中刮取html 我已经能够在一个网页上执行登录,但我想在登录后刮取另一个网页,但该网页的URL显示的模式为:如何使用Python刮取受限网页,python,web-scraping,Python,Web Scraping,我想知道是否有任何方法可以使用Python从受限网页中刮取html 我已经能够在一个网页上执行登录,但我想在登录后刮取另一个网页,但该网页的URL显示的模式为:main\u URL/Restricted/Index.aspx 除了不受限制的部分之外,我还无法获得整个页面的HTML。如何获取受限网页的整个HTML? 以下是我目前的代码: from lxml import html from bs4 import BeautifulSoup as bs from urllib.request imp
main\u URL/Restricted/Index.aspx
除了不受限制的部分之外,我还无法获得整个页面的HTML。如何获取受限网页的整个HTML?
以下是我目前的代码:
from lxml import html
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen
from requests import Session
payload = {
'username': "username",
'password': "password"
}
login_URL = 'https://www.something.com/login'
request_url = 'https://www.something.com/overview'
with requests.Session() as session:
post = session.post(login_URL, data=payload)
r = session.get(request_url)
print(r.text)
感谢你的回答 尝试使用代理。使用适当的强代理可以绕过网站的安全机制,但这也取决于安全类型 正如上面的回答所说,如果需要,你也应该传递cookies
请提供更多关于你如何刮的信息。也请分享代码。我不相信-为什么和hw使用代理会改变OP的代码?尝试使用Telerik Fiddler等工具窥探浏览器的操作,以完全检索页面。第二部分很可能是由浏览器执行的第一部分中的javascript检索的——解决方案是使用浏览器模拟,或者可能是编写第二个请求的代码(使用会话,以便维护cookie)。这不太可能与代理有关。