Python Urllib读取错误的网站_Python_Beautifulsoup_Web_Urllib

Python Urllib读取错误的网站

python web

Python Urllib读取错误的网站,python,beautifulsoup,web,urllib,Python,Beautifulsoup,Web,Urllib,我想提取网站上的一些信息，但是urllib提取的信息与我的浏览器中显示的网站不同 generic_link_seq=”http://yeastmine.yeastgenome.org/yeastmine/sequenceExporter.do?object=1016810" sauce=urllib.request.urlopen（generic_link_seq）.read（）汤=bs.BeautifulSoup（酱汁，“lxml”） text=soup.get_text（）.replac

我想提取网站上的一些信息，但是urllib提取的信息与我的浏览器中显示的网站不同

generic_link_seq=”http://yeastmine.yeastgenome.org/yeastmine/sequenceExporter.do?object=1016810"
sauce=urllib.request.urlopen（generic_link_seq）.read（）
汤=bs.BeautifulSoup（酱汁，“lxml”）
text=soup.get_text（）.replace（“\n”，”）
打印（文本）

尝试

请求。会话

（您需要先获取一些cookies）

结果:

>S00000660ATGACAGAGAGAGAGAGAGAGAGAGAGAGAGATCTAATCAGAGAGAACTCTTCGTTGTCTGAT GTAGAGCAGAGCAACAATATCCTCTCAGAGAGTGATCTAGATCCAATCCAATCGTCAGATCACACTGAAGTGATCCAGAGCGGAAGGAAGAGGTGAGTCATAGAC

尝试

请求。会话

（您需要先获取一些cookie）

结果:

>S00000660ATGACAGAGAGAGAGAGAGAGAGAGAGAGAGATCTAATCAGAGAGAACTCTTCGTTGTCTGAT GTAGAGCAGAGCAACAATATCCTCTCAGAGAGTGATCTAGATCCAATCCAATCGTCAGATCACACTGAAGTGATCCAGAGCGGAAGGAAGAGGTGAGTCATAGAC

问题可能出现在身份验证/验证过程中。我无法重现您的错误，可能我没有查看您链接的站点的适当权限。请记住，默认情况下，urllib将

用户代理设置为Python urllib/X.X
，这可能会导致服务器向您发送不同的响应，因为您被视为未经身份验证的用户，可能是机器人。请尝试使用curl
获得正确的响应，然后在pythonI中发出正确的请求。我尝试了不同的用户代理字符串，但没有帮助，所以我不确定这是问题所在。这是我运行的代码：import urllib2 headers={'User Agent'：'Mozilla/5.0'}req=urllib2.Request（''，None，headers）html=urllib2.urlopen（req）.read（）print（html）您可能会被重定向。这是浏览器可以处理的，而您当前的代码却无法处理。我已经尝试了这里描述的每一件事情，但仍然不起作用，但感谢各位=）问题可能在身份验证/验证过程中。我无法重现您的错误，可能我没有查看您链接的站点的适当权限。请记住，默认情况下，urllib将用户代理设置为Python urllib/X.X
，这可能会导致服务器向您发送不同的响应，因为您被视为未经身份验证的用户，可能是机器人。请尝试使用curl获得正确的响应，然后在pythonI中发出正确的请求。我尝试了不同的用户代理字符串，但没有帮助，所以我不确定这是问题所在。这是我运行的代码：import urllib2 headers={'User Agent'：'Mozilla/5.0'}req=urllib2.Request（''，None，headers）html=urllib2.urlopen（req）.read（）print（html）您可能会被重定向。这是浏览器可以处理的，而您当前的代码却无法处理。我已经尝试了这里描述的每一件事情，但仍然不起作用，但谢谢大家=）就是这样！非常感谢。就这样！非常感谢。
import requests
from bs4 import BeautifulSoup

generic_link_seq = "http://yeastmine.yeastgenome.org/yeastmine/sequenceExporter.do?object=1016810"
ses = requests.Session()
ses.get(generic_link_seq).text
sauce = ses.get(generic_link_seq).text
soup = BeautifulSoup(sauce,"lxml")
text = soup.get_text().replace("\n", "")
print(text)