Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/jpa/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Urllib读取错误的网站_Python_Beautifulsoup_Web_Urllib - Fatal编程技术网

Python Urllib读取错误的网站

Python Urllib读取错误的网站,python,beautifulsoup,web,urllib,Python,Beautifulsoup,Web,Urllib,我想提取网站上的一些信息,但是urllib提取的信息与我的浏览器中显示的网站不同 generic_link_seq=”http://yeastmine.yeastgenome.org/yeastmine/sequenceExporter.do?object=1016810" sauce=urllib.request.urlopen(generic_link_seq).read() 汤=bs.BeautifulSoup(酱汁,“lxml”) text=soup.get_text().replac

我想提取网站上的一些信息,但是urllib提取的信息与我的浏览器中显示的网站不同

generic_link_seq=”http://yeastmine.yeastgenome.org/yeastmine/sequenceExporter.do?object=1016810"
sauce=urllib.request.urlopen(generic_link_seq).read()
汤=bs.BeautifulSoup(酱汁,“lxml”)
text=soup.get_text().replace(“\n”,”)

打印(文本)
尝试
请求。会话
(您需要先获取一些cookies)

结果:

>S00000660ATGACAGAGAGAGAGAGAGAGAGAGAGAGAGATCTAATCAGAGAGAACTCTTCGTTGTCTGAT GTAGAGCAGAGCAACAATATCCTCTCAGAGAGTGATCTAGATCCAATCCAATCGTCAGATCACACTGAAGTGATCCAGAGCGGAAGGAAGAGGTGAGTCATAGAC


尝试
请求。会话
(您需要先获取一些cookie)

结果:

>S00000660ATGACAGAGAGAGAGAGAGAGAGAGAGAGAGATCTAATCAGAGAGAACTCTTCGTTGTCTGAT GTAGAGCAGAGCAACAATATCCTCTCAGAGAGTGATCTAGATCCAATCCAATCGTCAGATCACACTGAAGTGATCCAGAGCGGAAGGAAGAGGTGAGTCATAGAC


问题可能出现在身份验证/验证过程中。我无法重现您的错误,可能我没有查看您链接的站点的适当权限。请记住,默认情况下,urllib将
用户代理设置为
Python urllib/X.X
,这可能会导致服务器向您发送不同的响应,因为您被视为未经身份验证的用户,可能是机器人。请尝试使用
curl
获得正确的响应,然后在pythonI中发出正确的请求。我尝试了不同的用户代理字符串,但没有帮助,所以我不确定这是问题所在。这是我运行的代码:import urllib2 headers={'User Agent':'Mozilla/5.0'}req=urllib2.Request('',None,headers)html=urllib2.urlopen(req).read()print(html)您可能会被重定向。这是浏览器可以处理的,而您当前的代码却无法处理。我已经尝试了这里描述的每一件事情,但仍然不起作用,但感谢各位=)问题可能在身份验证/验证过程中。我无法重现您的错误,可能我没有查看您链接的站点的适当权限。请记住,默认情况下,urllib将
用户代理设置为
Python urllib/X.X
,这可能会导致服务器向您发送不同的响应,因为您被视为未经身份验证的用户,可能是机器人。请尝试使用
curl
获得正确的响应,然后在pythonI中发出正确的请求。我尝试了不同的用户代理字符串,但没有帮助,所以我不确定这是问题所在。这是我运行的代码:import urllib2 headers={'User Agent':'Mozilla/5.0'}req=urllib2.Request('',None,headers)html=urllib2.urlopen(req).read()print(html)您可能会被重定向。这是浏览器可以处理的,而您当前的代码却无法处理。我已经尝试了这里描述的每一件事情,但仍然不起作用,但谢谢大家=)就是这样!非常感谢。就这样!非常感谢。
import requests
from bs4 import BeautifulSoup

generic_link_seq = "http://yeastmine.yeastgenome.org/yeastmine/sequenceExporter.do?object=1016810"
ses = requests.Session()
ses.get(generic_link_seq).text
sauce = ses.get(generic_link_seq).text
soup = BeautifulSoup(sauce,"lxml")
text = soup.get_text().replace("\n", "")
print(text)