python请求加载大页面解决方案

python请求加载大页面解决方案,python,parsing,url,get,python-requests,Python,Parsing,Url,Get,Python Requests,我在打开一个大页面时遇到了这个问题,页面上有82000行Python请求库。在我尝试使用urllib2之前,出现了一个错误“UncompleteRead” 现在有人提出请求: r = requests.get(https://www.bhphotovideo.com/c/search?atclk=Model+Year_2016&Ns=p_PRICE_2|0&ci=13223&ipp=120&N=4110474291+4294948825+3665082495)

我在打开一个大页面时遇到了这个问题,页面上有82000行Python请求库。在我尝试使用urllib2之前,出现了一个错误“UncompleteRead”

现在有人提出请求:

 r = requests.get(https://www.bhphotovideo.com/c/search?atclk=Model+Year_2016&Ns=p_PRICE_2|0&ci=13223&ipp=120&N=4110474291+4294948825+3665082495)
 page_source = r.content
 print page_source
源打印的结果不完整,我看到了结束标记,但不是从文档的开始

你知道如何加载这个URL的全部内容吗?82000行。

大多数(如果不是全部)shell都有字符限制。将
page\u source
保存到文件可确认
请求。get
返回整个页面:

import requests

r = requests.get('https://www.bhphotovideo.com/c/search?atclk=Model+Year_2016&Ns=p_PRICE_2|0&ci=13223&ipp=120&N=4110474291+4294948825+3665082495')
page_source = r.text
with open('test.txt', 'w') as f:
    f.write(page_source.strip())
文件内容以
开头,这是页面的开头。 还请注意,我使用
.text
而不是
.content
来更清晰地表示页面源代码。我还使用了
.strip()
,因为出于某种原因,此页面的源代码以无用的
'\n'
开头

另一种方法是简单地打印
页面的前100个字符(或任意字符)\u source

print(page_source[:100])
# <!DOCTYPE html>
# <!--[if lt IE 7]>      <html class="ie lt-ie7"> <![endif]-->
# <!--[if IE 7]>   
打印(页面\来源[:100])
# 
# 
#大多数(如果不是全部)shell都有字符限制。将
page\u source
保存到文件可确认
请求。get
返回整个页面:

import requests

r = requests.get('https://www.bhphotovideo.com/c/search?atclk=Model+Year_2016&Ns=p_PRICE_2|0&ci=13223&ipp=120&N=4110474291+4294948825+3665082495')
page_source = r.text
with open('test.txt', 'w') as f:
    f.write(page_source.strip())
文件内容以
开头,这是页面的开头。 还请注意,我使用
.text
而不是
.content
来更清晰地表示页面源代码。我还使用了
.strip()
,因为出于某种原因,此页面的源代码以无用的
'\n'
开头

另一种方法是简单地打印
页面的前100个字符(或任意字符)\u source

print(page_source[:100])
# <!DOCTYPE html>
# <!--[if lt IE 7]>      <html class="ie lt-ie7"> <![endif]-->
# <!--[if IE 7]>   
打印(页面\来源[:100])
# 
# 

#这可能只是您正在使用的shell的一个限制。尝试将
page\u source
保存到文件中。但是为什么我只能看到源代码的结尾部分呢?因为大多数shell都有缓冲区限制。一次只能显示
X
个字符,因此显然这些字符将是最后的
X
个字符。这可能只是您使用的shell的一个限制。尝试将
page\u source
保存到文件中。但是为什么我只能看到源代码的结尾部分呢?因为大多数shell都有缓冲区限制。一次只能显示
X
个字符,因此很明显,这些字符将是最后的
X
个字符。明白了!非常感谢。知道了!非常感谢。