python请求加载大页面解决方案_Python_Parsing_Url_Get_Python Requests

python请求加载大页面解决方案

python parsing url

python请求加载大页面解决方案,python,parsing,url,get,python-requests,Python,Parsing,Url,Get,Python Requests,我在打开一个大页面时遇到了这个问题，页面上有82000行Python请求库。在我尝试使用urllib2之前，出现了一个错误“UncompleteRead” 现在有人提出请求： r = requests.get(https://www.bhphotovideo.com/c/search?atclk=Model+Year_2016&Ns=p_PRICE_2|0&ci=13223&ipp=120&N=4110474291+4294948825+3665082495)

我在打开一个大页面时遇到了这个问题，页面上有82000行Python请求库。在我尝试使用urllib2之前，出现了一个错误“UncompleteRead”

现在有人提出请求：

 r = requests.get(https://www.bhphotovideo.com/c/search?atclk=Model+Year_2016&Ns=p_PRICE_2|0&ci=13223&ipp=120&N=4110474291+4294948825+3665082495)
 page_source = r.content
 print page_source

源打印的结果不完整，我看到了结束标记，但不是从文档的开始

你知道如何加载这个URL的全部内容吗？82000行。

大多数（如果不是全部）shell都有字符限制。将

page\u source

保存到文件可确认

请求。get

返回整个页面：

import requests

r = requests.get('https://www.bhphotovideo.com/c/search?atclk=Model+Year_2016&Ns=p_PRICE_2|0&ci=13223&ipp=120&N=4110474291+4294948825+3665082495')
page_source = r.text
with open('test.txt', 'w') as f:
    f.write(page_source.strip())

文件内容以

开头，这是页面的开头。还请注意，我使用

.text

而不是

.content

来更清晰地表示页面源代码。我还使用了

.strip（）

，因为出于某种原因，此页面的源代码以无用的

'\n'

开头

另一种方法是简单地打印

页面的前100个字符（或任意字符）\u source

：

print(page_source[:100])
# <!DOCTYPE html>
# <!--[if lt IE 7]>      <html class="ie lt-ie7"> <![endif]-->
# <!--[if IE 7]>

打印（页面\来源[：100]）
# 
# 
#大多数（如果不是全部）shell都有字符限制。将page\u source
保存到文件可确认请求。get
返回整个页面：
import requests

r = requests.get('https://www.bhphotovideo.com/c/search?atclk=Model+Year_2016&Ns=p_PRICE_2|0&ci=13223&ipp=120&N=4110474291+4294948825+3665082495')
page_source = r.text
with open('test.txt', 'w') as f:
    f.write(page_source.strip())

文件内容以开头，这是页面的开头。
还请注意，我使用.text
而不是.content
来更清晰地表示页面源代码。我还使用了.strip（）
，因为出于某种原因，此页面的源代码以无用的'\n'
开头
另一种方法是简单地打印页面的前100个字符（或任意字符）\u source
：
print(page_source[:100])
# <!DOCTYPE html>
# <!--[if lt IE 7]>      <html class="ie lt-ie7"> <![endif]-->
# <!--[if IE 7]>   

打印（页面\来源[：100]）
# 
# 
#这可能只是您正在使用的shell的一个限制。尝试将page\u source
保存到文件中。但是为什么我只能看到源代码的结尾部分呢？因为大多数shell都有缓冲区限制。一次只能显示X
个字符，因此显然这些字符将是最后的X
个字符。这可能只是您使用的shell的一个限制。尝试将page\u source
保存到文件中。但是为什么我只能看到源代码的结尾部分呢？因为大多数shell都有缓冲区限制。一次只能显示X
个字符，因此很明显，这些字符将是最后的X
个字符。明白了！非常感谢。知道了！非常感谢。