如何更改迭代段（Python）的大小(_Python_Size_Iteration

如何更改迭代段（Python）的大小(

python

如何更改迭代段（Python）的大小(,python,size,iteration,Python,Size,Iteration,我最近一直在尝试使用for循环迭代网页源。此脚本检测网页，查找关键字并正确标识实例数但是，它迭代的某些行大于128个字符，因此会将它们分割，这使得数据提取更加困难，而且通常看起来不干净我一直在试图找到一种方法来增加这个数字，比如说，500（或512）个字符，但后来失败了。如果有人知道这样做的方法（可能真的很简单）。我将不胜感激 import requests r = requests.get('http://www.trademe.co.nz/Browse/SearchResults.as

我最近一直在尝试使用for循环迭代网页源。此脚本检测网页，查找关键字并正确标识实例数

但是，它迭代的某些行大于128个字符，因此会将它们分割，这使得数据提取更加困难，而且通常看起来不干净

我一直在试图找到一种方法来增加这个数字，比如说，500（或512）个字符，但后来失败了。如果有人知道这样做的方法（可能真的很简单）。我将不胜感激

import requests

r = requests.get('http://www.trademe.co.nz/Browse/SearchResults.aspx?sort_order=price_desc&searchString=punching+bag&rptpath=all&type=Search&searchType=all&generalSearch_keypresses=12&generalSearch_suggested=0&searchregion=16')

count = 0
for x in r:
    if 'Punch' and 'bag' and '50kg' in x:
        count = count + 1
    print x
    print len(x)

print count

这是我当前的代码和一些额外的疑难解答。获取三个关键字并通过trademe网站页面html进行搜索

它在html中逐行迭代寻找关键字，但是它会截断128个字符，因此将一些行分开，将它们视为不同的行

因此，当我打印“x”时，我想打印整行（最多400个字符），而不是128个字符的片段

 Sample output:

e" src="http://images.trademe.co.nz/photoserver/lv2/94/201828294.jpg" alt="* No.1 Fitness * KANGO Black Punching Bag 50kg" align
128
ted">* No.1 Fitness * KANGO Black Punching Bag 50kg</a>
            <a id="ListView_CardRepeater_ctl06_card_GeneralCard_lis
128
2

示例输出：
e“src=”http://images.trademe.co.nz/photoserver/lv2/94/201828294.jpg“alt=“*No.1 Fitness*KANGO黑色穿孔袋50kg”对齐
128
ted“>*1号健身*KANGO黑色穿孔袋50kg

这是第二行的完整内容：

            <a href="/sports/martial-arts-boxing/bags/auction-678639714.htm" id="ListView_CardRepeater_ctl06_card_GeneralCard_listingTitle" class="dotted">* No.1 Fitness * KANGO Black Punching Bag 50kg</a>

您使用了错误的迭代器。它将整个网页视为单个字符串，一次为您提供128个字符。这些不是网页中的实际行

试试这个

r = requests.get(<your url>)
for x in r.iter_lines():
    // do something...

r=requests.get（）
对于r.iter_线（）中的x：
//做点什么。。。

或者，您也可以对urllib2模块执行相同的操作

import urllib2
...
r = urllib2.urlopen(<your url >)
for x in r:
    // do something...

导入urllib2
...
r=urllib2.urlopen（）
对于r中的x：
//做点什么。。。

显示一些代码，包括输入和希望的输出。您的英文描述太模糊，无法使用。您能显示任何代码吗？“它截断128个字符，因此将一些行分开，将它们视为不同的行”-你确定吗？我在这里没有看到任何会导致这种行为的东西。你能展示示例输出吗？

如果x中的“Punch”和“bag”以及“50kg:

没有达到你认为的效果。另外，如果你使用HTML解析器从文档中正确提取信息，你会有一个更轻松的时间。我认为这不是因为代码，而是终端。也许你可以将结果输出到一个文件中。

import urllib2
...
r = urllib2.urlopen(<your url >)
for x in r:
    // do something...