如何更改迭代段(Python)的大小(

如何更改迭代段(Python)的大小(,python,size,iteration,Python,Size,Iteration,我最近一直在尝试使用for循环迭代网页源。此脚本检测网页,查找关键字并正确标识实例数 但是,它迭代的某些行大于128个字符,因此会将它们分割,这使得数据提取更加困难,而且通常看起来不干净 我一直在试图找到一种方法来增加这个数字,比如说,500(或512)个字符,但后来失败了。如果有人知道这样做的方法(可能真的很简单)。我将不胜感激 import requests r = requests.get('http://www.trademe.co.nz/Browse/SearchResults.as

我最近一直在尝试使用for循环迭代网页源。此脚本检测网页,查找关键字并正确标识实例数

但是,它迭代的某些行大于128个字符,因此会将它们分割,这使得数据提取更加困难,而且通常看起来不干净

我一直在试图找到一种方法来增加这个数字,比如说,500(或512)个字符,但后来失败了。如果有人知道这样做的方法(可能真的很简单)。我将不胜感激

import requests

r = requests.get('http://www.trademe.co.nz/Browse/SearchResults.aspx?sort_order=price_desc&searchString=punching+bag&rptpath=all&type=Search&searchType=all&generalSearch_keypresses=12&generalSearch_suggested=0&searchregion=16')

count = 0
for x in r:
    if 'Punch' and 'bag' and '50kg' in x:
        count = count + 1
    print x
    print len(x)

print count
这是我当前的代码和一些额外的疑难解答。获取三个关键字并通过trademe网站页面html进行搜索


它在html中逐行迭代寻找关键字,但是它会截断128个字符,因此将一些行分开,将它们视为不同的行

因此,当我打印“x”时,我想打印整行(最多400个字符),而不是128个字符的片段

 Sample output:

e" src="http://images.trademe.co.nz/photoserver/lv2/94/201828294.jpg" alt="* No.1 Fitness * KANGO Black Punching Bag 50kg" align
128
ted">* No.1 Fitness * KANGO Black Punching Bag 50kg</a>
            <a id="ListView_CardRepeater_ctl06_card_GeneralCard_lis
128
2
示例输出:
e“src=”http://images.trademe.co.nz/photoserver/lv2/94/201828294.jpg“alt=“*No.1 Fitness*KANGO黑色穿孔袋50kg”对齐
128
ted“>*1号健身*KANGO黑色穿孔袋50kg
这是第二行的完整内容:

            <a href="/sports/martial-arts-boxing/bags/auction-678639714.htm" id="ListView_CardRepeater_ctl06_card_GeneralCard_listingTitle" class="dotted">* No.1 Fitness * KANGO Black Punching Bag 50kg</a>

您使用了错误的迭代器。它将整个网页视为单个字符串,一次为您提供128个字符。这些不是网页中的实际行

试试这个

r = requests.get(<your url>)
for x in r.iter_lines():
    // do something...
r=requests.get()
对于r.iter_线()中的x:
//做点什么。。。
或者,您也可以对urllib2模块执行相同的操作

import urllib2
...
r = urllib2.urlopen(<your url >)
for x in r:
    // do something...
导入urllib2
...
r=urllib2.urlopen()
对于r中的x:
//做点什么。。。

显示一些代码,包括输入和希望的输出。您的英文描述太模糊,无法使用。您能显示任何代码吗?“它截断128个字符,因此将一些行分开,将它们视为不同的行”-你确定吗?我在这里没有看到任何会导致这种行为的东西。你能展示示例输出吗?
如果x中的“Punch”和“bag”以及“50kg:
没有达到你认为的效果。另外,如果你使用HTML解析器从文档中正确提取信息,你会有一个更轻松的时间。我认为这不是因为代码,而是终端。也许你可以将结果输出到一个文件中。
import urllib2
...
r = urllib2.urlopen(<your url >)
for x in r:
    // do something...