Python 2.7 Python:遍历html文件

Python 2.7 Python:遍历html文件,python-2.7,for-loop,row,Python 2.7,For Loop,Row,我正在尝试从互联网上遍历一个html文件 target = br.response().read() for row in target: if "[some text]" in row: print next(target) 问题是这个循环迭代html文件中的每个字符,所以它永远找不到匹配项。我如何让它遍历每一行呢 我尝试了target=target.splitlines(),但这确实会把文件搞砸。您基本上想要实现的是以下几点(如标题所示,从文件中读取): 您想打开文件(“t

我正在尝试从互联网上遍历一个html文件

target = br.response().read()
for row in target:
    if "[some text]" in row:
    print next(target)
问题是这个循环迭代html文件中的每个字符,所以它永远找不到匹配项。我如何让它遍历每一行呢


我尝试了
target=target.splitlines()
,但这确实会把文件搞砸。

您基本上想要实现的是以下几点(如标题所示,从文件中读取):

您想打开文件
(“test.txt”)

您阅读了中的每一行(
for.)

看看这行是否包含一个字符串,其中
in
用nice:)

如果您对行号感兴趣:

    for index, line in enumerate(file):
但请注意,索引以0开头,因此当前行号为
index+1


类似地,如果您想将字符串作为文件读取,请查看。

查看您正在查看的文件的页面源,因为这是作为响应返回的内容。我有一种感觉,你得到的回应实际上没有你想要的新词。对于源代码可读的页面,您的splitline()方法非常有效,但对于源代码基本上没有换行符的站点,如Google主页,它更接近您遇到的问题


根据您试图实现的目标,最好的选择可能是使用像lxml这样的html/xml解析库。否则,使用可能是一种相当安全的方法。这两种方法都比猜测分线应该在哪里要好得多。

对不起,我应该更清楚。我正在使用mechanize模块提交一个html表单。在得到响应br.response().read()之后,我想遍历html文件/对象。
    for index, line in enumerate(file):