Python:搜索所有包含“的行”;字;

Python:搜索所有包含“的行”;字;,python,Python,我在文本解析方面有困难 标题:通过抓取库我得到html页面,之后我通过NLTK库将其转换为文本,并将文本放入变量中。在此之后,我想搜索所有包含“word”的行,并打印这一行 例如,我们有下一个文本: 测试1:olololo 测试2:打印内容 常见问题解答这是常见问题 我希望搜索test1,并将结果打印为:test1:olololo import logging, nltk from grab import Grab from urllib import urlopen logging.basi

我在文本解析方面有困难

标题:通过抓取库我得到html页面,之后我通过NLTK库将其转换为文本,并将文本放入变量中。在此之后,我想搜索所有包含“word”的行,并打印这一行

例如,我们有下一个文本:

测试1:olololo
测试2:打印内容
常见问题解答这是常见问题
我希望搜索
test1
,并将结果打印为:
test1:olololo

import logging, nltk
from grab import Grab
from urllib import urlopen

logging.basicConfig(level=logging.DEBUG)
parsing_url = raw_input("Enter URL:")
if parsing_url.startswith('http://') or parsing_url.startswith('https://'):
    parsing_url = parsing_url.replace('http://','').replace('https://','')
print parsing_url
g = Grab()
g.go('http://user:pass@' + parsing_url, log_file='out.html')
url = "out.html"
html = urlopen(url).read()
raw = nltk.clean_html(html)
在bash中,我像这样意识到:

root@srv:~$ cat 123 | grep "test1"
结果我得到:

test1: olololo
但在Python中,我不希望执行bash命令:)

尝试以下方法:

for line in html.split():
  if "test1" in line:
    print line

假设
raw
是字符串列表(即行列表):


也许有人会觉得它有用,我会这样解决这个问题: 1.使用NLTK库将html解码为文本 2.将此文本记录到文件中 3.通过bash命令解析文件。例如:

status,host = commands.getstatusoutput("cat raw.log | sed 's/^[ \t]*//' | grep -A 2 \"On Host\" | sed -n 2p")

另外,我正在尝试使用python工具解析此文本,您是否尝试过我的答案?如果有什么不对劲,我很乐意改进。是的,我想试试你的方法,但对我不起作用。
status,host = commands.getstatusoutput("cat raw.log | sed 's/^[ \t]*//' | grep -A 2 \"On Host\" | sed -n 2p")