Python：搜索所有包含“的行”；字；_Python

Python：搜索所有包含“的行”；字；

python

Python：搜索所有包含“的行”；字；,python,Python,我在文本解析方面有困难标题：通过抓取库我得到html页面，之后我通过NLTK库将其转换为文本，并将文本放入变量中。在此之后，我想搜索所有包含“word”的行，并打印这一行例如，我们有下一个文本：测试1:olololo 测试2：打印内容常见问题解答这是常见问题我希望搜索test1，并将结果打印为：test1:olololo import logging, nltk from grab import Grab from urllib import urlopen logging.basi

我在文本解析方面有困难

标题：通过抓取库我得到html页面，之后我通过NLTK库将其转换为文本，并将文本放入变量中。在此之后，我想搜索所有包含“word”的行，并打印这一行

例如，我们有下一个文本：

测试1:olololo
测试2：打印内容
常见问题解答这是常见问题
我希望搜索

test1

，并将结果打印为：

test1:olololo

import logging, nltk
from grab import Grab
from urllib import urlopen

logging.basicConfig(level=logging.DEBUG)
parsing_url = raw_input("Enter URL:")
if parsing_url.startswith('http://') or parsing_url.startswith('https://'):
    parsing_url = parsing_url.replace('http://','').replace('https://','')
print parsing_url
g = Grab()
g.go('http://user:pass@' + parsing_url, log_file='out.html')
url = "out.html"
html = urlopen(url).read()
raw = nltk.clean_html(html)

在bash中，我像这样意识到：

root@srv:~$ cat 123 | grep "test1"

结果我得到：

test1: olololo

但在Python中，我不希望执行bash命令：）

尝试以下方法：

for line in html.split():
  if "test1" in line:
    print line

假设

raw

是字符串列表（即行列表）：

也许有人会觉得它有用，我会这样解决这个问题： 1.使用NLTK库将html解码为文本 2.将此文本记录到文件中 3.通过bash命令解析文件。例如：

status,host = commands.getstatusoutput("cat raw.log | sed 's/^[ \t]*//' | grep -A 2 \"On Host\" | sed -n 2p")

另外，我正在尝试使用python工具解析此文本，您是否尝试过我的答案？如果有什么不对劲，我很乐意改进。是的，我想试试你的方法，但对我不起作用。

status,host = commands.getstatusoutput("cat raw.log | sed 's/^[ \t]*//' | grep -A 2 \"On Host\" | sed -n 2p")