使用Python从文本文件中提取单词

使用Python从文本文件中提取单词,python,words,Python,Words,对Python这整件事还是很陌生的。以下是我想做的: 有点像这样,但是我不需要在单引号之间去掉单词,而是需要在某个单词后面的双引号中去掉单词 现在,我有脚本抓取一个网站并保存HTML。效果很好。没问题。 然后,我对HTML进行了整理,并在页面中搜索我需要的数据所在的所有表格。 下面是一个表格行的示例: <td style="background-color:red;w ...blahblahblah... margin:0px;background:none" title="Bland

对Python这整件事还是很陌生的。以下是我想做的:

有点像这样,但是我不需要在单引号之间去掉单词,而是需要在某个单词后面的双引号中去掉单词

现在,我有脚本抓取一个网站并保存HTML。效果很好。没问题。 然后,我对HTML进行了整理,并在页面中搜索我需要的数据所在的所有表格。 下面是一个表格行的示例:

<td style="background-color:red;w ...blahblahblah... margin:0px;background:none" title="Bland NB" type="button" value="TRX"/>

BeautifulSoup将所有HTML按每行一个表行排列(如果有意义的话),我使用正则表达式进行搜索,只提取其中包含“背景色:红色”的表行,因为红色是我唯一关心的标题。我只需要脚本一行一行地浏览(有350行,与上面一样,但标题不同),然后取出“title=”后面的引号,并将所有内容保存到一个文本文件中,如果你知道我的意思,每行一个“title=”条目

我想美苏也许能做到。我一直在努力解决分区和条带函数,但无法让它们完成我希望它们完成的任务。我也认为我可以用正则表达式来做,但这本身就是一个罐头虫

我好近啊!非常感谢您的帮助

谢谢

编辑

我不能发布更多的代码,因为它包含公司IP和信息,我不能在野外发布。对不起


--Brent

你能发布到目前为止你拥有的东西吗?你对你发布的html有什么期望?这是一条经过编辑的线,我加入这条线只是为了说明我实际上想从html中得到什么。看起来这会起作用,好先生。我正在将其融入代码的其他部分,但看起来应该可以完美地工作。谢谢不客气,您将不得不调整它一点,以适应您自己的代码,但它应该工作良好。我在调整过程中现在。“soup.td.get()”就是我要找的。再次感谢所有帮助过我的人!非常感谢!
html = """
<td style="background-color:red;w ...blahblahblah... margin:0px;background:none" title="Bland NB" type="button" value="TRX"/>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)

if "background-color:red" in td.get("style"):
    print soup.td.get("title")
    Bland NB
soup = BeautifulSoup(html)

all_tds = soup.findAll("td")

with open("out.txt","a+") as f:
    for td in all_tds:
        if "background-color:red" in soup.td.get("style"):
            f.write(soup.td.get("title")+"\n")