使用Python从文本文件中提取单词_Python_Words

使用Python从文本文件中提取单词

python

使用Python从文本文件中提取单词,python,words,Python,Words,对Python这整件事还是很陌生的。以下是我想做的：有点像这样，但是我不需要在单引号之间去掉单词，而是需要在某个单词后面的双引号中去掉单词现在，我有脚本抓取一个网站并保存HTML。效果很好。没问题。然后，我对HTML进行了整理，并在页面中搜索我需要的数据所在的所有表格。下面是一个表格行的示例： <td style="background-color:red;w ...blahblahblah... margin:0px;background:none" title="Bland

对Python这整件事还是很陌生的。以下是我想做的：

有点像这样，但是我不需要在单引号之间去掉单词，而是需要在某个单词后面的双引号中去掉单词

现在，我有脚本抓取一个网站并保存HTML。效果很好。没问题。然后，我对HTML进行了整理，并在页面中搜索我需要的数据所在的所有表格。下面是一个表格行的示例：

<td style="background-color:red;w ...blahblahblah... margin:0px;background:none" title="Bland NB" type="button" value="TRX"/>

BeautifulSoup将所有HTML按每行一个表行排列（如果有意义的话），我使用正则表达式进行搜索，只提取其中包含“背景色：红色”的表行，因为红色是我唯一关心的标题。我只需要脚本一行一行地浏览（有350行，与上面一样，但标题不同），然后取出“title=”后面的引号，并将所有内容保存到一个文本文件中，如果你知道我的意思，每行一个“title=”条目

我想美苏也许能做到。我一直在努力解决分区和条带函数，但无法让它们完成我希望它们完成的任务。我也认为我可以用正则表达式来做，但这本身就是一个罐头虫

我好近啊！非常感谢您的帮助

谢谢

编辑

我不能发布更多的代码，因为它包含公司IP和信息，我不能在野外发布。对不起

--Brent

你能发布到目前为止你拥有的东西吗？你对你发布的html有什么期望？这是一条经过编辑的线，我加入这条线只是为了说明我实际上想从html中得到什么。看起来这会起作用，好先生。我正在将其融入代码的其他部分，但看起来应该可以完美地工作。谢谢不客气，您将不得不调整它一点，以适应您自己的代码，但它应该工作良好。我在调整过程中现在。“soup.td.get（）”就是我要找的。再次感谢所有帮助过我的人！非常感谢！

html = """
<td style="background-color:red;w ...blahblahblah... margin:0px;background:none" title="Bland NB" type="button" value="TRX"/>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)

if "background-color:red" in td.get("style"):
    print soup.td.get("title")
    Bland NB

soup = BeautifulSoup(html)

all_tds = soup.findAll("td")

with open("out.txt","a+") as f:
    for td in all_tds:
        if "background-color:red" in soup.td.get("style"):
            f.write(soup.td.get("title")+"\n")