Python从.txt文件中提取所有HREF_Python

Python从.txt文件中提取所有HREF

python

Python从.txt文件中提取所有HREF,python,Python,我有一个包含数千个原始html代码的文件夹。我想从每个页面提取所有href。最快的方法是什么 href="what_i_need_here" 我想这可能是可行的，但由于您没有提供任何信息，因此无法确定。使用的正则表达式是href=“（.+？）”\n。我使用f.readlines（）阅读内容，然后将其组合成一行，使用''进行搜索。join。看看它是否有效，或者添加文本示例。您很可能希望使用os.listdir（）获取文件列表，并使用Beautiful Soup解析html，然后使用Soup.f

我有一个包含数千个原始html代码的文件夹。我想从每个页面提取所有href。最快的方法是什么

href="what_i_need_here"

我想这可能是可行的，但由于您没有提供任何信息，因此无法确定。使用的正则表达式是

href=“（.+？）”\n

。我使用

f.readlines（）

阅读内容，然后将其组合成一行，使用

''进行搜索。join

。看看它是否有效，或者添加文本示例。

您很可能希望使用

os.listdir（）

获取文件列表，并使用Beautiful Soup解析html，然后使用

Soup.find_all（“href”）

。有趣的是，我甚至没有启动python来尝试这一点，通常每当我编写正则表达式代码时，调试都需要几年的时间，哈哈

import re
with open('file', 'r') as f:
    print (re.findall(r"href=\"(.+?)\"\n", ''.join(f.readlines())))