Python从.txt文件中提取所有HREF

Python从.txt文件中提取所有HREF,python,Python,我有一个包含数千个原始html代码的文件夹。我想从每个页面提取所有href。最快的方法是什么 href="what_i_need_here" 我想这可能是可行的,但由于您没有提供任何信息,因此无法确定。使用的正则表达式是href=“(.+?)”\n。我使用f.readlines()阅读内容,然后将其组合成一行,使用''进行搜索。join。看看它是否有效,或者添加文本示例。您很可能希望使用os.listdir()获取文件列表,并使用Beautiful Soup解析html,然后使用Soup.f

我有一个包含数千个原始html代码的文件夹。我想从每个页面提取所有href。最快的方法是什么

href="what_i_need_here" 

我想这可能是可行的,但由于您没有提供任何信息,因此无法确定。使用的正则表达式是
href=“(.+?)”\n
。我使用
f.readlines()
阅读内容,然后将其组合成一行,使用
''进行搜索。join
。看看它是否有效,或者添加文本示例。

您很可能希望使用
os.listdir()
获取文件列表,并使用Beautiful Soup解析html,然后使用
Soup.find_all(“href”)
。有趣的是,我甚至没有启动python来尝试这一点,通常每当我编写正则表达式代码时,调试都需要几年的时间,哈哈
import re
with open('file', 'r') as f:
    print (re.findall(r"href=\"(.+?)\"\n", ''.join(f.readlines())))