Python 重复分隔符并提取这些分隔符之间的字符串_Python_Html_Substring_Text Extraction

Python 重复分隔符并提取这些分隔符之间的字符串

python html

Python 重复分隔符并提取这些分隔符之间的字符串,python,html,substring,text-extraction,Python,Html,Substring,Text Extraction,我对Python和正则表达式相当陌生，希望从html文件中提取信息假设下面是html文件中给出的一行（因为html没有“看到”空白，所以我们的示例在同一行）而不是我想要的 ['EXTRACT_THIS', 'ALSO_EXTRACT_THIS'] 我做错什么了吗？我已经研究过了，似乎这是一种使用重复分隔符提取多个子字符串的方法。这是因为将匹配它所能匹配的最长字符串，即提取\u this 对于也应使用非贪婪量词： '<td.*?>(.*?)</td>' “（.*）”

我对Python和正则表达式相当陌生，希望从html文件中提取信息

假设下面是html文件中给出的一行（因为html没有“看到”空白，所以我们的示例在同一行）

而不是我想要的

['EXTRACT_THIS', 'ALSO_EXTRACT_THIS']

我做错什么了吗？我已经研究过了，似乎这是一种使用重复分隔符提取多个子字符串的方法。

这是因为

将匹配它所能匹配的最长字符串，即

提取\u this

对于

也应使用非贪婪量词：

'<td.*?>(.*?)</td>'

“（.*）”

这不完全是您想要的，但是Regex并不是从HTML中提取的最佳工具。我想提取介于和之间的信息，然后将其打印到另一个文件中，当然可以使用for循环遍历创建的列表。

['ALSO_EXTRACT_THIS']

['EXTRACT_THIS', 'ALSO_EXTRACT_THIS']

'<td.*?>(.*?)</td>'