Python正则表达式网页_Python_Html_Regex

Python正则表达式网页

python html regex

Python正则表达式网页,python,html,regex,Python,Html,Regex,我需要帮助为网页编写正则表达式来提取一些数据。网页为：我想从这段html代码中返回“Dallas”： <a href="/county/Dallas_County-TX.html">Dallas County</a> </p> <b>Population in 2012:</b> 2012年人口：这是我到目前为止写的正则表达式，但它似乎不起作用。知道我做错了什么吗 (">(.)/sCounty</a>\n

我需要帮助为网页编写正则表达式来提取一些数据。网页为：

我想从这段html代码中返回“Dallas”：

<a href="/county/Dallas_County-TX.html">Dallas County</a>
</p>
<b>Population in 2012:</b>



2012年人口：

这是我到目前为止写的正则表达式，但它似乎不起作用。知道我做错了什么吗

(">(.)/sCounty</a>\n</p>\n<b>Population in 2012:</b>")

（“>”/sCounty\n\n 2012年人口：）

解决这个问题的另一种方法是使用

split

函数，而不是使用

regex

s.split('</a>')[0].split('>')[1].split(' ')[0]

s.split（“”）[0]。split（“”>）[1]。split（“”）[0]

应该返回您想要的答案

但是，对于更复杂的HTML，使用上述方法会变得单调乏味。您可以改为使用模块。

空格不是

/s

，而是

\s

。我仍然收到相同的错误：回溯（最近一次调用）：文件“”，第1行，在索引器中：列表索引超出范围获取中的一个解决方案。您不想在HTML上使用正则表达式，因为正则表达式无法解析HTML。秘诀是永远不要使用正则表达式解析HTML

（）

匹配单个字符。+1当有人要求使用html正则表达式时，唯一正确的答案是告诉他们停止使用正则表达式来表示html。