Python 如何使用正则表达式拆分编号列表_Python_Regex

Python 如何使用正则表达式拆分编号列表

python regex

Python 如何使用正则表达式拆分编号列表,python,regex,Python,Regex,我正在尝试将大量以下格式的字符串拆分为python中的字典列表 1千飞宫钱妃宫原名镇会庙贞惠庙, 后来是乾陵宫钱灵宫. 这座寺庙建于北宋元丰年间，建于1083年。这座寺庙在明初进行了翻修。1967年，寺庙被拆除，但1985年重建。主神是千石生飞钱氏圣妃. 次要神是广平周王广平周王和泰山孔王泰山孔王. 刘克庄于1265-1274年仙春年间所作的石刻刘克庄有资格的协应钱夫人庙记《寺内对钱夫人有益的辅助碑铭材料记录》，1995:54，第48号是关于这座寺院的碑文已不复存在。2兴隆什兴隆社: 主

我正在尝试将大量以下格式的字符串拆分为python中的字典列表

1千飞宫钱妃宫原名镇会庙贞惠庙, 后来是乾陵宫钱灵宫. 这座寺庙建于北宋元丰年间，建于1083年。这座寺庙在明初进行了翻修。1967年，寺庙被拆除，但1985年重建。主神是千石生飞钱氏圣妃. 次要神是广平周王广平周王和泰山孔王泰山孔王. 刘克庄于1265-1274年仙春年间所作的石刻刘克庄有资格的协应钱夫人庙记《寺内对钱夫人有益的辅助碑铭材料记录》，1995:54，第48号是关于这座寺院的碑文已不复存在。2兴隆什兴隆社: 主要神是尊主明王尊主明王后土辅仁后土夫人.

我试过下面的方法，但也把绳子弄断了

关于拆分\d+，字符串

结果: 1,48,2

48不应该是结果

我正在考虑排除在开放括号之后的结果，但我不确定如何处理。

在解析长字符串时，PyPi regex模块被证明提供了更快、更稳定的性能

我建议使用pip install regex或pip3 install regex安装它，然后运行

细节

? - 不允许使用当前位置左侧以外的字符或任何0+字符 ?!^ - 此时不允许使用字符串起始位置？=\d+\-当前位置右侧必须有1+个数字。试试这个正则表达式：

(?:^|\.\s)\d+\)(?=\s[A-Z])

解释：

(?:^|\.\s)(?#start of line or end of sentence)\d+\)(?#Number followed by bracket)(?=\s[A-Z])(?#whitespace then a captital at the start of the sentence)

Regex101:

对于PyPi regex模块，您可能会使用regex.splitr'？您能否显示使用预期结果？还有一件事：我真的建议使用PyPi regex模块进行如此长的文本解析。

(?:^|\.\s)\d+\)(?=\s[A-Z])

(?:^|\.\s)(?#start of line or end of sentence)\d+\)(?#Number followed by bracket)(?=\s[A-Z])(?#whitespace then a captital at the start of the sentence)