Python 如何使用正则表达式拆分编号列表
我正在尝试将大量以下格式的字符串拆分为python中的字典列表 1千飞宫钱妃宫 原名镇会庙贞惠庙, 后来是乾陵宫钱灵宫. 这座寺庙建于北宋元丰年间,建于1083年。这座寺庙在明初进行了翻修。1967年,寺庙被拆除,但1985年重建。主神是千石生飞钱氏圣妃. 次要神是广平周王广平周王 和泰山孔王泰山孔王. 刘克庄于1265-1274年仙春年间所作的石刻刘克庄 有资格的协应钱夫人庙记 《寺内对钱夫人有益的辅助碑铭材料记录》,1995:54,第48号是关于这座寺院的碑文已不复存在。2兴隆什兴隆社: 主要神是尊主明王尊主明王 后土辅仁后土夫人. 我试过下面的方法,但也把绳子弄断了 关于拆分\d+,字符串 结果: 1,48,2 48不应该是结果Python 如何使用正则表达式拆分编号列表,python,regex,Python,Regex,我正在尝试将大量以下格式的字符串拆分为python中的字典列表 1千飞宫钱妃宫 原名镇会庙贞惠庙, 后来是乾陵宫钱灵宫. 这座寺庙建于北宋元丰年间,建于1083年。这座寺庙在明初进行了翻修。1967年,寺庙被拆除,但1985年重建。主神是千石生飞钱氏圣妃. 次要神是广平周王广平周王 和泰山孔王泰山孔王. 刘克庄于1265-1274年仙春年间所作的石刻刘克庄 有资格的协应钱夫人庙记 《寺内对钱夫人有益的辅助碑铭材料记录》,1995:54,第48号是关于这座寺院的碑文已不复存在。2兴隆什兴隆社: 主
我正在考虑排除在开放括号之后的结果,但我不确定如何处理。在解析长字符串时,PyPi regex模块被证明提供了更快、更稳定的性能 我建议使用pip install regex或pip3 install regex安装它,然后运行 细节 ? - 不允许使用当前位置左侧以外的字符或任何0+字符 ?!^ - 此时不允许使用字符串起始位置 ?=\d+\-当前位置右侧必须有1+个数字。 试试这个正则表达式:
(?:^|\.\s)\d+\)(?=\s[A-Z])
解释:
(?:^|\.\s)(?#start of line or end of sentence)\d+\)(?#Number followed by bracket)(?=\s[A-Z])(?#whitespace then a captital at the start of the sentence)
Regex101:对于PyPi regex模块,您可能会使用regex.splitr'?您能否显示使用预期结果?还有一件事:我真的建议使用PyPi regex模块进行如此长的文本解析。
(?:^|\.\s)\d+\)(?=\s[A-Z])
(?:^|\.\s)(?#start of line or end of sentence)\d+\)(?#Number followed by bracket)(?=\s[A-Z])(?#whitespace then a captital at the start of the sentence)