在正则表达式python中捕获TM
我正试图在下面的图片中捕捉女王大学。 我尝试使用unidecode来标准化编码。 但下面的模式无法捕捉。谢谢你的帮助在正则表达式python中捕获TM,python,regex,Python,Regex,我正试图在下面的图片中捕捉女王大学。 我尝试使用unidecode来标准化编码。 但下面的模式无法捕捉。谢谢你的帮助 from unidecode import unidecode CV2 = unidecode(CV) namepat = r'\d+\s+[A-Za-z&.(),:+# -]{5,150}?(?=[A-Z][A-Z])' 理想情况下,我会捕捉: 128 Queen(tm)s University# 原始简历 基金会21 673515,604897,11.3,122
from unidecode import unidecode
CV2 = unidecode(CV)
namepat = r'\d+\s+[A-Za-z&.(),:+# -]{5,150}?(?=[A-Z][A-Z])'
理想情况下,我会捕捉:
128 Queen(tm)s University#
原始简历
<爱荷华州立大学>基金会21 673515,604897,11.3,122
卫斯理大学CT 669593 600529 11.5 123纽约库珀联合大学
668408 641324 4.2 124纽约罗切斯特理工学院668406
627786 6.5 125宾夕法尼亚州巴克内尔大学666562 599216 11.2 126
麻州大学基金会,马664240,565020,17.5
127弗吉尼亚理工大学基金会VA 660340 594776 594776 128皇后U2122S
大学电话658896 595652 10.6 129科尔比学院ME 649992
599557 8.4 130加利福尼亚州洛马琳达大学648490 597669 8.5 131
普林西比亚公司MO 638419 593054 7.6 132圣学院
Cross马萨诸塞州634912 589769 7.7 133马萨诸塞州蒙特霍尔约克学院631950
582623 8.5 134俄克拉荷马州高等教育摄政者,俄克拉荷马州625719
447538 39.8 135伦斯勒理工学院纽约616836 583350
5.7 136东北大学MA 616618 566767 8.8 137麦克马斯特大学
CV2后的输出
卫斯理大学CT 669593 600529 11.5 123纽约库珀联合大学
668408 641324 4.2 124纽约罗切斯特理工学院668406
627786 6.5 125宾夕法尼亚州巴克内尔大学666562 599216 11.2 126
麻州大学基金会,马664240,565020,17.5
127弗吉尼亚理工大学基金会VA 660340 594776 594776 11皇后(TM)
大学电话658896 595652 10.6 129科尔比学院ME 649992
599557 8.4 130加利福尼亚州洛马琳达大学648490 597669 8.5 131
普林西比亚公司MO 638419 593054 7.6 132圣学院
Cross马萨诸塞州634912 589769 7.7 133马萨诸塞州蒙特霍尔约克学院631950
582623 8.5 134俄克拉荷马州高等教育摄政者,俄克拉荷马州625719
447538 39.8 135伦斯勒理工学院纽约616836 583350
5.7 136东北大学M
你的代码可以工作
print re.findall(namepat, CV2)
['123 Cooper Union ',
'124 Rochester Institute of Technology ',
'125 Bucknell University ',
'126 University of Massachusetts Foundation, Inc. ',
'127 Virginia Tech Foundation ',
'128 Queen(tm)s University# ',
'129 Colby College ',
'130 Loma Linda University ',
'131 Principia Corporation ',
'132 College of the Holy Cross ',
'133 Mount Holyoke College ',
'134 Oklahoma State Regents for Higher Education ',
'135 Rensselaer Polytechnic Institute ']
去掉尾随空格可能会更好
namepat = r'\d+\s+[A-Za-z&.(),:+# -]{5,150}?(?= ?[A-Z][A-Z])'
你真的把这篇文章分成这样一大块吗?谢谢!我意识到我犯了一个非常愚蠢的命名错误。这篇文章帮我抓住了这个机会。