Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/webpack/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在正则表达式python中捕获TM_Python_Regex - Fatal编程技术网

在正则表达式python中捕获TM

在正则表达式python中捕获TM,python,regex,Python,Regex,我正试图在下面的图片中捕捉女王大学。 我尝试使用unidecode来标准化编码。 但下面的模式无法捕捉。谢谢你的帮助 from unidecode import unidecode CV2 = unidecode(CV) namepat = r'\d+\s+[A-Za-z&.(),:+# -]{5,150}?(?=[A-Z][A-Z])' 理想情况下,我会捕捉: 128 Queen(tm)s University# 原始简历 基金会21 673515,604897,11.3,122

我正试图在下面的图片中捕捉女王大学。 我尝试使用unidecode来标准化编码。 但下面的模式无法捕捉。谢谢你的帮助

from unidecode import unidecode
CV2 = unidecode(CV)

namepat = r'\d+\s+[A-Za-z&.(),:+# -]{5,150}?(?=[A-Z][A-Z])'
理想情况下,我会捕捉:

128 Queen(tm)s University#
原始简历

<爱荷华州立大学>基金会21 673515,604897,11.3,122 卫斯理大学CT 669593 600529 11.5 123纽约库珀联合大学 668408 641324 4.2 124纽约罗切斯特理工学院668406 627786 6.5 125宾夕法尼亚州巴克内尔大学666562 599216 11.2 126 麻州大学基金会,马664240,565020,17.5 127弗吉尼亚理工大学基金会VA 660340 594776 594776 128皇后U2122S 大学电话658896 595652 10.6 129科尔比学院ME 649992 599557 8.4 130加利福尼亚州洛马琳达大学648490 597669 8.5 131 普林西比亚公司MO 638419 593054 7.6 132圣学院 Cross马萨诸塞州634912 589769 7.7 133马萨诸塞州蒙特霍尔约克学院631950 582623 8.5 134俄克拉荷马州高等教育摄政者,俄克拉荷马州625719 447538 39.8 135伦斯勒理工学院纽约616836 583350 5.7 136东北大学MA 616618 566767 8.8 137麦克马斯特大学

CV2后的输出

卫斯理大学CT 669593 600529 11.5 123纽约库珀联合大学 668408 641324 4.2 124纽约罗切斯特理工学院668406 627786 6.5 125宾夕法尼亚州巴克内尔大学666562 599216 11.2 126 麻州大学基金会,马664240,565020,17.5 127弗吉尼亚理工大学基金会VA 660340 594776 594776 11皇后(TM) 大学电话658896 595652 10.6 129科尔比学院ME 649992 599557 8.4 130加利福尼亚州洛马琳达大学648490 597669 8.5 131 普林西比亚公司MO 638419 593054 7.6 132圣学院 Cross马萨诸塞州634912 589769 7.7 133马萨诸塞州蒙特霍尔约克学院631950 582623 8.5 134俄克拉荷马州高等教育摄政者,俄克拉荷马州625719 447538 39.8 135伦斯勒理工学院纽约616836 583350 5.7 136东北大学M

你的代码可以工作

print re.findall(namepat, CV2)

['123 Cooper Union ',
 '124 Rochester Institute of Technology ',
 '125 Bucknell University ',
 '126 University of Massachusetts Foundation, Inc. ',
 '127 Virginia Tech Foundation ',
 '128 Queen(tm)s University# ',
 '129 Colby College ',
 '130 Loma Linda University ',
 '131 Principia Corporation ',
 '132 College of the Holy Cross ',
 '133 Mount Holyoke College ',
 '134 Oklahoma State Regents for Higher Education ',
 '135 Rensselaer Polytechnic Institute ']
去掉尾随空格可能会更好

namepat = r'\d+\s+[A-Za-z&.(),:+# -]{5,150}?(?= ?[A-Z][A-Z])'

你真的把这篇文章分成这样一大块吗?谢谢!我意识到我犯了一个非常愚蠢的命名错误。这篇文章帮我抓住了这个机会。