Regex 用于提取学院、大学和研究所名称的正则表达式?

Regex 用于提取学院、大学和研究所名称的正则表达式?,regex,web-scraping,Regex,Web Scraping,我在一个文件中有一堆这样的字符串: M.S., Arizona University, Tucson, Az., 1957 B.A., American International College, Springfield, Mass., 1978 B.A., American University, Washington, D.C., 1985 我想摘录塔夫斯大学、美国国际学院、美国大学、麻州大学等,而不是高中(可能是安全的,如果它包含“学院”或“高中”,它是一所高中)。有什么想法吗?使用P

我在一个文件中有一堆这样的字符串:

M.S., Arizona University, Tucson, Az., 1957
B.A., American International College, Springfield, Mass., 1978
B.A., American University, Washington, D.C., 1985

我想摘录塔夫斯大学、美国国际学院、美国大学、麻州大学等,而不是高中(可能是安全的,如果它包含“学院”或“高中”,它是一所高中)。有什么想法吗?

使用PHP中的
preg\u match\u all
进行测试,将适用于您提供的示例文本:

 /(?<=,)[\w\s]*(College|University|Institute)[^,\d]*(?=,|\d)/
第一部分将匹配以大写字母开头的字符串,可以选择后跟
。然后是一个空格,然后是一个可选的
)。此模式匹配零次或多次

这应该得到关键字前面的所有相关单词

 /([A-Z][^\s,.]+[.]?\s[(]?)*(College|University|Institute|Law School|School of|Academy)[^,\d]*(?=,|\d)/