Java 如何组装包含换行符的正则表达式并在特定字符序列处停止?

Java 如何组装包含换行符的正则表达式并在特定字符序列处停止?,java,regex,extract,Java,Regex,Extract,我正在写一些例句从课文中提取句子。。我的问题是,我的表达得到不需要的文本也 例如: 正文- 1) ....... ....... Inventors: Peng Ji, Beijing (CN); Lin Luo, Beijing (CN); Vugranam C. Sreedhar, Yorktown Heights, NY (US); Shun Xiang Yang, Beijing (CN); Yu Zhang, Beijing (CN) (73) Assignee: Inte

我正在写一些例句从课文中提取句子。。我的问题是,我的表达得到不需要的文本也

例如:

正文-

1) ....... ....... Inventors: Peng Ji, Beijing (CN); Lin Luo, Beijing (CN); Vugranam C. Sreedhar, Yorktown Heights, NY (US); Shun Xiang Yang, Beijing (CN); Yu Zhang, Beijing (CN) (73) Assignee: International Business Machines Corporation, Armonk, NY (US) ........ ........ 2) ....... ....... (75) Inventors: Satoru Katsurayama, Tokyo (JP); Tomoe Yamashiro, Tokyo (JP); Takashi Hirano, Tokyo (JP) (73) Assignee: Sumitomo Bakelite Co., Ltd., Tokyo (JP) ....... ........ 1) ....... ....... 发明人:北京彭吉(中国);林洛,北京 (中国);Vugranam C.Sreedhar, 纽约约克敦高地(美国);回避 向阳,北京(中国);于章,, 北京(中国) (73)受让人:国际商用机器 纽约州阿蒙克公司(美国) ........ ........ 2) ....... ....... (75)发明人:东京胜山佐藤(日本); 东京山实友(JP);高石 平野,东京(JP) (73)受让人:东京住友胶木有限公司 (JP) ....... ........


我想提取如下内容(预期输出):

(75)发明人:东京胜山佐藤(日本); 东京山实友(JP);高石 平野,东京(JP) (75)发明人:东京胜山佐藤(日本); 东京山实友(JP);高石 平野,东京(JP) 我的作品和研究:

所以我构建了一个正则表达式,如下所示:

(?s)。\s*Inventor\w*:\s*\w*([\w\d,.\s)(]+);([\w\s\r.\',();]+) 我遇到的问题:

但是我的正则表达式是这样的返回输出

Inventors: Peng Ji, Beijing (CN); Lin Luo, Beijing (CN); Vugranam C. Sreedhar, Yorktown Heights, NY (US); Shun Xiang Yang, Beijing (CN); Yu Zhang, Beijing (CN) (73) Assignee Inventors: Satoru Katsurayama, Tokyo (JP); Tomoe Yamashiro, Tokyo (JP); Takashi Hirano, Tokyo (JP) (73) Assignee 发明人:北京彭吉(中国);林洛,北京 (中国);Vugranam C.Sreedhar, 纽约约克敦高地(美国);回避 向阳,北京(中国);于章,, 北京(中国) (73)受让人 发明人:东京胜山佐藤(日本); 东京山实友(JP);高石 平野,东京(JP) (73)受让人 这就是我的表达式解析的(73)受让人,但我不需要它。。我试了很多,但没有意识到我的问题

我的努力:
我也试过不操作,但我没有工作。。因为我对regex还不熟悉,所以我不能涨很多


请引导我从解析中删除(73)受让人

您可以在正则表达式之后使用积极的前瞻

您的最终正则表达式(有一些改进)如下所示:

(?s)\(75\)\s+Inventor\w*:\s*\w*([\w\d,.\s)(-]+);([\w\s.\',();]+)(?=\(73\)\s+Assignee:)
描述

下一行总是
(73)受让人:
?或者有时候会是别的什么?它是否至少总是包含短语
受让人:
?是。总是。。它总是包含着@Dunctank,非常感谢你。我工作。。由于我没有代表,我无法投票。对不起。。。。谢谢你一次again@user3190934不客气!我想你现在可以投票了。。。你不觉得吗
(?s)\(75\)\s+Inventor\w*:\s*\w*([\w\d,.\s)(-]+);([\w\s.\',();]+)(?=\(73\)\s+Assignee:)