Machine learning 使用NLP查找自定义实体
基本上,从一个段落中,我必须找到两个实体Machine learning 使用NLP查找自定义实体,machine-learning,nlp,artificial-intelligence,nltk,stanford-nlp,Machine Learning,Nlp,Artificial Intelligence,Nltk,Stanford Nlp,基本上,从一个段落中,我必须找到两个实体Role和Oragnization 应记录组织及其分支机构的位置,而不是第段中提供的完整地址 角色可以在括号内,也可以在括号前同时出现,就像 Org as role(“角色”) 角色可以有多个单词 例如,该段将是: XXXX,日期为2050年11月10日,其中:(i)代码, 一家根据法律注册成立的上市公司 其注册办事处位于美国纽约州彭斯大街123号(以下简称“”),(ii)一家注册成立的公共有限公司 根据法律规定,其注册办事处位于华盛顿州西雅图曼哈顿大
Role
和Oragnization
- 应记录组织及其分支机构的位置,而不是第段中提供的完整地址
- 角色可以在括号内,也可以在括号前同时出现,就像
Org as role(“角色”)
- 角色可以有多个单词
”),(ii)一家注册成立的公共有限公司
根据法律规定,其注册办事处位于华盛顿州西雅图曼哈顿大道,地址为
(以下简称
“
”,(iii)担保人,在本协议的一些随机文本中命名,(iv)
,北卡罗来纳州贝尔法斯特分行
,as
(“
”),(v)
,as
,
和
,以及(vi)德国公司
,as
经过处理后,期望的结果是将角色与组织连接起来
<ROLE1> --> <ORG_NAME_1 PLC>
<ROLE2> --> <ORG_NAME_2 PLC>
<ROLE3> --> <ORG_NAME_3>, N.A., Belfast Branch
<ROLE4>, <ROLE5> and <ROLE6> --> <ORG_NAME_4>
<ROLE7> --> <ORG_NAME_5> Deutschland AG
我尝试使用PoS、NER,但没有达到预期效果
- 为NER使用斯坦福NLP,但组织未被正确检测,试图训练我自己的数据,但准确性不够。它不能正确检测所有组织,而是标记为
OTHER
。没有调整实际的CRF模型
- 使用NLTK python并尝试围绕NNP(专有名词)制定一些规则,但有时角色被检测为动词,有时是名词,有时还取决于大小写,所以不确定这是否是理想的方法
段落模式没有太多变化,如果需要的话,我可以发布1到2个不同模式的例子。角色固定在40左右,组织将是动态的
请建议我是否应该读一些具体的论文或模型。谢谢
<ROLE1> --> <ORG_NAME_1> A/S
<ROLE2>, <ROLE3>, <ROLE4>, <ROLE5>, <ROLE6> and <ROLE7> --> <ORG_NAME_2>, N.A., Montreal Branch