Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/machine-learning/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 使用NLP查找自定义实体_Machine Learning_Nlp_Artificial Intelligence_Nltk_Stanford Nlp - Fatal编程技术网

Machine learning 使用NLP查找自定义实体

Machine learning 使用NLP查找自定义实体,machine-learning,nlp,artificial-intelligence,nltk,stanford-nlp,Machine Learning,Nlp,Artificial Intelligence,Nltk,Stanford Nlp,基本上,从一个段落中,我必须找到两个实体Role和Oragnization 应记录组织及其分支机构的位置,而不是第段中提供的完整地址 角色可以在括号内,也可以在括号前同时出现,就像 Org as role(“角色”) 角色可以有多个单词 例如,该段将是: XXXX,日期为2050年11月10日,其中:(i)代码, 一家根据法律注册成立的上市公司 其注册办事处位于美国纽约州彭斯大街123号(以下简称“”),(ii)一家注册成立的公共有限公司 根据法律规定,其注册办事处位于华盛顿州西雅图曼哈顿大

基本上,从一个段落中,我必须找到两个实体
Role
Oragnization

  • 应记录组织及其分支机构的位置,而不是第段中提供的完整地址
  • 角色可以在括号内,也可以在括号前同时出现,就像
    Org as role(“角色”)
  • 角色可以有多个单词
例如,该段将是:

XXXX,日期为2050年11月10日,其中:(i)代码, 一家根据法律注册成立的上市公司 其注册办事处位于美国纽约州彭斯大街123号(以下简称“
”),(ii)一家注册成立的公共有限公司 根据法律规定,其注册办事处位于华盛顿州西雅图曼哈顿大道,地址为
(以下简称 “
”,(iii)担保人,在本协议的一些随机文本中命名,(iv)
,北卡罗来纳州贝尔法斯特分行
,as
(“
”),(v)
,as
,以及(vi)
德国公司
,as

经过处理后,期望的结果是将角色与组织连接起来

<ROLE1> --> <ORG_NAME_1 PLC>
<ROLE2> --> <ORG_NAME_2 PLC>
<ROLE3> --> <ORG_NAME_3>, N.A., Belfast Branch
<ROLE4>, <ROLE5> and <ROLE6> --> <ORG_NAME_4> 
<ROLE7> --> <ORG_NAME_5> Deutschland AG
我尝试使用PoS、NER,但没有达到预期效果

  • 为NER使用斯坦福NLP,但组织未被正确检测,试图训练我自己的数据,但准确性不够。它不能正确检测所有组织,而是标记为
    OTHER
    。没有调整实际的CRF模型
  • 使用NLTK python并尝试围绕NNP(专有名词)制定一些规则,但有时角色被检测为动词,有时是名词,有时还取决于大小写,所以不确定这是否是理想的方法
段落模式没有太多变化,如果需要的话,我可以发布1到2个不同模式的例子。角色固定在40左右,组织将是动态的

请建议我是否应该读一些具体的论文或模型。谢谢

<ROLE1> --> <ORG_NAME_1> A/S
<ROLE2>, <ROLE3>, <ROLE4>, <ROLE5>, <ROLE6> and <ROLE7> --> <ORG_NAME_2>, N.A., Montreal Branch