Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/388.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
具有自定义控制词汇表的无监督命名实体识别(NER),用于Java中的交叉链接建议_Java_Information Retrieval_Text Mining_Named Entity Recognition - Fatal编程技术网

具有自定义控制词汇表的无监督命名实体识别(NER),用于Java中的交叉链接建议

具有自定义控制词汇表的无监督命名实体识别(NER),用于Java中的交叉链接建议,java,information-retrieval,text-mining,named-entity-recognition,Java,Information Retrieval,Text Mining,Named Entity Recognition,我正在寻找一个Java库,它可以使用自定义的受控词汇表进行命名实体识别(NER),而不需要首先标记训练数据。我在SE上搜索了一些,但大多数问题都不具体 考虑以下用例: 编辑正在CMS中输入文章(约500字) 文本可能包含对特定域实体的引用(纯文本)。例如: 兴趣点的名称,如酒吧、餐厅以及社区等 存在这些实体的受控词汇表(约5000个实体)。 我把一个实体想象成词汇表中的一个元组 完成文本后,用户应该能够保存文档 这将触发工作流,通过与实体名称进行比较,根据词汇表扫描文本。它不需要100

我正在寻找一个Java库,它可以使用自定义的受控词汇表进行命名实体识别(NER),而不需要首先标记训练数据。我在SE上搜索了一些,但大多数问题都不具体

考虑以下用例:

  • 编辑正在CMS中输入文章(约500字)
  • 文本可能包含对特定域实体的引用(纯文本)。例如:
    • 兴趣点的名称,如酒吧、餐厅以及社区等
  • 存在这些实体的受控词汇表(约5000个实体)。
    • 我把一个实体想象成词汇表中的一个元组
  • 完成文本后,用户应该能够保存文档
  • 这将触发工作流,通过与实体名称进行比较,根据词汇表扫描文本。它不需要100%匹配:Jarao winkler上的97%或其他(我不熟悉algo的NER使用什么)可能就足够了,我需要这是可配置的
  • 点击将返回到控制器服务器端。这反过来会将JSON返回给包含实体的客户端,这些实体表示为编辑器的建议交叉链接
理想情况下,我正在寻找一个项目,它使用NRE来建议CMS环境中的交叉点。(例如,我肯定wordpress的插件存在)不太确定Java中是否存在类似的东西


所有其他更通用的指向NRE库的指针,也都欢迎使用受控自定义词汇表

不确定这些是否有用:
http://cogcomp.cs.illinois.edu/page/software

对于将来查找此信息的人:

“基于词典的近似分块” 见:


(URL编辑。)

据我所知,这只会记录名人/知名人士的姓名。“乔治·华盛顿”作为一个人出现,但我的名字没有。