具有自定义控制词汇表的无监督命名实体识别(NER),用于Java中的交叉链接建议
我正在寻找一个Java库,它可以使用自定义的受控词汇表进行命名实体识别(NER),而不需要首先标记训练数据。我在SE上搜索了一些,但大多数问题都不具体 考虑以下用例:具有自定义控制词汇表的无监督命名实体识别(NER),用于Java中的交叉链接建议,java,information-retrieval,text-mining,named-entity-recognition,Java,Information Retrieval,Text Mining,Named Entity Recognition,我正在寻找一个Java库,它可以使用自定义的受控词汇表进行命名实体识别(NER),而不需要首先标记训练数据。我在SE上搜索了一些,但大多数问题都不具体 考虑以下用例: 编辑正在CMS中输入文章(约500字) 文本可能包含对特定域实体的引用(纯文本)。例如: 兴趣点的名称,如酒吧、餐厅以及社区等 存在这些实体的受控词汇表(约5000个实体)。 我把一个实体想象成词汇表中的一个元组 完成文本后,用户应该能够保存文档 这将触发工作流,通过与实体名称进行比较,根据词汇表扫描文本。它不需要100
- 编辑正在CMS中输入文章(约500字)
- 文本可能包含对特定域实体的引用(纯文本)。例如:
- 兴趣点的名称,如酒吧、餐厅以及社区等
- 存在这些实体的受控词汇表(约5000个实体)。
- 我把一个实体想象成词汇表中的一个元组
- 完成文本后,用户应该能够保存文档李>
- 这将触发工作流,通过与实体名称进行比较,根据词汇表扫描文本。它不需要100%匹配:Jarao winkler上的97%或其他(我不熟悉algo的NER使用什么)可能就足够了,我需要这是可配置的李>
- 点击将返回到控制器服务器端。这反过来会将JSON返回给包含实体的客户端,这些实体表示为编辑器的建议交叉链接李>
所有其他更通用的指向NRE库的指针,也都欢迎使用受控自定义词汇表 不确定这些是否有用:
http://cogcomp.cs.illinois.edu/page/software对于将来查找此信息的人: “基于词典的近似分块” 见:
(URL编辑。)据我所知,这只会记录名人/知名人士的姓名。“乔治·华盛顿”作为一个人出现,但我的名字没有。