Nlp 命名实体识别(Ner)-组织名称数据库

Nlp 命名实体识别(Ner)-组织名称数据库,nlp,nltk,stanford-nlp,opennlp,named-entity-recognition,Nlp,Nltk,Stanford Nlp,Opennlp,Named Entity Recognition,我正在进行我目前的毕业项目,名为“土耳其实体识别”。当我使用人名和地点(有时地点可以是不同的语言,例如塔克西姆/伊斯坦布尔的希尔顿酒店)时,识别器应该捕捉土耳其语单词。我需要在数据集中添加“Hotel”,数据集中充满了特定的位置标签,如Hotel、Restaurant或Mall。但当涉及到组织名称标签时。我需要找到一个很好的乐队、产品、公司名称的数据集,但不知道如何找到或收集这个数据集 在斯坦福nlp工具中: 当我键入Facebook、Nike、Adidas等时,它可以找到它的组织。那么,有没有

我正在进行我目前的毕业项目,名为“土耳其实体识别”。当我使用人名和地点(有时地点可以是不同的语言,例如塔克西姆/伊斯坦布尔的希尔顿酒店)时,识别器应该捕捉土耳其语单词。我需要在数据集中添加“Hotel”,数据集中充满了特定的位置标签,如Hotel、Restaurant或Mall。但当涉及到组织名称标签时。我需要找到一个很好的乐队、产品、公司名称的数据集,但不知道如何找到或收集这个数据集

在斯坦福nlp工具中:


当我键入Facebook、Nike、Adidas等时,它可以找到它的组织。那么,有没有办法让组织名称成为数据集呢

如果您对具有这些组织名称的数据资源感兴趣。您可以使用一个可用的知识库KBs,例如

  • 只能在线访问才能下载
所有这些组织都有这些组织的名称,而且更多,您将需要一些努力来提取仅使用其类型的组织。例如,YAGO具有可下载的文件,其中包含可能的实体及其类型。您可以对其进行筛选,然后使用hasMeansion数据获取所有可能的名称

Yago和BabelNet已被用于NER或命名实体消歧系统AIDA和Babelfy


提供可能的实体名称的健壮数据集,可用于NER

如果您对具有这些组织名称的数据资源感兴趣。您可以使用一个可用的知识库KBs,例如

  • 只能在线访问才能下载
所有这些组织都有这些组织的名称,而且更多,您将需要一些努力来提取仅使用其类型的组织。例如,YAGO具有可下载的文件,其中包含可能的实体及其类型。您可以对其进行筛选,然后使用hasMeansion数据获取所有可能的名称

Yago和BabelNet已被用于NER或命名实体消歧系统AIDA和Babelfy


提供可能的实体名称的健壮数据集,可用于NER

试着从维基百科收集它们。这是一个巨大的来源。
您可以编写一个解析器,从wiki转储中收集特定类型实体的信息。维基百科有一个分级结构,对人、地点和组织进行分类。

试着从维基百科收集它们。这是一个巨大的来源。
您可以编写一个解析器,从wiki转储中收集特定类型实体的信息。维基百科有一个分类人员、地点和组织的层次结构。

亲爱的穆罕默德谢谢你的回复,非常有用。我会使用雅高,因为它有一个很好的设置,我可以轻松地管理它们。再次感谢。不客气。。。如果您打算使用Yago。。检查这组可能的名称。。亲爱的穆罕默德:谢谢你的回复,这非常有帮助。我会使用雅高,因为它有一个很好的设置,我可以轻松地管理它们。再次感谢。不客气。。。如果您打算使用Yago。。检查这组可能的名称。。感谢您的回复,但维基百科中的土耳其组织(vikipedi)非常小。此外,我不知道如何解析它们,只收集名称,如果它不会中断你的工作,我真的想知道如何。你可以给我一些提示。再次感谢您如果您查看转储文件,它是一个巨大的xml文件。每个页面都是特定模式中的xml标记。如果您阅读每个xml页面级别节点中的前2行文本,它通常会这样说:XYZ是一个从事ABC或一些您可以轻松解释的文本的组织。如果你必须建立一个组织列表,你也可以查看英语转储。如果你认为这回答了你的问题,请你把它标记为一个答案。谢谢你的回答,但维基百科中的土耳其组织(vikipedi)非常小。此外,我不知道如何解析它们,只收集名称,如果它不会中断你的工作,我真的想知道如何。你可以给我一些提示。再次感谢您如果您查看转储文件,它是一个巨大的xml文件。每个页面都是特定模式中的xml标记。如果您阅读每个xml页面级别节点中的前2行文本,它通常会这样说:XYZ是一个从事ABC或一些您可以轻松解释的文本的组织。如果你必须建立一个组织列表,你也可以查看英语转储。如果您认为这回答了您的问题,请您将其标记为答案。