Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/http/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
比较斯坦福大学coreNLP、SpaCy和谷歌云的NER库_Nlp_Stanford Nlp_Spacy_Ner_Google Natural Language - Fatal编程技术网

比较斯坦福大学coreNLP、SpaCy和谷歌云的NER库

比较斯坦福大学coreNLP、SpaCy和谷歌云的NER库,nlp,stanford-nlp,spacy,ner,google-natural-language,Nlp,Stanford Nlp,Spacy,Ner,Google Natural Language,我想从文本中识别人的名字。但是我弄不清楚我必须使用哪个NLP库来进行NER。我发现以下是NER的最佳NLP库 1.斯坦福大学科伦普 2.斯帕西 3.谷歌云 我无法找到哪个库将提供更准确的结果和良好的性能。请帮帮我。spaCy在NLP方面具有行业实力,在NER方面显然更快更准确。它还与多语言模型捆绑在一起。检查 AllenNLP还配备了最先进的NER模型,但使用起来有点复杂。检查 如果支付墙不是问题,那么我建议使用谷歌的云自然语言(当然它更快更准确) 我个人使用过spaCy和AllenNLP。我想

我想从文本中识别的名字。但是我弄不清楚我必须使用哪个NLP库来进行NER。我发现以下是NER的最佳NLP库 1.斯坦福大学科伦普 2.斯帕西 3.谷歌云


我无法找到哪个库将提供更准确的结果和良好的性能。请帮帮我。

spaCy在NLP方面具有行业实力,在NER方面显然更快更准确。它还与多语言模型捆绑在一起。检查

AllenNLP还配备了最先进的NER模型,但使用起来有点复杂。检查

如果支付墙不是问题,那么我建议使用谷歌的云自然语言(当然它更快更准确)

我个人使用过spaCy和AllenNLP。我想说,如果你想从一开始就去斯帕西


希望这有帮助。

斯帕西在NLP方面具有行业实力,在NER方面显然更快更准确。它还与多语言模型捆绑在一起。检查

AllenNLP还配备了最先进的NER模型,但使用起来有点复杂。检查

如果支付墙不是问题,那么我建议使用谷歌的云自然语言(当然它更快更准确)

我个人使用过spaCy和AllenNLP。我想说,如果你想从一开始就去斯帕西


希望这有帮助。

TL;DR:只需选择一个对您来说似乎易于实施且具有合理准确性的现有系统。这可以是云产品(例如,IBM Watson对话、Google DialogFlow)或库或可执行文件(例如,RASA NLU或自然语言工具包)。仅仅根据准确度选择一个系统是非常重要的,如果你总是想要最好的,那么你应该经常在系统之间切换

您的问题是,在不需要太多计算能力的情况下,哪个系统将给出最准确的结果。在您从文本中识别人名的情况下。自然语言处理(NLP)领域正在迅速变化。为了说明这一点,我们可以看看命名实体识别(NER)的最新技术(SOTA)。Github页面对CONLL03 NER数据集有一个很好的摘要,我将在这里复制它并使用公司名称,因为它们更容易记住:

  • 。F1成绩:0.931。日期:2018年6月24日
  • 。F1成绩:0.928。日期:2018年10月31日
  • 。F1成绩:0.926。日期:2018年9月22日
  • 根据这份清单,我们观察到,2019年初,每隔几个月就会获得一份新的SOTA。有关复杂NLP任务的基准的更新列表,请参阅。因此,由于SOTA算法每月都在变化,“最精确的系统(库)”也必须经常变化。此外,数据的准确性不仅取决于系统,还取决于以下因素:

    • 使用了算法。可能是谷歌发布了SOTA研究,但没有实施。当然,解决这个问题的唯一方法是不断地测试所有系统
    • 训练数据大小。虽然越大越好,但一些算法可以更好地处理少数示例(少量镜头学习)
    • 域。算法可能更适合处理正式的政府文本,而不是不太正式的维基百科文本
    • 数据语言。由于大多数研究侧重于在公共数据集上显示SOTA,因此通常针对英语进行优化。它们在其他语言上的表现可能有所不同

    由于所有这些事情要考虑,我建议选择一个现有的系统,并根据许多要求,如定价和易用性进行选择。

    < P> <强> TL;DR:只需选择一个对您来说似乎易于实施且具有合理准确性的现有系统。这可以是云产品(例如,IBM Watson对话、Google DialogFlow)或库或可执行文件(例如,RASA NLU或自然语言工具包)。仅仅根据准确度选择一个系统是非常重要的,如果你总是想要最好的,那么你应该经常在系统之间切换

    您的问题是,在不需要太多计算能力的情况下,哪个系统将给出最准确的结果。在您从文本中识别人名的情况下。自然语言处理(NLP)领域正在迅速变化。为了说明这一点,我们可以看看命名实体识别(NER)的最新技术(SOTA)。Github页面对CONLL03 NER数据集有一个很好的摘要,我将在这里复制它并使用公司名称,因为它们更容易记住:

  • 。F1成绩:0.931。日期:2018年6月24日
  • 。F1成绩:0.928。日期:2018年10月31日
  • 。F1成绩:0.926。日期:2018年9月22日
  • 根据这份清单,我们观察到,2019年初,每隔几个月就会获得一份新的SOTA。有关复杂NLP任务的基准的更新列表,请参阅。因此,由于SOTA算法每月都在变化,“最精确的系统(库)”也必须经常变化。此外,数据的准确性不仅取决于系统,还取决于以下因素:

    • 使用了算法。可能是谷歌发布了SOTA研究,但没有实施。当然,解决这个问题的唯一方法是不断地测试所有系统
    • 训练数据大小。虽然越大越好,但一些算法可以更好地处理少数示例(少量镜头学习)
    • 域。算法可能更适合处理正式的政府文本,而不是不太正式的维基百科文本
    • 数据语言。由于大多数研究侧重于在公共数据集上显示SOTA,因此通常针对英语进行优化。它们在其他语言上的表现可能有所不同
    由于所有这些事情要考虑,我建议选择一个