比较斯坦福大学coreNLP、SpaCy和谷歌云的NER库_Nlp_Stanford Nlp_Spacy_Ner_Google Natural Language

比较斯坦福大学coreNLP、SpaCy和谷歌云的NER库

nlp stanford-nlp

比较斯坦福大学coreNLP、SpaCy和谷歌云的NER库,nlp,stanford-nlp,spacy,ner,google-natural-language,Nlp,Stanford Nlp,Spacy,Ner,Google Natural Language,我想从文本中识别人的名字。但是我弄不清楚我必须使用哪个NLP库来进行NER。我发现以下是NER的最佳NLP库 1.斯坦福大学科伦普 2.斯帕西 3.谷歌云我无法找到哪个库将提供更准确的结果和良好的性能。请帮帮我。spaCy在NLP方面具有行业实力，在NER方面显然更快更准确。它还与多语言模型捆绑在一起。检查 AllenNLP还配备了最先进的NER模型，但使用起来有点复杂。检查如果支付墙不是问题，那么我建议使用谷歌的云自然语言（当然它更快更准确）我个人使用过spaCy和AllenNLP。我想

我想从文本中识别人的名字。但是我弄不清楚我必须使用哪个NLP库来进行NER。我发现以下是NER的最佳NLP库 1.斯坦福大学科伦普 2.斯帕西 3.谷歌云

我无法找到哪个库将提供更准确的结果和良好的性能。请帮帮我。

spaCy在NLP方面具有行业实力，在NER方面显然更快更准确。它还与多语言模型捆绑在一起。检查

AllenNLP还配备了最先进的NER模型，但使用起来有点复杂。检查

如果支付墙不是问题，那么我建议使用谷歌的云自然语言（当然它更快更准确）

我个人使用过spaCy和AllenNLP。我想说，如果你想从一开始就去斯帕西

希望这有帮助。

斯帕西在NLP方面具有行业实力，在NER方面显然更快更准确。它还与多语言模型捆绑在一起。检查

AllenNLP还配备了最先进的NER模型，但使用起来有点复杂。检查

如果支付墙不是问题，那么我建议使用谷歌的云自然语言（当然它更快更准确）

我个人使用过spaCy和AllenNLP。我想说，如果你想从一开始就去斯帕西

希望这有帮助。

TL；DR：只需选择一个对您来说似乎易于实施且具有合理准确性的现有系统。这可以是云产品（例如，IBM Watson对话、Google DialogFlow）或库或可执行文件（例如，RASA NLU或自然语言工具包）。仅仅根据准确度选择一个系统是非常重要的，如果你总是想要最好的，那么你应该经常在系统之间切换

您的问题是，在不需要太多计算能力的情况下，哪个系统将给出最准确的结果。在您从文本中识别人名的情况下。自然语言处理（NLP）领域正在迅速变化。为了说明这一点，我们可以看看命名实体识别（NER）的最新技术（SOTA）。Github页面对CONLL03 NER数据集有一个很好的摘要，我将在这里复制它并使用公司名称，因为它们更容易记住：

。F1成绩：0.931。日期：2018年6月24日

。F1成绩：0.928。日期：2018年10月31日

。F1成绩：0.926。日期：2018年9月22日

根据这份清单，我们观察到，2019年初，每隔几个月就会获得一份新的SOTA。有关复杂NLP任务的基准的更新列表，请参阅。因此，由于SOTA算法每月都在变化，“最精确的系统（库）”也必须经常变化。此外，数据的准确性不仅取决于系统，还取决于以下因素：

使用了算法。可能是谷歌发布了SOTA研究，但没有实施。当然，解决这个问题的唯一方法是不断地测试所有系统
训练数据大小。虽然越大越好，但一些算法可以更好地处理少数示例（少量镜头学习）
域。算法可能更适合处理正式的政府文本，而不是不太正式的维基百科文本
数据语言。由于大多数研究侧重于在公共数据集上显示SOTA，因此通常针对英语进行优化。它们在其他语言上的表现可能有所不同

由于所有这些事情要考虑，我建议选择一个现有的系统，并根据许多要求，如定价和易用性进行选择。

< P> <强> TL；DR：只需选择一个对您来说似乎易于实施且具有合理准确性的现有系统。这可以是云产品（例如，IBM Watson对话、Google DialogFlow）或库或可执行文件（例如，RASA NLU或自然语言工具包）。仅仅根据准确度选择一个系统是非常重要的，如果你总是想要最好的，那么你应该经常在系统之间切换

。F1成绩：0.931。日期：2018年6月24日

。F1成绩：0.928。日期：2018年10月31日

。F1成绩：0.926。日期：2018年9月22日

使用了算法。可能是谷歌发布了SOTA研究，但没有实施。当然，解决这个问题的唯一方法是不断地测试所有系统
训练数据大小。虽然越大越好，但一些算法可以更好地处理少数示例（少量镜头学习）
域。算法可能更适合处理正式的政府文本，而不是不太正式的维基百科文本
数据语言。由于大多数研究侧重于在公共数据集上显示SOTA，因此通常针对英语进行优化。它们在其他语言上的表现可能有所不同

由于所有这些事情要考虑，我建议选择一个