使用斯坦福NLP检测语言

使用斯坦福NLP检测语言,nlp,stanford-nlp,Nlp,Stanford Nlp,我想知道是否可以使用stanfordcorenlp来检测一个句子是用哪种语言写的?如果是这样的话,这些算法有多精确?几乎可以肯定,目前斯坦福大学的COreNLP中没有语言识别几乎是因为根本不存在更难证明 编辑:尽管如此,以下是间接证据: 没有提到语言识别,无论是在,还是在(尽管有 一个问题“我如何在其他语言上运行CoreNLP?”),也不是CoreNLP作者的问题 组合多个NLP库的工具 包括Stanford CoreNLP使用另一个语言库 例如,身份识别;另外,在讨论语言识别和CoreNLP时

我想知道是否可以使用
stanfordcorenlp
来检测一个句子是用哪种语言写的?如果是这样的话,这些算法有多精确?

几乎可以肯定,目前斯坦福大学的COreNLP中没有语言识别几乎是因为根本不存在更难证明

编辑:尽管如此,以下是间接证据:

  • 没有提到语言识别,无论是在,还是在(尽管有 一个问题“我如何在其他语言上运行CoreNLP?”),也不是CoreNLP作者的问题
  • 组合多个NLP库的工具 包括Stanford CoreNLP使用另一个语言库 例如,身份识别;另外,在讨论语言识别和CoreNLP时,不要提及此功能
  • CoreNLP的源文件包含
    语言
    类,但与语言标识无关-您可以 手动检查所有84个“语言”单词的出现情况
  • Try,or,or(他们报告“53种语言的准确率高出99%”)


    一般来说,质量取决于输入文本的大小:如果输入文本足够长(比如说,至少有几个单词,并且不是专门选择的),那么精度可能相当高,大约为95%。

    Standford CoreNLP没有语言ID(至少还没有),请参阅


    语言检测/识别工具的负载更大。但一定要对报道的精确性持保留态度。其评估范围通常很窄,包括:

    • 语言的固定列表
    • 相当长的测试句子和句子
    • 同一语言的
    • 训练与测试实例的比例有偏差

    值得注意的语言ID工具包括:

    • TextCat()
    • CLD2()
    • 管道()
    • 兰吉德()
    • CLD3()
    来自meta-guide.com的详尽列表,请参见


    值得注意的语言识别相关共享任务(含培训/测试数据)包括:


    还可以查看一下


    您可能对纸张感兴趣。Apache Tika中还有一个语言检测模块: