使用斯坦福NLP检测语言
我想知道是否可以使用使用斯坦福NLP检测语言,nlp,stanford-nlp,Nlp,Stanford Nlp,我想知道是否可以使用stanfordcorenlp来检测一个句子是用哪种语言写的?如果是这样的话,这些算法有多精确?几乎可以肯定,目前斯坦福大学的COreNLP中没有语言识别几乎是因为根本不存在更难证明 编辑:尽管如此,以下是间接证据: 没有提到语言识别,无论是在,还是在(尽管有 一个问题“我如何在其他语言上运行CoreNLP?”),也不是CoreNLP作者的问题 组合多个NLP库的工具 包括Stanford CoreNLP使用另一个语言库 例如,身份识别;另外,在讨论语言识别和CoreNLP时
stanfordcorenlp
来检测一个句子是用哪种语言写的?如果是这样的话,这些算法有多精确?几乎可以肯定,目前斯坦福大学的COreNLP中没有语言识别几乎是因为根本不存在更难证明
编辑:尽管如此,以下是间接证据:
语言
类,但与语言标识无关-您可以
手动检查所有84个“语言”单词的出现情况一般来说,质量取决于输入文本的大小:如果输入文本足够长(比如说,至少有几个单词,并且不是专门选择的),那么精度可能相当高,大约为95%。Standford CoreNLP没有语言ID(至少还没有),请参阅
语言检测/识别工具的负载更大。但一定要对报道的精确性持保留态度。其评估范围通常很窄,包括:
- 语言的固定列表
- 相当长的测试句子和句子
- 同一语言的
- 训练与测试实例的比例有偏差
值得注意的语言ID工具包括:
- TextCat()
- CLD2()
- 管道()
- 兰吉德()
- CLD3()
值得注意的语言识别相关共享任务(含培训/测试数据)包括:
还可以查看一下: