Nlp （人类）文件的语言_Nlp_Classification_Language Detection

Nlp （人类）文件的语言

nlp

Nlp （人类）文件的语言,nlp,classification,language-detection,Nlp,Classification,Language Detection,有没有办法（一个程序，一个库）大致知道一个文档是用哪种语言写的我有一堆混合语言的文本文档（~500K）要导入到支持i18n的CMS（Drupal）中我不需要完美的匹配，只需要一些猜测。这里似乎有一个Perl模块：保罗。我认为你最好的选择是寻找你所寻找的语言所特有的关键词——文章，诸如此类的东西。例如，“Un”将以西班牙语和法语出现，但“une”可以识别为法语，而“unos”可以识别为西班牙语。变音符号也很有用——你会在西班牙语和葡萄牙语中看到“ñ”，在法语中看到“ç”，还有其他一些。。。那

有没有办法（一个程序，一个库）大致知道一个文档是用哪种语言写的

我有一堆混合语言的文本文档（~500K）要导入到支持i18n的CMS（Drupal）中

我不需要完美的匹配，只需要一些猜测。

这里似乎有一个Perl模块：

保罗。

我认为你最好的选择是寻找你所寻找的语言所特有的关键词——文章，诸如此类的东西。例如，“Un”将以西班牙语和法语出现，但“une”可以识别为法语，而“unos”可以识别为西班牙语。变音符号也很有用——你会在西班牙语和葡萄牙语中看到“ñ”，在法语中看到“ç”，还有其他一些。。。那种事

编辑-保罗的解决方案可能是最好的；看起来它使用了我概述的方法，再加上一些额外的方法。

通过运行谷歌搜索“”，我找到了许多不同的网站，可以帮助您。第一页上的第三个链接最终让我找到了Google Code API中的一个链接，这正是您所需要的。

有一个非常简单的方法可以做到这一点，因为您有所有需要识别的不同语言的语料库数据。这叫做n-gram建模。不过，我认为这已经做到了，所以这是你最好的选择，而不是实现你自己的。

谷歌翻译API很酷，并且有一个REST接口。但我需要给它发送大量的大文档（是的，我可以使用摘录），即使谷歌是谷歌，我也不这么认为公平

文档也不是我的，我会询问我的客户是否可以将它们发送给第三方（即使G很快或稍后会收到它们；）

我想我将使用Perl路径