Nlp (人类)文件的语言

Nlp (人类)文件的语言,nlp,classification,language-detection,Nlp,Classification,Language Detection,有没有办法(一个程序,一个库)大致知道一个文档是用哪种语言写的 我有一堆混合语言的文本文档(~500K)要导入到支持i18n的CMS(Drupal)中 我不需要完美的匹配,只需要一些猜测。这里似乎有一个Perl模块: 保罗。我认为你最好的选择是寻找你所寻找的语言所特有的关键词——文章,诸如此类的东西。例如,“Un”将以西班牙语和法语出现,但“une”可以识别为法语,而“unos”可以识别为西班牙语。变音符号也很有用——你会在西班牙语和葡萄牙语中看到“ñ”,在法语中看到“ç”,还有其他一些。。。那

有没有办法(一个程序,一个库)大致知道一个文档是用哪种语言写的

我有一堆混合语言的文本文档(~500K)要导入到支持i18n的CMS(Drupal)中


我不需要完美的匹配,只需要一些猜测。

这里似乎有一个Perl模块:


保罗。

我认为你最好的选择是寻找你所寻找的语言所特有的关键词——文章,诸如此类的东西。例如,“Un”将以西班牙语和法语出现,但“une”可以识别为法语,而“unos”可以识别为西班牙语。变音符号也很有用——你会在西班牙语和葡萄牙语中看到“ñ”,在法语中看到“ç”,还有其他一些。。。那种事


编辑-保罗的解决方案可能是最好的;看起来它使用了我概述的方法,再加上一些额外的方法。

通过运行谷歌搜索“”,我找到了许多不同的网站,可以帮助您。第一页上的第三个链接最终让我找到了Google Code API中的一个链接,这正是您所需要的。

有一个非常简单的方法可以做到这一点,因为您有所有需要识别的不同语言的语料库数据。这叫做n-gram建模。不过,我认为这已经做到了,所以这是你最好的选择,而不是实现你自己的。

谷歌翻译API很酷,并且有一个REST接口。但我需要给它发送大量的大文档(是的,我可以使用摘录),即使谷歌是谷歌,我也不这么认为 公平

文档也不是我的,我会询问我的客户是否可以将它们发送给第三方(即使G很快或稍后会收到它们;)

我想我将使用Perl路径