Python 识别短文本的语言?

Python 识别短文本的语言?,python,nlp,Python,Nlp,我有一个文章列表,每篇文章都有自己的标题和描述。不幸的是,从我使用的来源来看,没有办法知道它们是用什么语言写的 此外,文本并非完全用1种语言编写;几乎总是有英语单词出现 我想我需要在我的机器上存储字典数据库,但这感觉有点不切实际。你建议我做什么?你有没有研究过?如果你不介意使用web服务为你做工作,你可以试试。我会使用这个项目 编辑:现在在中,如果近地天体的建议也不切实际,我会尝试以下方法: 在许多语言中,有一些关键字出现在许多句子中,在其他语言中往往找不到 例如:英语中的“The”,德语中的“

我有一个文章列表,每篇文章都有自己的标题和描述。不幸的是,从我使用的来源来看,没有办法知道它们是用什么语言写的

此外,文本并非完全用1种语言编写;几乎总是有英语单词出现

我想我需要在我的机器上存储字典数据库,但这感觉有点不切实际。你建议我做什么?

你有没有研究过?如果你不介意使用web服务为你做工作,你可以试试。

我会使用这个项目


编辑:现在在

中,如果近地天体的建议也不切实际,我会尝试以下方法:

在许多语言中,有一些关键字出现在许多句子中,在其他语言中往往找不到

例如:英语中的“The”,德语中的“der”,“die”,“das”


找到这样的词,并试着在你的文本中找到它们。最后它可能有点模糊——例如,当你找到“the”和“der”时——它可能是包含一些英语句子的德语文本。至少目标语言中有足够的单词,你可以达到很高的命中率。

一般来说,你要做的是nGram识别。由于这是一个python问题,您可以看看哪个是JavaNgram库(另一个开源项目)的纯python端口


文档是缺乏的,但它确实有很好的准确性。

我知道这是一个老问题,但如果人们在研究此任务的选项时遇到这个问题,值得一提的是另一个工具是。

@Alex:谢谢Alex。这确实非常有用!请注意,链接的guess_语言现在未维护,并且链接到a.langdetect也是一个选项,这是
guess语言的功能。@voyager:谢谢您提供的信息。我想是的;-)不,我以前不知道guess语言或其他工具。但我认为,所有这些工具也不能发挥神奇的作用。我也没有,只是环顾了一下源代码,它就是这么做的。:)注意:我猜语言表现很差。。。我试过了,它发现一些英文文本是非英文的:同样,这个问题的答案可能会使这个问题变得不必要,但从技术上讲,不是重复的。警告:谷歌翻译API是一项付费服务。