Java 语言检测器

Java 语言检测器,java,nlp,Java,Nlp,我想要一个java代码,它读取文档中的文本,并说它是用哪种语言编写的英语、西班牙语。。。。文件的格式并不重要。我希望输出为例如:此文档为西班牙语。请以这种方式指导我,并给我一个示例代码 我会使用google translator的api 我会使用google translator的api 标准方法是为候选语言构建n-gram模型,然后为目标文档构建类似模型,并使用简单的编辑距离计算与参考模型进行比较。Gertjan van Noord的网站上有几个可以使用的库的链接。标准方法是为候选语言构建n-

我想要一个java代码,它读取文档中的文本,并说它是用哪种语言编写的英语、西班牙语。。。。文件的格式并不重要。我希望输出为例如:此文档为西班牙语。请以这种方式指导我,并给我一个示例代码

我会使用google translator的api
我会使用google translator的api
标准方法是为候选语言构建n-gram模型,然后为目标文档构建类似模型,并使用简单的编辑距离计算与参考模型进行比较。Gertjan van Noord的网站上有几个可以使用的库的链接。

标准方法是为候选语言构建n-gram模型,然后为目标文档构建类似模型,并使用简单的编辑距离计算与参考模型进行比较。Gertjan van Noord的网站上有几个可以使用的库的链接。

该库在Java中使用起来非常简单,请参见示例代码和健壮性。至少检测53种来自各种族的语言。

该库在Java中使用非常简单,请参见示例代码和健壮性。检测来自各种族的至少53种语言。

大多数文档格式将该信息嵌入其元数据中。对于纯文本文件,是的,你必须做一些魔术。这是问答网站,所以你的问题是什么,我建议你阅读FAQ…你需要根据使用的单词进行猜测。我会为每种语言创建一个单词词典,并尝试匹配它们。注意:一些短文档可以是其中之一。请参阅,特别是图3。大多数文档格式都将该信息嵌入到其元数据中。对于纯文本文件,是的,你必须做一些魔术。这是问答网站,所以你的问题是什么,我建议你阅读FAQ…你需要根据使用的单词进行猜测。我会为每种语言创建一个单词词典,并尝试匹配它们。注意:一些简短文档可以是。请参阅,特别是图3。注意:Google语言检测API必须用于用户生成的语言检测。严格禁止任何类型的自动或批量查询。注意:谷歌语言检测API必须用于用户生成的语言检测。严格禁止任何类型的自动或批量查询。