Nlp 如何像Chrome那样确定网页的语言?

Nlp 如何像Chrome那样确定网页的语言?,nlp,Nlp,我正在尝试获取某种语言的语料库。但是当我得到一个网页时,我如何确定它的语言呢? Chrome可以做到,但原理是什么 我可以想出一些特别的方法,如基于字符集、IP地址、HTML标记等的有根据的猜测。但更正式的方法?我想常用的方法是查看字母频率、常见字母序列和单词、字符集(如您所述)。。。有很多不同的方法。一个简单的方法是只获取一组不同语言的词典文件,测试哪一个从页面中获得最多点击率,然后提供,比如说,接下来的三个作为备选方案。我想常用的方法是查看字母频率、常用字母序列和单词、字符集(如您所述)。。

我正在尝试获取某种语言的语料库。但是当我得到一个网页时,我如何确定它的语言呢? Chrome可以做到,但原理是什么


我可以想出一些特别的方法,如基于字符集、IP地址、HTML标记等的有根据的猜测。但更正式的方法?

我想常用的方法是查看字母频率、常见字母序列和单词、字符集(如您所述)。。。有很多不同的方法。一个简单的方法是只获取一组不同语言的词典文件,测试哪一个从页面中获得最多点击率,然后提供,比如说,接下来的三个作为备选方案。

我想常用的方法是查看字母频率、常用字母序列和单词、字符集(如您所述)。。。有很多不同的方法。一个简单的方法是,只需获取一组不同语言的词典文件,并测试哪一个从页面中获得最多点击率,然后提供(比如)下三个作为备选方案。

如果你只是对收集不同语言的语料库感兴趣,你可以查看特定国家的页面。例如,
.es
可能是西班牙语,
.de
可能是德语


此外,维基百科被翻译成多种语言。为一种特定的语言编写一个scraper并不难。

如果你只是对收集不同语言的语料库感兴趣,你可以查看特定国家的页面。例如,
.es
可能是西班牙语,
.de
可能是德语


此外,维基百科被翻译成多种语言。编写一个特定语言的刮刀并不难。

< P>在Chrome中确定网页语言的模型称为开源C++代码(排序方式,它不可复制)。还有官方的Python绑定:

pip install gcld3

<> P>在Chrome中确定网页语言的模型称为开源C++代码(排序方式是不可复制的)。还有官方的Python绑定:

pip install gcld3

可能的重复,或者至少是对同一个问题的好答案:基本上有很多工具可以为你做这件事,只要选择一个适合你特殊需要的库并使用它就可以了。一个可能相关的问题是,你在寻找哪种语言的语料库?有些工具在某些语言或语族方面比其他工具更好。可能重复,或者至少是对同一个问题的好答案:基本上有很多工具可以为你做这件事,只要选择一个适合你特殊需要的库并使用它就行了。一个可能相关的问题是,你在寻找哪种语言的语料库?某些工具在某些语言或语族方面比其他工具更擅长。“n-gram分析”通常是用于此目的的技术。“n-gram分析”通常是用于此目的的技术。