Nlp 数据集语言识别

Nlp 数据集语言识别,nlp,multiprocessing,multilingual,text-classification,supervised-learning,Nlp,Multiprocessing,Multilingual,Text Classification,Supervised Learning,我正在研究一个多语言数据集的文本分类问题。我想知道这些语言在我的数据集中是如何分布的,它们是什么语言。语言的数量可能约为8-12种。我认为这种语言检测是预处理的一部分。我想找出语言,以便能够使用适当的停止词,并了解某些给定语言中数据的减少如何影响分类的准确性 langid.py或simple langdetect是否合适?还有其他建议吗 感谢识别文本语言的最简单方法是列出每种语言的常用语法词(事实上,基本上是你的停止词),从文本中抽取一个样本,并统计在你的(特定语言的)词列表中出现的词。然后将它

我正在研究一个多语言数据集的文本分类问题。我想知道这些语言在我的数据集中是如何分布的,它们是什么语言。语言的数量可能约为8-12种。我认为这种语言检测是预处理的一部分。我想找出语言,以便能够使用适当的停止词,并了解某些给定语言中数据的减少如何影响分类的准确性

langid.py或simple langdetect是否合适?还有其他建议吗


感谢

识别文本语言的最简单方法是列出每种语言的常用语法词(事实上,基本上是你的停止词),从文本中抽取一个样本,并统计在你的(特定语言的)词列表中出现的词。然后将它们汇总起来,重叠最大的单词列表应该是文本的语言


如果您想更高级,可以使用n-gram而不是单词:从您熟悉的语言文本中收集n-gram,并将其用作分类器而不是停止词。

您可以使用任何基于变压器的模型,该模型经过多种语言的训练。例如,您可以使用XLM Roberta,这是一个在100种不同语言上训练的多语言模型。与某些XLM多语言模型不同,它不需要lang张量来理解使用哪种语言(这在您的情况下很好),并且应该能够从输入ID确定正确的语言。除了像其他基于transformer的模型一样,它还附带了标记器,因此您可以跳过预处理部分

您可以使用Huggingface库来使用这些模型中的任何一个

查看XLM Roberta Huggingface文档