Nlp 数据集语言识别_Nlp_Multiprocessing_Multilingual_Text Classification_Supervised Learning

Nlp 数据集语言识别

nlp

Nlp 数据集语言识别,nlp,multiprocessing,multilingual,text-classification,supervised-learning,Nlp,Multiprocessing,Multilingual,Text Classification,Supervised Learning,我正在研究一个多语言数据集的文本分类问题。我想知道这些语言在我的数据集中是如何分布的，它们是什么语言。语言的数量可能约为8-12种。我认为这种语言检测是预处理的一部分。我想找出语言，以便能够使用适当的停止词，并了解某些给定语言中数据的减少如何影响分类的准确性 langid.py或simple langdetect是否合适？还有其他建议吗感谢识别文本语言的最简单方法是列出每种语言的常用语法词（事实上，基本上是你的停止词），从文本中抽取一个样本，并统计在你的（特定语言的）词列表中出现的词。然后将它

我正在研究一个多语言数据集的文本分类问题。我想知道这些语言在我的数据集中是如何分布的，它们是什么语言。语言的数量可能约为8-12种。我认为这种语言检测是预处理的一部分。我想找出语言，以便能够使用适当的停止词，并了解某些给定语言中数据的减少如何影响分类的准确性

langid.py或simple langdetect是否合适？还有其他建议吗

感谢

识别文本语言的最简单方法是列出每种语言的常用语法词（事实上，基本上是你的停止词），从文本中抽取一个样本，并统计在你的（特定语言的）词列表中出现的词。然后将它们汇总起来，重叠最大的单词列表应该是文本的语言

如果您想更高级，可以使用n-gram而不是单词：从您熟悉的语言文本中收集n-gram，并将其用作分类器而不是停止词。

您可以使用任何基于变压器的模型，该模型经过多种语言的训练。例如，您可以使用XLM Roberta，这是一个在100种不同语言上训练的多语言模型。与某些XLM多语言模型不同，它不需要lang张量来理解使用哪种语言（这在您的情况下很好），并且应该能够从输入ID确定正确的语言。除了像其他基于transformer的模型一样，它还附带了标记器，因此您可以跳过预处理部分

您可以使用Huggingface库来使用这些模型中的任何一个

查看XLM Roberta Huggingface文档