Nlp 用于改进推荐系统的多语言自由文本项文本分类_Nlp_Multilingual_Text Classification_Unsupervised Learning_Supervised Learning

Nlp 用于改进推荐系统的多语言自由文本项文本分类

nlp

Nlp 用于改进推荐系统的多语言自由文本项文本分类,nlp,multilingual,text-classification,unsupervised-learning,supervised-learning,Nlp,Multilingual,Text Classification,Unsupervised Learning,Supervised Learning,为了改进买方物料组的再采购系统，我公司愿意使用客户历史支出数据培训模型。应根据历史“短文本描述”对模型进行培训，以预测适当的BMG。数据集有超过500.000行，文本描述是多语言的（最多40个字符）问题：如果我认为描述是多语言的，我可以使用监督学习吗？如果是，像多项式朴素贝叶斯或支持向量机这样的经典方法是否合适 2.问题：如果我想在第一个模型性能不好的情况下对其进行改进，并使用无监督的多语言emdedding来构建分类器。我以后如何在数字标签上训练这个分类器如果您有其他想法或方法，请随意：）

为了改进买方物料组的再采购系统，我公司愿意使用客户历史支出数据培训模型。应根据历史“短文本描述”对模型进行培训，以预测适当的BMG。数据集有超过500.000行，文本描述是多语言的（最多40个字符）

问题：如果我认为描述是多语言的，我可以使用监督学习吗？如果是，像多项式朴素贝叶斯或支持向量机这样的经典方法是否合适

2.问题：如果我想在第一个模型性能不好的情况下对其进行改进，并使用无监督的多语言emdedding来构建分类器。我以后如何在数字标签上训练这个分类器

如果您有其他想法或方法，请随意：）。（这是一个简单的文本分类问题）

我可以使用监督学习吗？如果我考虑到描述是多语言的事实？

是的，这不是一个问题，只是它使您的数据更加稀疏。如果实际上每个项目只有40个字符（不是40个单词吗？），则可能没有足够的数据。此外，监督学习的主要挑战是您是否有数据标签

如果是，像多项式朴素贝叶斯或支持向量机这样的经典方法是否合适

尽管现在构建向量表示可能是更好的选择，但它们将一如既往地工作

如果我想在第一个模型性能不好的情况下对其进行改进，并使用无监督的多语言emdedding来构建分类器。我以后如何在数字标签上训练这个分类器

假设数字标签是原始数据上的标签，您可以将它们添加为标记，如LABEL001，如果您希望生成无监督的推荐者，模型可以学习它们的表示形式

老实说，现在我不会从朴素贝叶斯或经典模型开始，我会直接使用词向量作为聚类的第一个测试。使用fasttext或word2vec非常简单。主要问题是，如果每个项目只有40个字符，那么这可能不足以有效地进行聚类。

每个描述（行）最多有40个字符，而不是单词。考虑到该数据是一个超过500.000行的客户历史支出数据。买方材料组大约有230个分布在500.000行上，这意味着每个买方材料组存在不止一次。自由文本描述类似于“电动螺丝刀校准”“工程支持9903211”“急救课程Katarzyna（2017年11月27日）”，包括中文在内的5种语言。BMG clolumn是数字的：“14060103”“10020100”等。对于这个分类问题，我仍然可以使用Fasttext或Word2vec吗？谢谢，好的，所以买方材料组是您的标签或类别。是的，您可以使用fasttext或word2vec，但处理这样的短文档可能更具挑战性。我会尝试基本的FastText文本分类，看看它是如何进行的。超短文本的一个相关问题是购物收据上的商品分类，这可能是一个有用的搜索词。有关从收据中分类短文本的示例，请参见此处。