Nlp 用于改进推荐系统的多语言自由文本项文本分类

Nlp 用于改进推荐系统的多语言自由文本项文本分类,nlp,multilingual,text-classification,unsupervised-learning,supervised-learning,Nlp,Multilingual,Text Classification,Unsupervised Learning,Supervised Learning,为了改进买方物料组的再采购系统,我公司愿意使用客户历史支出数据培训模型。应根据历史“短文本描述”对模型进行培训,以预测适当的BMG。数据集有超过500.000行,文本描述是多语言的(最多40个字符) 问题:如果我认为描述是多语言的,我可以使用监督学习吗?如果是,像多项式朴素贝叶斯或支持向量机这样的经典方法是否合适 2.问题:如果我想在第一个模型性能不好的情况下对其进行改进,并使用无监督的多语言emdedding来构建分类器。我以后如何在数字标签上训练这个分类器 如果您有其他想法或方法,请随意:)

为了改进买方物料组的再采购系统,我公司愿意使用客户历史支出数据培训模型。应根据历史“短文本描述”对模型进行培训,以预测适当的BMG。数据集有超过500.000行,文本描述是多语言的(最多40个字符)

问题:如果我认为描述是多语言的,我可以使用监督学习吗?如果是,像多项式朴素贝叶斯或支持向量机这样的经典方法是否合适

2.问题:如果我想在第一个模型性能不好的情况下对其进行改进,并使用无监督的多语言emdedding来构建分类器。我以后如何在数字标签上训练这个分类器

如果您有其他想法或方法,请随意:)。(这是一个简单的文本分类问题)

我可以使用监督学习吗?如果我考虑到描述是多语言的事实?

是的,这不是一个问题,只是它使您的数据更加稀疏。如果实际上每个项目只有40个字符(不是40个单词吗?),则可能没有足够的数据。此外,监督学习的主要挑战是您是否有数据标签

如果是,像多项式朴素贝叶斯或支持向量机这样的经典方法是否合适

尽管现在构建向量表示可能是更好的选择,但它们将一如既往地工作

如果我想在第一个模型性能不好的情况下对其进行改进,并使用无监督的多语言emdedding来构建分类器。我以后如何在数字标签上训练这个分类器

假设数字标签是原始数据上的标签,您可以将它们添加为标记,如LABEL001,如果您希望生成无监督的推荐者,模型可以学习它们的表示形式



老实说,现在我不会从朴素贝叶斯或经典模型开始,我会直接使用词向量作为聚类的第一个测试。使用fasttext或word2vec非常简单。主要问题是,如果每个项目只有40个字符,那么这可能不足以有效地进行聚类。

每个描述(行)最多有40个字符,而不是单词。考虑到该数据是一个超过500.000行的客户历史支出数据。买方材料组大约有230个分布在500.000行上,这意味着每个买方材料组存在不止一次。自由文本描述类似于“电动螺丝刀校准”“工程支持9903211”“急救课程Katarzyna(2017年11月27日)”,包括中文在内的5种语言。BMG clolumn是数字的:“14060103”“10020100”等。对于这个分类问题,我仍然可以使用Fasttext或Word2vec吗?谢谢,好的,所以买方材料组是您的标签或类别。是的,您可以使用fasttext或word2vec,但处理这样的短文档可能更具挑战性。我会尝试基本的FastText文本分类,看看它是如何进行的。超短文本的一个相关问题是购物收据上的商品分类,这可能是一个有用的搜索词。有关从收据中分类短文本的示例,请参见此处。