Machine learning 我如何处理这个机器学习/NLP上下文感知文本分类项目?请参见下面的描述

Machine learning 我如何处理这个机器学习/NLP上下文感知文本分类项目?请参见下面的描述,machine-learning,neural-network,nlp,text-classification,supervised-learning,Machine Learning,Neural Network,Nlp,Text Classification,Supervised Learning,我是机器学习和NLP的新手。我的大学项目需要帮助。这实际上是一个重大项目的子任务。详情如下: 这是一个分类问题。我将得到一件商品,我必须预测从哪里可以买到该商品的商店类型。 示例: 商品类别标签(商店类型) 铅笔->书店 啤酒->酒吧 现金->自动取款机 筒灯->电子商店 医学->药学 我有很多不同的类别标签,如文具店、书店、面包店、药店等(大约50个标签) 面临的问题- 1.我没有更大的数据集。我自己建立了一个小数据集。 2.我不太了解机器学习和NLP技术,比如如何解决这个问题。 3.如何做出

我是机器学习和NLP的新手。我的大学项目需要帮助。这实际上是一个重大项目的子任务。详情如下:

这是一个分类问题。我将得到一件商品,我必须预测从哪里可以买到该商品的商店类型。
示例:
商品类别标签(商店类型)
铅笔->书店
啤酒->酒吧
现金->自动取款机
筒灯->电子商店
医学->药学
我有很多不同的类别标签,如文具店、书店、面包店、药店等(大约50个标签)

面临的问题-
1.我没有更大的数据集。我自己建立了一个小数据集。
2.我不太了解机器学习和NLP技术,比如如何解决这个问题。
3.如何做出正确的预测?例如,如果我的数据集中有(铅笔、书店),并且它被赋予了卷笔刀作为输入,那么它必须预测作为书店的标签,因为卷笔刀与铅笔密切相关

我的方法
我从一个小数据集开始,然后使用api通过查找给定单词的相关单词来扩展它。例如,我从API中提取了所有与铅笔相关的单词,并用相同的标签book_store标记它们。然后我用它来生成一个预测模型,但是我没有得到预期的结果

小数据集
数据集格式:(示例,类标签)

肥皂,百货商店
铅笔、书籍和商店
笔、书和书店
茶,百货商店
咖啡,百货商店
灯泡,电子产品商店
电池、电子产品商店
tubelight,电子商店
医学、药学
书,书店
货币、银行
现金,自动取款机
鲜花,花店
水果、杂货店或超市
蛋糕、面包房
服装,服装店
纸张、书籍和商店
珠宝,珠宝店
洗发水,百货公司
石油、百货公司
糖,百货商店
啤酒,酒吧
酒吧威士忌
酒吧用酒精
理发、美容沙龙
咖啡,咖啡馆
三明治,咖啡馆
糕点、面包房
西服、服装店
鞋,鞋店
沙发、家具和商店
椅子、家具和商店
床、家具和商店
汽油、加油站
柴油、加油站
工具、硬件商店
管道、五金商店
水箱、五金商店
洗衣、洗衣
干洗、洗衣
项链、珠宝店
戒指、珠宝店
饰品、珠宝店
晚餐、餐厅
午餐、餐厅
宠物、兽医护理

芯片,百货商店

由于您的问题是基于文本数据的分类,首先您需要将培训(70%)和测试数据(30%)分开,然后首先查找(例如,类标签)您的数据集格式

步骤(1)--这里的class\u标签也是文本格式的,因此您必须将它们标记为数字…例如-->department\u store==1,book\u store==2, 电子商店==3,鞋店==4…以此类推,以这种格式标记所有这些商品

第(2)步——在此之后,从(示例,class_label)数据集格式中查找示例,因为这些示例也是文本格式的,所以我们也必须将它们设置为数字格式(请记住,机器学习算法仅适用于数字数据,因此我们必须将所有文本数据转换为数字格式)。 在这里使用CountVectorizer()处理文本数据……请看一下这些文档

从文本数据中提取特征后,请使用任何分类算法(记住,由于数据集类是多个的,因此必须执行多类分类…。所有算法都适用于二进制分类,因此必须使用(一对一)或(一对其余)

我更喜欢使用支持向量机(SVM)进行训练(占总数据的70%),因为您的数据集很小。 对于测试,对剩余数据(总数据的30%)执行步骤(2)