Python 从一串数字和字母进行分类

Python 从一串数字和字母进行分类,python,machine-learning,Python,Machine Learning,我有一个装满物品的数据库,我的任务是对它们进行分类(可能是书籍、文具等)。选项是手动检查100k条记录并找出它们是什么,或者自动执行任务 每种类型项目的代码都遵循某种模式,因此我希望使用机器学习来解决这个问题(我不想使用正则表达式)。虽然我非常擅长python,但我的ml知识只涉及随机林和逻辑回归 这有可能吗?数据如下所示: Item code type 1 4S2BDANC5L3247151 book 2 1N4AL3AP1JC

我有一个装满物品的数据库,我的任务是对它们进行分类(可能是书籍、文具等)。选项是手动检查100k条记录并找出它们是什么,或者自动执行任务

每种类型项目的代码都遵循某种模式,因此我希望使用机器学习来解决这个问题(我不想使用正则表达式)。虽然我非常擅长python,但我的ml知识只涉及随机林和逻辑回归

这有可能吗?数据如下所示:


Item          code          type
1       4S2BDANC5L3247151   book
2       1N4AL3AP1JC236284   book
3       3R4BTTGC3L3237430   book
4       KNMAT2MT1KP546287   book
5       97806773062273208   pen
6       07356196706378892   Pen
7       97807345361169253   pen
8       01008130715194136   chair
9       01076305063010CCE44 chair
etc
我很高兴能看到并学到任何必要的东西,我只是不知道从哪里开始
谢谢

我知道你有10万个例子。您可以使用RNN、LSTM或基于注意力的深度学习方法,因为该模型可以跟踪代码的模式。机器学习模型也可以解决这个问题。最后,您的问题包括针对不同类的特定类型的模式。因此,可以将这些类分开

1)您需要从查找嵌入来表示代码开始。我想你可以使用数字和字母的ascii码。另外,要使所有向量长度相同,请使用填充。然后可以将它们规格化,使其介于0-1之间

2)那么我的建议是从支持向量机开始,采用一对多策略进行多类分类。之后,您可以尝试XGBoost,它是一个强大的ml模型。或者您可以从更基本的ml模型开始。这背后的想法是,从基础开始,到复杂的模型

3)如果ml模型不足以完成该任务,请从基本RNN模型开始


我不知道您的数据在类之间的分布,也不知道类的数量。如果它是平衡的,并且每个类都有足够的数据,我想您可以轻松地自动化该任务。

代码长度是否有最大和最小大小?遗憾的是,没有,长度可以更改