Python 从一串数字和字母进行分类
我有一个装满物品的数据库,我的任务是对它们进行分类(可能是书籍、文具等)。选项是手动检查100k条记录并找出它们是什么,或者自动执行任务 每种类型项目的代码都遵循某种模式,因此我希望使用机器学习来解决这个问题(我不想使用正则表达式)。虽然我非常擅长python,但我的ml知识只涉及随机林和逻辑回归 这有可能吗?数据如下所示:Python 从一串数字和字母进行分类,python,machine-learning,Python,Machine Learning,我有一个装满物品的数据库,我的任务是对它们进行分类(可能是书籍、文具等)。选项是手动检查100k条记录并找出它们是什么,或者自动执行任务 每种类型项目的代码都遵循某种模式,因此我希望使用机器学习来解决这个问题(我不想使用正则表达式)。虽然我非常擅长python,但我的ml知识只涉及随机林和逻辑回归 这有可能吗?数据如下所示: Item code type 1 4S2BDANC5L3247151 book 2 1N4AL3AP1JC
Item code type
1 4S2BDANC5L3247151 book
2 1N4AL3AP1JC236284 book
3 3R4BTTGC3L3237430 book
4 KNMAT2MT1KP546287 book
5 97806773062273208 pen
6 07356196706378892 Pen
7 97807345361169253 pen
8 01008130715194136 chair
9 01076305063010CCE44 chair
etc
我很高兴能看到并学到任何必要的东西,我只是不知道从哪里开始
谢谢 我知道你有10万个例子。您可以使用RNN、LSTM或基于注意力的深度学习方法,因为该模型可以跟踪代码的模式。机器学习模型也可以解决这个问题。最后,您的问题包括针对不同类的特定类型的模式。因此,可以将这些类分开 1)您需要从查找嵌入来表示代码开始。我想你可以使用数字和字母的ascii码。另外,要使所有向量长度相同,请使用填充。然后可以将它们规格化,使其介于0-1之间 2)那么我的建议是从支持向量机开始,采用一对多策略进行多类分类。之后,您可以尝试XGBoost,它是一个强大的ml模型。或者您可以从更基本的ml模型开始。这背后的想法是,从基础开始,到复杂的模型 3)如果ml模型不足以完成该任务,请从基本RNN模型开始
我不知道您的数据在类之间的分布,也不知道类的数量。如果它是平衡的,并且每个类都有足够的数据,我想您可以轻松地自动化该任务。代码长度是否有最大和最小大小?遗憾的是,没有,长度可以更改