Machine learning 预测产品';s按搜索词分类

Machine learning 预测产品';s按搜索词分类,machine-learning,nlp,neural-network,Machine Learning,Nlp,Neural Network,问题:用户使用搜索词执行产品搜索,我们应该定义与该搜索词最相关的类别(类别按降序排列) 给定:产品集,大约50000个(可能是10倍以上)产品。产品包含其所属类别的标题、说明和列表 型号: 预处理执行词干分析,并从产品标题和描述中删除停止词。将所有具有唯一词干的单词放入大小为N的单词列表中。将所有类别放入大小为M的类别列表中 拟合使用具有N个输入神经元和M个输出的神经网络 培训对于具有单词w1、w3、w4、w6的产品,输入将为x=[1 0 1 1 0 1…],其中索引对应于单词中千字索引的元素将

问题:用户使用搜索词执行产品搜索,我们应该定义与该搜索词最相关的类别(类别按降序排列)

给定:产品集,大约50000个(可能是10倍以上)产品。产品包含其所属类别的标题、说明和列表

型号:

预处理执行词干分析,并从产品标题和描述中删除停止词。将所有具有唯一词干的单词放入大小为N的单词列表中。将所有类别放入大小为M的类别列表中

拟合使用具有N个输入神经元和M个输出的神经网络

培训对于具有单词w1、w3、w4、w6的产品,输入将为x=[1 0 1 1 0 1…],其中索引对应于单词中千字索引的元素将设置为1。如果产品属于c1、c3、c25类,则对应于y=[1 0 1…1(第25位)…]预测步骤。作为输入,将用户搜索词词干标记作为输出,为我们提供最相关类别的预测

这种模式是解决此类问题的正确方法吗?隐藏NN层配置的建议是什么。任何建议都会有帮助,我对机器学习完全陌生


谢谢大家!

我认为这是解决问题的正确方法,因为您正在处理一个多标签分类问题。也就是说,一个样本可以同时属于多个类,或者属于单个类,或者不属于任何类(类别)

这是一个关于Python的好例子:。 你可以得到更多的细节

对于隐藏层配置,第一种方法是使用交叉验证来测试测试集的准确性。但如果你想更进一步,请阅读