SSAS-分类-如何将数据拆分为:训练集-验证集-测试集
我有一套300000条历史客户购买数据记录。我已启动SSAS数据挖掘项目,以确定最佳客户 数据拆分: -90%非买家 -10%的买家 我使用了各种SSAS算法(决策树和神经网络显示出最好的提升)来探索我的数据 该项目的目标是根据最有可能购买产品的客户识别/评分 目前,我已将所有记录用于此目的。感觉项目中缺少了一些东西。我现在正在读两本关于数据挖掘的书。他们都在谈论将数据挖掘分成不同的集合;然而,它们都没有解释如何实际分割它们 我认为我需要将may记录分成3组,然后重新运行ssas算法 主要问题:SSAS-分类-如何将数据拆分为:训练集-验证集-测试集,ssas,classification,spss,ssas-2008,statistics,Ssas,Classification,Spss,Ssas 2008,Statistics,我有一套300000条历史客户购买数据记录。我已启动SSAS数据挖掘项目,以确定最佳客户 数据拆分: -90%非买家 -10%的买家 我使用了各种SSAS算法(决策树和神经网络显示出最好的提升)来探索我的数据 该项目的目标是根据最有可能购买产品的客户识别/评分 目前,我已将所有记录用于此目的。感觉项目中缺少了一些东西。我现在正在读两本关于数据挖掘的书。他们都在谈论将数据挖掘分成不同的集合;然而,它们都没有解释如何实际分割它们 我认为我需要将may记录分成3组,然后重新运行ssas算法 主要问题:
由于您的数据集很大,而且买家的数量也不太低(10%),因此可以随机进行分组。但是,如果您想确保您的数据集具有代表性,您可以提取80%的买家样本和80%的非买家样本,并将它们混合,以构建一个包含80%的总数据集的培训集,并且该培训集的买家和非买家比例与使子集具有代表性的原始数据集相同。您可能不想将数据集分成两个子集,而是分成三个子集:训练、交叉验证和测试。如果你像你说的那样使用
神经网络
,你应该使用交叉验证子集来调整你的模型(权重衰减、学习率、动量…)
关于你的第二个问题,你可以像你说的那样使用一个神经网络并获取输出,如果你在输出层中使用一个sigmoid作为激活函数,它将在[0,1]范围内,作为概率。我还建议您在这项任务中查看
协同过滤
,因为它可以帮助您了解哪些产品可能是客户感兴趣的,可以使用您对其他具有类似偏好的买家的了解。谢谢您的回答。如何在SSAS的输出层中使用sigmoid作为激活函数?如果您查看文档:您会发现隐藏神经元使用双曲正切函数(tanh)作为其激活函数,而输出神经元使用sigmoid函数进行激活
,因此您无需做任何事情,这是默认设置。