Neural network 学习人工神经网络的性质?

Neural network 学习人工神经网络的性质?,neural-network,artificial-intelligence,Neural Network,Artificial Intelligence,我有一个数据集,每个项目大约有50000个属性。(大多数值介于0和1之间,根本没有离散值) 属性没有标记,并且假定它们彼此没有关系我事先知道,大多数财产都是无用的。(99%) 我的任务是在神经网络中使用尽可能少的属性,以便它知道如何区分5种项目类型 理论上,我可以将所有的50K属性输入到ANN中,并希望得到最好的结果,但这需要大量的时间来训练千兆字节的内存,我不确定我的服务器是否会崩溃 是否有一个模型来衡量一个参数的分类水平 如果不是,以下是一个好主意吗 检查我的所有50K参数,并使用 获得最

我有一个数据集,每个项目大约有50000个属性。(大多数值介于0和1之间,根本没有离散值)

属性没有标记,并且假定它们彼此没有关系我事先知道,大多数财产都是无用的。(99%)

我的任务是在神经网络中使用尽可能少的属性,以便它知道如何区分5种项目类型

理论上,我可以将所有的50K属性输入到ANN中,并希望得到最好的结果,但这需要大量的时间来训练千兆字节的内存,我不确定我的服务器是否会崩溃

是否有一个模型来衡量一个参数的分类水平

如果不是,以下是一个好主意吗

  • 检查我的所有50K参数,并使用
  • 获得最大精度ANN,然后重新开始,使用3个输入:,依此类推,直到达到95%的精度,然后停止
我看没有理由不起作用,但至少训练10*50000人工神经网络也不理想

编辑:

我每个类别有12个例子。总共60个项目。(我知道它很小,但我无法获得更多。)

功能选择 我会避开神经网络来解决这个问题。如果你有神经网络的想法,那么就有可能将50000 x 60的数据矩阵插入网络,因为这根本不需要太多内存。如果使用L1正则化器,然后分析所有0项的网络权重,则可以确定哪些功能不有用

还有许多其他特征选择方法。例如,LASSO算法试图以与上述神经网络方法非常相似的方式解决这个问题

另一个众所周知的算法是正向选择回归,在该算法中,一次只使用一个属性执行回归。然后,选择最能分隔类的属性,修复该属性,然后一次使用两个属性再次选择(上一次扫描的最佳属性,以及每一个其他属性)。重复此过程,直到添加另一个属性不会提供更好的类分隔。如果大多数功能真的没有用,我就不关心训练这个模型所需的时间。在这种大小的数据集上使用线性回归(因为它有一个封闭形式的解决方案)几乎不需要花费任何时间

特征提取 更具原则性的方法是某种形式的主成分分析(PCA)。这将显示数据集有多少共线特性,并提取少量新特性来描述数据。

特征选择 我会避开神经网络来解决这个问题。如果你有神经网络的想法,那么就有可能将50000 x 60的数据矩阵插入网络,因为这根本不需要太多内存。如果使用L1正则化器,然后分析所有0项的网络权重,则可以确定哪些功能不有用

还有许多其他特征选择方法。例如,LASSO算法试图以与上述神经网络方法非常相似的方式解决这个问题

另一个众所周知的算法是正向选择回归,在该算法中,一次只使用一个属性执行回归。然后,选择最能分隔类的属性,修复该属性,然后一次使用两个属性再次选择(上一次扫描的最佳属性,以及每一个其他属性)。重复此过程,直到添加另一个属性不会提供更好的类分隔。如果大多数功能真的没有用,我就不关心训练这个模型所需的时间。在这种大小的数据集上使用线性回归(因为它有一个封闭形式的解决方案)几乎不需要花费任何时间

特征提取
更具原则性的方法是某种形式的主成分分析(PCA)。这将显示数据集有多少共线属性,并提取少量新属性来描述数据。

为什么要使用神经网络解决此问题?这听起来像是某种回归(或NNs)、决策树或主成分的正向选择的简单应用。所以你有高维数据,但你有多少样本?@GordonLinoff只是出于熟悉性大多数属性都是介于0和1之间的数字,没有一个是离散值。我不知道决策树是如何解决这个问题的,回归也会有同样的问题——对于许多参数。@J.P.Petersen我每个类别有12个示例(我知道……数量非常少,但每个示例都是从5GB文件中提取的)@Amit。正向选择回归和决策树都选择模型的属性。这似乎是你想要做的。你为什么要用神经网络来解决这个问题?这听起来像是某种回归(或NNs)、决策树或主成分的正向选择的简单应用。所以你有高维数据,但你有多少样本?@GordonLinoff只是出于熟悉性大多数属性都是介于0和1之间的数字,没有一个是离散值。我不知道决策树是如何解决这个问题的,回归也会有同样的问题——对于许多参数。@J.P.Petersen我每个类别有12个示例(我知道……数量非常少,但每个示例都是从5GB文件中提取的)@Amit。正向选择回归和决策树都选择模型的属性。这似乎就是你想要做的。