Neural network 具有分类属性的Amazon机器学习-限制_Neural Network_Amazon Machine Learning

Neural network 具有分类属性的Amazon机器学习-限制

neural-network

Neural network 具有分类属性的Amazon机器学习-限制,neural-network,amazon-machine-learning,Neural Network,Amazon Machine Learning,我使用回归模型从一组120个属性中预测数值。这些属性中有7个是分类的，但是最大的类别有大约90000个唯一值。我正在使用大约100万行数据进行培训但是，当我查看数据源摘要中的分类属性时，我可以看到这些属性最多显示5000个唯一值。这是AWS机器学习实施的某种限制，影响了我的模型的准确性，还是只是摘要显示的限制此外，我还突出显示了最常见的类别结果，其中空白显示为最常见的值。（这可能是因为我的CSV包含引号，因此是一个有效值）AWS ML是否会忽略分类元素的空白条目？或者我应该用UUID/随机

我使用回归模型从一组120个属性中预测数值。这些属性中有7个是分类的，但是最大的类别有大约90000个唯一值。我正在使用大约100万行数据进行培训

但是，当我查看数据源摘要中的分类属性时，我可以看到这些属性最多显示5000个唯一值。这是AWS机器学习实施的某种限制，影响了我的模型的准确性，还是只是摘要显示的限制

此外，我还突出显示了最常见的类别结果，其中空白显示为最常见的值。（这可能是因为我的CSV包含引号，因此是一个有效值）AWS ML是否会忽略分类元素的空白条目？或者我应该用UUID/随机字符串填充缺少的分类值，以便公共共享“空白”值不会扭曲预测

我知道有些ML模型在输入新的（以前未在训练中看到的）分类值进行预测时会保留一个备用神经元。AWS机器学习就是这样吗

我是ML新手，如果我的问题很愚蠢，或者我的方法/假设是错误的，那么很抱歉。在询问之前，我确实扫描了AWS文档

谢谢。

使用这么多的类别值通常没有多大意义，而且只会使用顶部值，因为其他较小的类别没有太大的预测能力

这些类别与目标有很高的相关性，这有点可疑。但如果模型与他们配合得很好，我就不会太担心了。你可以试着在没有它们的情况下构建模型，看看它是否有什么不同，但我不会在选择特性上下太大功夫，更多的是在添加更多的潜在特性上下功夫

你使用了大量的属性，因此很明显，属性选择没有科学的推理，我们把所有的属性都放在了没有属性选择的学习中*。某些属性可能对学习有重要意义，或者导致反向学习，也可能无法捕获相关属性。我可以看到相关系数非常低，约为0.5。即使是专家在使用大数据时也忽略了这一点。使用PCA改进网络，没有多余的神经元，所有输入数据收敛到训练的输出。谢谢。是的，我想用唯一“描述”这些类别的数字属性替换分类属性。我将比较这两种输出。我只是想知道我在AWS上遇到了什么限制。。您知道AWS ML是否严格限制使用最“有用”的5000个分类值。。或者你只是在谈论机器学习在许多范畴价值观下是如何工作的。？