Neural network 具有分类属性的Amazon机器学习-限制

Neural network 具有分类属性的Amazon机器学习-限制,neural-network,amazon-machine-learning,Neural Network,Amazon Machine Learning,我使用回归模型从一组120个属性中预测数值。这些属性中有7个是分类的,但是最大的类别有大约90000个唯一值。我正在使用大约100万行数据进行培训 但是,当我查看数据源摘要中的分类属性时,我可以看到这些属性最多显示5000个唯一值。这是AWS机器学习实施的某种限制,影响了我的模型的准确性,还是只是摘要显示的限制 此外,我还突出显示了最常见的类别结果,其中空白显示为最常见的值。(这可能是因为我的CSV包含引号,因此是一个有效值)AWS ML是否会忽略分类元素的空白条目?或者我应该用UUID/随机

我使用回归模型从一组120个属性中预测数值。这些属性中有7个是分类的,但是最大的类别有大约90000个唯一值。我正在使用大约100万行数据进行培训

但是,当我查看数据源摘要中的分类属性时,我可以看到这些属性最多显示5000个唯一值。这是AWS机器学习实施的某种限制,影响了我的模型的准确性,还是只是摘要显示的限制

此外,我还突出显示了最常见的类别结果,其中空白显示为最常见的值。(这可能是因为我的CSV包含引号,因此是一个有效值)AWS ML是否会忽略分类元素的空白条目?或者我应该用UUID/随机字符串填充缺少的分类值,以便公共共享“空白”值不会扭曲预测

我知道有些ML模型在输入新的(以前未在训练中看到的)分类值进行预测时会保留一个备用神经元。AWS机器学习就是这样吗

我是ML新手,如果我的问题很愚蠢,或者我的方法/假设是错误的,那么很抱歉。在询问之前,我确实扫描了AWS文档


谢谢。

使用这么多的类别值通常没有多大意义,而且只会使用顶部值,因为其他较小的类别没有太大的预测能力


这些类别与目标有很高的相关性,这有点可疑。但如果模型与他们配合得很好,我就不会太担心了。你可以试着在没有它们的情况下构建模型,看看它是否有什么不同,但我不会在选择特性上下太大功夫,更多的是在添加更多的潜在特性上下功夫

你使用了大量的属性,因此很明显,属性选择没有科学的推理,我们把所有的属性都放在了没有属性选择的学习中*。某些属性可能对学习有重要意义,或者导致反向学习,也可能无法捕获相关属性。我可以看到相关系数非常低,约为0.5。即使是专家在使用大数据时也忽略了这一点。使用PCA改进网络,没有多余的神经元,所有输入数据收敛到训练的输出。谢谢。是的,我想用唯一“描述”这些类别的数字属性替换分类属性。我将比较这两种输出。我只是想知道我在AWS上遇到了什么限制。。您知道AWS ML是否严格限制使用最“有用”的5000个分类值。。或者你只是在谈论机器学习在许多范畴价值观下是如何工作的。?