Python 非数值数据在神经网络中的应用

Python 非数值数据在神经网络中的应用,python,machine-learning,Python,Machine Learning,我想在我的神经网络中包含非数值数据。具体来说,我正在研究GICS行业分类(例如,公用事业、技术)。我不认为这些数据可以有意义地转换成数字数据 一种解决方案是使用一个虚拟变量来标记每个行业。这种方法的局限性在于神经网络输入层的膨胀维度。有没有更复杂的方法来处理这类问题?你完全正确,字符串或顺序数值{'utilities':0,'technology':1}在神经网络中不起作用,因为网络将学会检测字符或数字之间不存在的关系 为了避免这种情况,我们使用了一种叫做。这是一种将每个分类变量编码为状态向量的

我想在我的神经网络中包含非数值数据。具体来说,我正在研究GICS行业分类(例如,公用事业、技术)。我不认为这些数据可以有意义地转换成数字数据


一种解决方案是使用一个虚拟变量来标记每个行业。这种方法的局限性在于神经网络输入层的膨胀维度。有没有更复杂的方法来处理这类问题?

你完全正确,字符串或顺序数值
{'utilities':0,'technology':1}
在神经网络中不起作用,因为网络将学会检测字符或数字之间不存在的关系

为了避免这种情况,我们使用了一种叫做。这是一种将每个分类变量编码为状态向量的技术,因此消除了分类值之间存在某种隐含关系的假设

使用数组
['Utilities','Technology']
您的一个热编码如下所示:
gics=[[1,0],[0,1]]

您可以虚拟代码,然后应用一些降维方法(例如PCA)?在这种特殊情况下,这可能不起作用。由于其业务模型的性质,财务指标应因行业而异。删除行业分类将创建一个较低级别的桶,将不同行业合并在一起,这些行业的标志被认为不太敏感(标志平均为0),从而导致预测能力降低。请阅读更多相关信息。谢谢