Python 在numpy数组中使用特征哈希

Python 在numpy数组中使用特征哈希,python,matrix,scipy,scikit-learn,Python,Matrix,Scipy,Scikit Learn,我的数据集位于一个尺寸为10k X 30k的numpy数组中。我想做功能散列,但似乎我们只能以字典或字符串的形式创建数据集 我的numpy数组格式有30000列。是否有任何方法可以更改此功能,以便hasher接受此功能?是的,将其更改为dict。但是,如果数据已经在NumPy数组中,为什么要进行散列呢?sklearn.random_projection的sklearn.random_projection模块做的事情几乎相同,只是速度更快。是吗?关于这一点有什么证据吗?没有证据,只是基于哈希函数和

我的数据集位于一个尺寸为10k X 30k的numpy数组中。我想做功能散列,但似乎我们只能以字典或字符串的形式创建数据集


我的numpy数组格式有30000列。是否有任何方法可以更改此功能,以便hasher接受此功能?

是的,将其更改为dict。但是,如果数据已经在NumPy数组中,为什么要进行散列呢?sklearn.random_projection的
sklearn.random_projection
模块做的事情几乎相同,只是速度更快。是吗?关于这一点有什么证据吗?没有证据,只是基于哈希函数和PRNG之间的相似性的直觉。为什么要对这样的数组进行特性哈希?我这样问是因为我在scikit learn中共同实现了哈希,我自己的用例是符号特征空间,使你的相形见绌。我有一个巨大的矩阵,我在它上面做了随机投影,我想将它与特征哈希进行比较,看一看,空间消耗的结果和矩阵近似错误。这个问题还没有解决吗?如果没有,请发布您的解决方案。