Machine learning 为scikit learn FeatureHasher确定n_功能值

Machine learning 为scikit learn FeatureHasher确定n_功能值,machine-learning,scikit-learn,feature-extraction,Machine Learning,Scikit Learn,Feature Extraction,我有一个包含4000个独特级别的分类列 当使用sklearn.feature\u extraction.FeatureHasher进行编码时,该列 为避免碰撞,n_功能值应该是多少?n_功能应尽可能大以避免碰撞。您是否可以计算所有4000个级别的所有唯一值?如果是,您可以将n\u功能设置为此值。将n_features设置为非常大的值可能会占用大量RAM。一般来说,2^28到2^32之间的n_特征足够好了在研究FeatureHasher时,我们正在研究它,以减少生成的编码表的维数。如果我错了,请纠

我有一个包含4000个独特级别的分类列

当使用
sklearn.feature\u extraction.FeatureHasher
进行编码时,该列
为避免碰撞,n_功能值应该是多少?

n_功能应尽可能大以避免碰撞。您是否可以计算所有4000个级别的所有唯一值?如果是,您可以将
n\u功能
设置为此值。将
n_features
设置为非常大的值可能会占用大量RAM。一般来说,2^28到2^32之间的n_特征足够好了

在研究FeatureHasher时,我们正在研究它,以减少生成的编码表的维数。如果我错了,请纠正我如果我必须使用4000作为n_功能,我最好使用oneHotEncoding?“您是否可以计算所有4000个级别的所有唯一值”。-我不明白数据集的实际大小为7,00000,其中分类列具有4000个唯一值!对不起,我也不明白。