Python 如何在选择前5k要素后准备数据集。原始形状为(2450056000)。预期=(24k,5k)
我正在使用Python 如何在选择前5k要素后准备数据集。原始形状为(2450056000)。预期=(24k,5k),python,scikit-learn,decision-tree,tfidfvectorizer,Python,Scikit Learn,Decision Tree,Tfidfvectorizer,我正在使用 功能\u重要性\u。 在按降序获得这些5k特征的索引后,i 需要相应地准备我的数据集 X\u列车形状为(2400056000) 我希望我的最终数据集是前5K特征的形状(240005000)你必须找到那些前5K特征的索引,这些特征具有更高的特征重要性值。使用索引将原始X_序列的特征子集 k = 5000 ind = clf.feature_importances_.argsort()[-k:][::-1] X_train_shortlisted = X_train_essay_tfid
功能\u重要性\u
。
在按降序获得这些5k特征的索引后,i
需要相应地准备我的数据集
X\u列车
形状为(2400056000)
我希望我的最终数据集是前5K特征的形状
(240005000)
你必须找到那些前5K特征的索引,这些特征具有更高的特征重要性
值。使用索引将原始X_序列的特征子集
k = 5000
ind = clf.feature_importances_.argsort()[-k:][::-1]
X_train_shortlisted = X_train_essay_tfidf[:,ind]
现在您可以使用
X\u train\u短名单
作为最终分类器 你必须找到那些排名前5K的特征的索引,这些特征具有更高的特征\u重要性\u
值。使用索引将原始X_序列的特征子集
k = 5000
ind = clf.feature_importances_.argsort()[-k:][::-1]
X_train_shortlisted = X_train_essay_tfidf[:,ind]
现在您可以使用X\u train\u短名单
作为最终分类器