Python 如何在选择前5k要素后准备数据集。原始形状为（2450056000）。预期=（24k，5k）_Python_Scikit Learn_Decision Tree_Tfidfvectorizer

Python 如何在选择前5k要素后准备数据集。原始形状为（2450056000）。预期=（24k，5k）

python scikit-learn

Python 如何在选择前5k要素后准备数据集。原始形状为（2450056000）。预期=（24k，5k）,python,scikit-learn,decision-tree,tfidfvectorizer,Python,Scikit Learn,Decision Tree,Tfidfvectorizer,我正在使用功能\u重要性\u。在按降序获得这些5k特征的索引后，i 需要相应地准备我的数据集 X\u列车形状为（2400056000）我希望我的最终数据集是前5K特征的形状（240005000）你必须找到那些前5K特征的索引，这些特征具有更高的特征重要性值。使用索引将原始X_序列的特征子集 k = 5000 ind = clf.feature_importances_.argsort()[-k:][::-1] X_train_shortlisted = X_train_essay_tfid

我正在使用

功能\u重要性\u

。在按降序获得这些5k特征的索引后，i 需要相应地准备我的数据集

X\u列车

形状为

（2400056000）

我希望我的最终数据集是前5K特征的形状

（240005000）

你必须找到那些前5K特征的索引，这些特征具有更高的

特征重要性

值。使用索引将原始X_序列的特征子集

k = 5000
ind = clf.feature_importances_.argsort()[-k:][::-1]
X_train_shortlisted = X_train_essay_tfidf[:,ind]

现在您可以使用

X\u train\u短名单

作为最终分类器

你必须找到那些排名前5K的特征的索引，这些特征具有更高的

特征\u重要性\u

值。使用索引将原始X_序列的特征子集

k = 5000
ind = clf.feature_importances_.argsort()[-k:][::-1]
X_train_shortlisted = X_train_essay_tfidf[:,ind]

现在您可以使用

X\u train\u短名单

作为最终分类器