Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/318.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在选择前5k要素后准备数据集。原始形状为(2450056000)。预期=(24k,5k)_Python_Scikit Learn_Decision Tree_Tfidfvectorizer - Fatal编程技术网

Python 如何在选择前5k要素后准备数据集。原始形状为(2450056000)。预期=(24k,5k)

Python 如何在选择前5k要素后准备数据集。原始形状为(2450056000)。预期=(24k,5k),python,scikit-learn,decision-tree,tfidfvectorizer,Python,Scikit Learn,Decision Tree,Tfidfvectorizer,我正在使用 功能\u重要性\u。 在按降序获得这些5k特征的索引后,i 需要相应地准备我的数据集 X\u列车形状为(2400056000) 我希望我的最终数据集是前5K特征的形状(240005000)你必须找到那些前5K特征的索引,这些特征具有更高的特征重要性值。使用索引将原始X_序列的特征子集 k = 5000 ind = clf.feature_importances_.argsort()[-k:][::-1] X_train_shortlisted = X_train_essay_tfid

我正在使用
功能\u重要性\u
。 在按降序获得这些5k特征的索引后,i 需要相应地准备我的数据集
X\u列车
形状为
(2400056000)


我希望我的最终数据集是前5K特征的形状
(240005000)

你必须找到那些前5K特征的索引,这些特征具有更高的
特征重要性
值。使用索引将原始X_序列的特征子集

k = 5000
ind = clf.feature_importances_.argsort()[-k:][::-1]
X_train_shortlisted = X_train_essay_tfidf[:,ind]

现在您可以使用
X\u train\u短名单
作为最终分类器

你必须找到那些排名前5K的特征的索引,这些特征具有更高的
特征\u重要性\u
值。使用索引将原始X_序列的特征子集

k = 5000
ind = clf.feature_importances_.argsort()[-k:][::-1]
X_train_shortlisted = X_train_essay_tfidf[:,ind]
现在您可以使用
X\u train\u短名单
作为最终分类器