Machine learning 分类器predict_proba仅返回1和0_Machine Learning_Scikit Learn_Tf Idf

Machine learning 分类器predict_proba仅返回1和0

machine-learning scikit-learn

Machine learning 分类器predict_proba仅返回1和0,machine-learning,scikit-learn,tf-idf,Machine Learning,Scikit Learn,Tf Idf,我正在尝试为数据集构建一个多标签分类模型，该数据集还包括文本字段（描述）。对于文本字段，我使用TfIdfVectorizer并为每个单词创建一列。即使在词干和使用停止词之后，我仍有数千行（对于每个文本字段，我创建一个新的TFIDFvectorier）由于有这么多列，使用DecisionTreeClassifier模型，我的predict_proba函数只返回1和0作为概率分数。我构建向量的代码部分如下 descVectorizer = TfidfVectorizer(analyzer='w

我正在尝试为数据集构建一个多标签分类模型，该数据集还包括文本字段（描述）。对于文本字段，我使用TfIdfVectorizer并为每个单词创建一列。即使在词干和使用停止词之后，我仍有数千行（对于每个文本字段，我创建一个新的TFIDFvectorier）由于有这么多列，使用DecisionTreeClassifier模型，我的predict_proba函数只返回1和0作为概率分数。我构建向量的代码部分如下

descVectorizer = TfidfVectorizer(analyzer='word', lowercase=False, max_df=0.95, stop_words=stop)
temp = list(descVectorizer.fit_transform(data['description']).toarray())
textData = pandas.DataFrame(temp, columns=descVectorizer.get_feature_names(), index=data.index)
temp=None
print(3)
nameVectorizer = TfidfVectorizer(analyzer='word', lowercase=False, use_idf=False, stop_words=stop)
temp2 = list(descVectorizer.transform(data['name']).toarray())
nameData = pandas.DataFrame(temp2, columns=descVectorizer.get_feature_names(), index=data.index)
temp2=None

稍后，我将nameData和textData附加到实际的数据帧中

我想不出减少列数的方法，任何关于处理文本字段的建议都是欢迎的提前谢谢