Machine learning 分类器predict_proba仅返回1和0

Machine learning 分类器predict_proba仅返回1和0,machine-learning,scikit-learn,tf-idf,Machine Learning,Scikit Learn,Tf Idf,我正在尝试为数据集构建一个多标签分类模型,该数据集还包括文本字段(描述)。 对于文本字段,我使用TfIdfVectorizer并为每个单词创建一列。即使在词干和使用停止词之后,我仍有数千行(对于每个文本字段,我创建一个新的TFIDFvectorier) 由于有这么多列,使用DecisionTreeClassifier模型,我的predict_proba函数只返回1和0作为概率分数。 我构建向量的代码部分如下 descVectorizer = TfidfVectorizer(analyzer='w

我正在尝试为数据集构建一个多标签分类模型,该数据集还包括文本字段(描述)。 对于文本字段,我使用TfIdfVectorizer并为每个单词创建一列。即使在词干和使用停止词之后,我仍有数千行(对于每个文本字段,我创建一个新的TFIDFvectorier) 由于有这么多列,使用DecisionTreeClassifier模型,我的predict_proba函数只返回1和0作为概率分数。 我构建向量的代码部分如下

descVectorizer = TfidfVectorizer(analyzer='word', lowercase=False, max_df=0.95, stop_words=stop)
temp = list(descVectorizer.fit_transform(data['description']).toarray())
textData = pandas.DataFrame(temp, columns=descVectorizer.get_feature_names(), index=data.index)
temp=None
print(3)
nameVectorizer = TfidfVectorizer(analyzer='word', lowercase=False, use_idf=False, stop_words=stop)
temp2 = list(descVectorizer.transform(data['name']).toarray())
nameData = pandas.DataFrame(temp2, columns=descVectorizer.get_feature_names(), index=data.index)
temp2=None
稍后,我将nameData和textData附加到实际的数据帧中

我想不出减少列数的方法,任何关于处理文本字段的建议都是欢迎的 提前谢谢