Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/308.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 对DecisionTreeClassifier预测的信心_Python_Scikit Learn_Classification_Decision Tree_Text Classification - Fatal编程技术网

Python 对DecisionTreeClassifier预测的信心

Python 对DecisionTreeClassifier预测的信心,python,scikit-learn,classification,decision-tree,text-classification,Python,Scikit Learn,Classification,Decision Tree,Text Classification,我试图理解分类算法是如何创建一种通用管道的,所以我只是从LinearSVC模型开始。一般来说,我在做: model = LinearSVC(loss='squared_hinge', penalty='l2', dual=False, tol=1e-3) model.fit(X_train, y_train) pred_labels = model.predict(X_unlabeled) confidence_on_pred_labels = model.decision_function

我试图理解分类算法是如何创建一种通用管道的,所以我只是从LinearSVC模型开始。一般来说,我在做:

model = LinearSVC(loss='squared_hinge', penalty='l2', dual=False, tol=1e-3)
model.fit(X_train, y_train)
pred_labels = model.predict(X_unlabeled)  
confidence_on_pred_labels = model.decision_function(X_unlabeled)
我真的需要,作为输出,预测标签和他们的信心。但是当我试着用其他模型来做这件事时,我找不到一种方法来获得自信。例如

model = DecisionTreeClassifier(random_state=0)
model.fit(X_train, y_train)
pred_labels = model.predict(X_unlabeled)  
confidence_on_pred_labels = model.predict_proba(X_unlabeled)
在这种情况下,predict_proba为每个预测标签返回一个元组,其中包含[0,1]作为值(而不是0和1之间的置信度作为单个数字)。我的意思是,绝对所有的预测都有0或1的值,中间没有值。例如,如果我跑步

set(model.predict_proba(X_unlabeled)[:,1]) I will get [0.0, 1.0] 
这正常吗

我怎么能得到这样一个号码?或者其他哪些模型让我得到了预测的信心?
最好的是,

未标记的X是否与未标记的X具有相同的数据?这可能是您的概率显示为[0.1]的原因。如果你给它的是你试图实际预测的数据,但不是相同的,你应该得到不同的概率。model.predict_probability应该可以向您展示类概率

嗨@Horbaje,谢谢你的回答。我没有回答这个问题。X_unlabeled是一个csr矩阵,其中数据为[62.0465408 36.30498454 4.27042236…],并且所有预测值均为0.0或1.0。这正常吗?例如,如果我运行set(model.predict_proba(X_unlabeled)[:,1]),我将得到[0.0,1.0],是的,X_unlabeled是目标集中的数据(要分类,没有标签)