Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/python-2.7/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用scikit学习了解分类报告中的未定义度量学习?_Python_Python 2.7_Machine Learning_Nlp_Scikit Learn - Fatal编程技术网

Python 使用scikit学习了解分类报告中的未定义度量学习?

Python 使用scikit学习了解分类报告中的未定义度量学习?,python,python-2.7,machine-learning,nlp,scikit-learn,Python,Python 2.7,Machine Learning,Nlp,Scikit Learn,我有一个包含5个类别的文本分类任务。问题是我的分类精度不高,并且此警告可能是由于未平衡的数据(我不确定): 我猜这个警告是因为数据聚集在5标签中而产生的如何修复此警告以及如何增加分类报告的结果?。我还尝试使用以下超参数进行网格搜索: Best parameters set: clf__C: 0.1 vect__max_df: 0.25 vect__ngram_range: (1, 1) vect__use_idf: True Accuracy: 0.456923

我有一个包含5个类别的文本分类任务。问题是我的分类精度不高,并且此警告可能是由于未平衡的数据(我不确定):

我猜这个警告是因为数据聚集在5标签中而产生的如何修复此警告以及如何增加分类报告的结果?。我还尝试使用以下超参数进行网格搜索:

Best parameters set:
    clf__C: 0.1
    vect__max_df: 0.25
    vect__ngram_range: (1, 1)
    vect__use_idf: True

Accuracy:
0.456923076923

但是仍然得到了糟糕的结果,有谁能帮我用SVC或其他模型来增加这个结果吗

您可以使用管道,然后还可以使用网格搜索TfidifVectorizer的参数以及SVC的C,如n-gram范围(1,1)、(1,2)或(2,2),可以设置不同的最大df,与CountVectorizer进行比较,也可以尝试字符n-grams(具有更高的n-gram范围)。

我忘了提到我有不平衡的数据。一半的数据在一个类中,有3个类。警告是由分类报告提出的,而不是网格搜索。感谢反馈。我知道这是由classification_报告引起的,我查看web以修复此问题,我阅读了,正如我所理解的,前面的参考通过使用其他参数进行网格搜索来修复此问题。您认为这是由于数据不平衡造成的吗。可能这是因为我在一个类中有1190个2599的实例。你知道如何修复之前的警告吗?那么你不是在问警告,而是在问如何在数据上获得更好的结果。我不会在这里使用“rbf”内核,如果使用,还必须搜索“gamma”。对于线性内核,可以使用更大范围的C,也可以使用
scoring=“auc”
。您也可以尝试
class\u weight='auto'
。降维不能使用来自标签数据的任何信息,而监督算法可以。除非你知道数据中噪声的具体情况,否则无监督的降维不太可能有帮助。我已经做好了尝试,但仍然没有增加指标,我也做了网格搜索,仍然是一样的。谢谢你的帮助。
Best parameters set:
    clf__C: 0.1
    vect__max_df: 0.25
    vect__ngram_range: (1, 1)
    vect__use_idf: True

Accuracy:
0.456923076923