Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/336.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C# Mallet作为二值分类器在文档分类中的应用_C#_Machine Learning_Classification_Document Classification_Mallet - Fatal编程技术网

C# Mallet作为二值分类器在文档分类中的应用

C# Mallet作为二值分类器在文档分类中的应用,c#,machine-learning,classification,document-classification,mallet,C#,Machine Learning,Classification,Document Classification,Mallet,我使用Mallet实现了一个文档分类工具,它将文档的每一页分类为特定的类别。我也试过Weka,但在这方面Mallet比Weka聪明。我的做法如下: 将文档的页面训练到已知类别 测试一些示例文档,看Mallet是否识别某个类别的页面。这里,木槌与已知类别的测试集相匹配 若测试成功并且令人满意,那个么使用分类器和mallet文件在巨大的文档库上运行 该部分已经实现,成功率很高 对于我没有训练过且与已知类别不同的文本文档,应该作为不匹配返回,Mallet正在尝试从训练集中为Mallet未知的文档查找匹

我使用Mallet实现了一个文档分类工具,它将文档的每一页分类为特定的类别。我也试过Weka,但在这方面Mallet比Weka聪明。我的做法如下:

  • 将文档的页面训练到已知类别
  • 测试一些示例文档,看Mallet是否识别某个类别的页面。这里,木槌与已知类别的测试集相匹配
  • 若测试成功并且令人满意,那个么使用分类器和mallet文件在巨大的文档库上运行 该部分已经实现,成功率很高

    对于我没有训练过且与已知类别不同的文本文档,应该作为不匹配返回,Mallet正在尝试从训练集中为Mallet未知的文档查找匹配项

    例如,我在一个文档中有4页。第1页属于A类,第3页属于B类。第2页和第4页不属于任何类别。如何通过木槌将第2页和第4页标记为“不匹配”

    请帮助我实现这一目标。如果我做错了什么,请告诉我,或者其他任何可以给我所需输出的工具。

    两个快速想法:

  • 您可以为所需的置信度值设置一些阈值。例如,mallet说第1页属于A级,有90%的信心,接受它。如果说第2页属于C类,有60%的置信度,这是最好的值,那么可以拒绝该建议。您可以通过函数getClassificationScores(,double[])获得分类分数

  • 你可以用python学习。我听说如果它不知道你的页面属于哪个类,它会告诉
    NA


  • 谢谢你的建议。我已经在使用你提到的第一点。我已保持阈值,即60%,低于我放弃的60%置信度。需要通过scikit学习工具和算法。