Nlp LDA的混淆矩阵

Nlp LDA的混淆矩阵,nlp,lda,topic-modeling,confusion-matrix,topicmodels,Nlp,Lda,Topic Modeling,Confusion Matrix,Topicmodels,我试图使用混淆矩阵检查我的LDA模型的性能,但我不知道该怎么做。我希望有人能给我指出正确的方向 所以我在一个充满简短文档的语料库上运行了一个LDA模型。然后我计算每个文档的平均向量,然后继续计算余弦相似度 我现在如何获得混淆矩阵?请注意,我对NLP的世界非常陌生。如果有其他/更好的方法来检查此型号的性能,请告诉我。您的型号应该做什么?它是如何可测试的 在您的问题中,您没有描述您对模型的可测试评估,其结果将在混淆矩阵中表示 混淆矩阵可帮助您表示和探索预测系统(如分类器)的不同类型的“准确性”。它要

我试图使用混淆矩阵检查我的LDA模型的性能,但我不知道该怎么做。我希望有人能给我指出正确的方向

所以我在一个充满简短文档的语料库上运行了一个LDA模型。然后我计算每个文档的平均向量,然后继续计算余弦相似度


我现在如何获得混淆矩阵?请注意,我对NLP的世界非常陌生。如果有其他/更好的方法来检查此型号的性能,请告诉我。

您的型号应该做什么?它是如何可测试的

在您的问题中,您没有描述您对模型的可测试评估,其结果将在混淆矩阵中表示

混淆矩阵可帮助您表示和探索预测系统(如分类器)的不同类型的“准确性”。它要求您的系统做出选择(例如是/否或多标签分类器),并且您必须使用已知的测试数据,以便能够根据系统应如何选择对其进行评分。然后将矩阵中的这些结果计算为可能性组合之一,例如,对于二进制选择,有两个错误和两个正确

例如,如果您的余弦相似度试图预测一个文档是否与另一个文档属于同一“类别”,并且您确实知道真正的答案,那么您可以对所有文档进行评分,以确定它们的预测是正确的还是错误的

二进制选择的四种可能性是:

  • 积极预测与积极实际=真正积极(正确)
  • 负预测与负实际=真负(正确)
  • 阳性预测与阴性实际值=假阳性(错误)
  • 负面预测与正面实际=假阴性(错误)
  • 在多标签系统中更复杂,因为有更多的组合,但正确/错误的结果是相似的

    关于“准确性”

    有很多种方法可以衡量系统的性能,因此在选择评分方法之前,有必要先了解一下这一点。“准确性”一词在这个领域中的意思是特定的,有时与这个词的一般用法相混淆

    如何使用混淆矩阵。

    混淆矩阵和(总TP、FP、TN、FN)可以输入一些简单的方程式,这些方程式给出了这些性能评级(在不同的字段中用不同的名称表示):

    • 灵敏度、d’(dee prime)、召回率、命中率或真阳性率(TPR)
    • 特异性、选择性或真阴性率(TNR)
    • 精确度或阳性预测值(PPV)
    • 负预测值(NPV)
    • 漏检率或假阴性率(FNR)
    • 脱落或假阳性率(FPR)
    • 错误发现率(FDR)
    • 漏报率(适用于)
    • 准确度
    • F分数
    所以你可以看到准确性是一个特定的东西,但它可能不是你所想的,当你说“准确性”!最后两个是更复杂的度量组合。F分数可能是其中最稳健的,因为它可以通过组合其他指标来表示您的需求

    我发现这是最有用的,并且有助于理解为什么在应用程序中选择一个度量值比另一个度量值更好(例如,缺少trues是否比缺少falses更糟糕)。从不同的角度来看,有一组关于同一主题的链接文章

    这是我发现自己回到的一个更简单的参考:

    这是关于敏感性的,更多的是从科学统计的角度来看,与与混淆矩阵相关的ROC图表链接,也有助于可视化和评估绩效:

    本文将更具体地介绍如何在机器学习中使用这些工具,并将更详细地介绍:

    总之,混淆矩阵是评估系统性能的众多工具之一,但您需要首先定义正确的度量

    真实世界示例

    我最近在一个项目中完成了这个过程,重点是从一个大集合中查找所有少数相关文档(使用像您这样的余弦距离)。这就像是一个由手动标签驱动的推荐引擎,而不是最初的搜索查询

    从项目领域的角度,我与利益相关者以他们自己的方式制定了一个目标列表,然后尝试将这些目标转换或映射为性能指标和统计术语。你可以看到这不仅仅是一个简单的选择!我们的数据集极不平衡的性质扭曲了度量的选择,因为有些人假设数据是平衡的,否则会给你带来误导性的结果

    希望这个例子能帮助你前进