Machine learning 转换CMU Sphinx和x27时的偏差;概率的置信度得分

Machine learning 转换CMU Sphinx和x27时的偏差;概率的置信度得分,machine-learning,speech-recognition,probability,cmusphinx,sphinx4,Machine Learning,Speech Recognition,Probability,Cmusphinx,Sphinx4,我正在尝试转换CMU Sphinx的识别器的输出 (即列表通过调整测试c获得) 改为以下形式: 列表 我现在使用的一个简单方法如下: 将每个信心分数除以语言权重(例如:11) 规范化日志域中的置信度得分列表 输出概率=exp(标准化置信分数) 问题是上述方法的输出概率是有偏差的。你有什么建议,我可以用来得到概率的偏差吗 我必须实施的纠正偏差的示例方法: 向量getBias(向量短语,向量logConfidenceScores) 上述讨论的输入示例: 首先,这不是一个信心分数,而是一个分数。

我正在尝试转换CMU Sphinx的识别器的输出 (即列表<假设(即短语),分数(在日志中)>通过调整测试c获得) 改为以下形式: 列表<假设(即短语),“概率”(介于0和1之间)>

我现在使用的一个简单方法如下:

  • 将每个信心分数除以语言权重(例如:11)
  • 规范化日志域中的置信度得分列表
  • 输出概率=exp(标准化置信分数)
  • 问题是上述方法的输出概率是有偏差的。你有什么建议,我可以用来得到概率的偏差吗

    我必须实施的纠正偏差的示例方法:

    向量getBias(向量短语,向量logConfidenceScores)

    上述讨论的输入示例:

    <“他进入了我们的头部心肺,并做了标记”,-43278>

    <“他在我们班上拿到了钱,并做了标记”,-43449>

    <他在心肺方面掌权,并在其上做了标记“,-43368>

    首先,这不是一个信心分数,而是一个分数。你为什么要划分?列表中的分数也是声学分数,语言权重在这里没有任何意义

    这也是一件毫无意义的事情,因为你没有考虑到巨大的概率质量

    动作的顺序没有任何数学意义,怪不得你没有得到一个好的结果

    如果你想获得每一次话语的自信分数,你可能需要先回顾一个理论:

    首先,这不是一个信心分数,而是一个分数。你为什么要划分?列表中的分数也是声学分数,语言权重在这里没有任何意义

    这也是一件毫无意义的事情,因为你没有考虑到巨大的概率质量

    动作的顺序没有任何数学意义,怪不得你没有得到一个好的结果

    如果你想获得每一次话语的自信分数,你可能需要先回顾一个理论:

    A trivial method which I am using now is as follows:
    Divide each confidence score by language weight (eg: 11)
    
    Normalize the list of confidence score in log domain
    
    Output probability = exp(normalized confidence score)