Machine learning 转换CMU Sphinx和x27时的偏差；概率的置信度得分_Machine Learning_Speech Recognition_Probability_Cmusphinx_Sphinx4

Machine learning 转换CMU Sphinx和x27时的偏差；概率的置信度得分

machine-learning speech-recognition

Machine learning 转换CMU Sphinx和x27时的偏差；概率的置信度得分,machine-learning,speech-recognition,probability,cmusphinx,sphinx4,Machine Learning,Speech Recognition,Probability,Cmusphinx,Sphinx4,我正在尝试转换CMU Sphinx的识别器的输出（即列表通过调整测试c获得）改为以下形式：列表我现在使用的一个简单方法如下：将每个信心分数除以语言权重（例如：11）规范化日志域中的置信度得分列表输出概率=exp（标准化置信分数）问题是上述方法的输出概率是有偏差的。你有什么建议，我可以用来得到概率的偏差吗我必须实施的纠正偏差的示例方法：向量getBias（向量短语，向量logConfidenceScores）上述讨论的输入示例：首先，这不是一个信心分数，而是一个分数。

我正在尝试转换CMU Sphinx的识别器的输出（即列表<假设（即短语），分数（在日志中）>通过调整测试c获得）改为以下形式：列表<假设（即短语），“概率”（介于0和1之间）>

我现在使用的一个简单方法如下：

将每个信心分数除以语言权重（例如：11）

规范化日志域中的置信度得分列表

输出概率=exp（标准化置信分数）

问题是上述方法的输出概率是有偏差的。你有什么建议，我可以用来得到概率的偏差吗

我必须实施的纠正偏差的示例方法：

向量getBias（向量短语，向量logConfidenceScores）

上述讨论的输入示例：

<“他进入了我们的头部心肺，并做了标记”，-43278>

<“他在我们班上拿到了钱，并做了标记”，-43449>

<他在心肺方面掌权，并在其上做了标记“，-43368>

首先，这不是一个信心分数，而是一个分数。你为什么要划分？列表中的分数也是声学分数，语言权重在这里没有任何意义

这也是一件毫无意义的事情，因为你没有考虑到巨大的概率质量

动作的顺序没有任何数学意义，怪不得你没有得到一个好的结果

如果你想获得每一次话语的自信分数，你可能需要先回顾一个理论：

首先，这不是一个信心分数，而是一个分数。你为什么要划分？列表中的分数也是声学分数，语言权重在这里没有任何意义

这也是一件毫无意义的事情，因为你没有考虑到巨大的概率质量

动作的顺序没有任何数学意义，怪不得你没有得到一个好的结果

如果你想获得每一次话语的自信分数，你可能需要先回顾一个理论：

A trivial method which I am using now is as follows:
Divide each confidence score by language weight (eg: 11)

Normalize the list of confidence score in log domain

Output probability = exp(normalized confidence score)