Audio 不同语言(非英语)的PESQ、STOI分数(语音质量)

Audio 不同语言(非英语)的PESQ、STOI分数(语音质量),audio,speech-recognition,speech-to-text,speech,Audio,Speech Recognition,Speech To Text,Speech,我想使用一些印地语(非英语语言)音频数据的PESQ、STOI分数。对于英语,我可以找到PESQ算法/代码并使用相同的算法/代码。比如:- 我们是否可以使用印地语或其他语言的音频代码来确定PESQ/STOI分数 大多数时候,我发现PESQ用于“语音质量评估”(不适用于英语)。此外,他们刚刚比较了不同语言的PESQ分数。他们不会使用不同的代码 但也有一些像这样的报纸 ,这写在结论部分:-在本文中,PESQ的评估是为了调查在计算语音质量时是否考虑了汉语语音的辅音和音调可懂度。在进行的两个实验中,发现在

我想使用一些印地语(非英语语言)音频数据的PESQ、STOI分数。对于英语,我可以找到PESQ算法/代码并使用相同的算法/代码。比如:-

我们是否可以使用印地语或其他语言的音频代码来确定PESQ/STOI分数

大多数时候,我发现PESQ用于“语音质量评估”(不适用于英语)。此外,他们刚刚比较了不同语言的PESQ分数。他们不会使用不同的代码

但也有一些像这样的报纸 ,这写在结论部分:-在本文中,PESQ的评估是为了调查在计算语音质量时是否考虑了汉语语音的辅音和音调可懂度。在进行的两个实验中,发现在噪声和安静(无噪声)条件下,主观清晰度和PESQ计算质量之间的相关性都很低

结语部分还提到:——“通过这一结果 大量主观测试数据,反复指出 PESQ的中文分数被低估了, 虽然皮尔逊相关系数高达 除外。PESQ给出的分数比经验低得多 当语音服务处于中间时 质量。"


那么对于其他语言(目前,我的案例是印地语,印度语),我应该直接使用普通的PESQ方法还是必须修改它?如果我必须修改相同的方法,那么对于某些印度语言(或英语以外的语言)有什么可用的想法将非常有帮助。

不确定您是否还需要建议,只需对您的问题提出一些意见:

  • STOI是一种预测(相当)嘈杂语音可懂度的指标,而非语音质量(通常在静默中评估)。该方法的基本主观测试是可懂度测试(要求识别单词/音节/对数原子等)。即使源代码可以免费下载,但免费使用只允许用于研究目的,而不允许用于商业工作。此指标的范围相当有限,我的建议是根本不使用它

  • PESQ(ITU-T第862页)已经过时并且在10年前被取代-不要再使用它了!即使是通过销售PESQ许可证赚钱的公司也不推荐这种方法。顺便说一句,与STOI类似,PESQ的合法使用受到了更大的限制:参考代码只能用于测试,例如,依赖于平台的实现。用于学术和商业用途从一开始,尤其是大学,根本没有注意到这一点

  • 由于PESQ的源代码可以在ITU-T网站上找到,因此人们将其用于许多目的,而这些目的并不是为其设计的(例如,声路或降噪算法)。您现在使用PESQ获得的所有结果都无法使用,因为它们不能反映当前工业中使用的最先进技术

  • 用于语音质量预测的后续和最先进的方法是POLQA(ITU-T p.863)。该方法最近更新为3.0版。适用与PESQ相同的许可证方面;因为许多用户滥用了(相当轻松)PESQ的源代码策略,参考实现不再可用,您必须购买有效的许可证

  • 关于语言依赖性:语音质量预测指标通常可能包括关于语言的固有偏差(但也包括关于其他可能退化的权重)通常,这源于此类模型的可用培训数据,这些数据以特定语言提供,来自特定实验室,包含特定降级。因此,您提到的工作中观察到的班次并不罕见,特别是对于未知/看不见的降级和语言。特别是对于标准化测试,定义如下:强烈建议不要以任何方式修改预测算法。考虑到这种变化的典型方式是,在预测的MOS上应用特定语言或降级的映射函数,即将标准模型输出“转换”为“更好”的比例