Audio 基于语音优度评价的语音特征提取

Audio 基于语音优度评价的语音特征提取,audio,voice,speech,Audio,Voice,Speech,我正在研究儿童语音练习的移动应用程序的概念(发音效果评估)。在第一次迭代中,我们希望对一个孤立辅音(俄语相当于英语“sh”[ʃ]音)的正确发音进行评估。结果可能是“正确”或“不正确”(更好的分数,例如从1到5) 我们有约50个由言语治疗师记录的样本,并以5分的质量标准进行评分。每个样本包含单独的声音(0.5-2秒)。我们将来可以得到更多的样品 通常,我将此问题分为以下步骤: 对声音信号进行预处理(降低噪音、放大/衰减、消除静音周期) 提取与辅音发音质量相关的信号特征。特征是由声音块(帧)产生的数

我正在研究儿童语音练习的移动应用程序的概念(发音效果评估)。在第一次迭代中,我们希望对一个孤立辅音(俄语相当于英语“sh”[ʃ]音)的正确发音进行评估。结果可能是“正确”或“不正确”(更好的分数,例如从1到5)

我们有约50个由言语治疗师记录的样本,并以5分的质量标准进行评分。每个样本包含单独的声音(0.5-2秒)。我们将来可以得到更多的样品

通常,我将此问题分为以下步骤:

  • 对声音信号进行预处理(降低噪音、放大/衰减、消除静音周期)

  • 提取与辅音发音质量相关的信号特征。特征是由声音块(帧)产生的数字向量。候选特征:声音的频谱、MFCC系数、振幅谱,。。。另一个问题是特征帧大小(持续时间)

  • 使用一些分类算法(“一般来说是机器学习”)根据声音训练集中的特征进行分类

  • 我遇到的主要问题是缺乏方法学,即如何提取特征

    我曾尝试使用MFCC方法,但似乎特征向量更多地取决于采样期间的声音强度变化(坦率地说,我是通过查看MFCC系数图得出结论的,如X值为13个MFCC系数,每条线代表一个25毫秒的声音帧)

    由于辅音的噪声性质,我不能确定纯频谱特性

    许多论文和博客文章描述了单词和话语语境中的语音识别问题。我的直觉告诉我,我需要不同的方法来解决我的问题


    类似任务的良好特性示例和特性评估的一般方法都对我有用。谢谢。

    嗨,你是如何减少噪音的?嗨,我试过一些过滤,但声音本身就有噪音的性质。所以,噪声过滤是一个问题,我现在忽略了。这是声音。我只做了静音修剪和平均功率标准化。假设你得到了这样一个声音文件。你能做些什么来减少背景声音?据我所知,一般的方法是及时对声音进行帧处理,并减少那些与整个声音的平均水平相似的频率。请检查我在前面评论中放置的样本。你认为噪声过滤是这里的一个关键问题吗?