Audio 基于语音优度评价的语音特征提取_Audio_Voice_Speech

Audio 基于语音优度评价的语音特征提取

audio

Audio 基于语音优度评价的语音特征提取,audio,voice,speech,Audio,Voice,Speech,我正在研究儿童语音练习的移动应用程序的概念（发音效果评估）。在第一次迭代中，我们希望对一个孤立辅音（俄语相当于英语“sh”[ʃ]音）的正确发音进行评估。结果可能是“正确”或“不正确”（更好的分数，例如从1到5）我们有约50个由言语治疗师记录的样本，并以5分的质量标准进行评分。每个样本包含单独的声音（0.5-2秒）。我们将来可以得到更多的样品通常，我将此问题分为以下步骤：对声音信号进行预处理（降低噪音、放大/衰减、消除静音周期）提取与辅音发音质量相关的信号特征。特征是由声音块（帧）产生的数

我正在研究儿童语音练习的移动应用程序的概念（发音效果评估）。在第一次迭代中，我们希望对一个孤立辅音（俄语相当于英语“sh”[ʃ]音）的正确发音进行评估。结果可能是“正确”或“不正确”（更好的分数，例如从1到5）

我们有约50个由言语治疗师记录的样本，并以5分的质量标准进行评分。每个样本包含单独的声音（0.5-2秒）。我们将来可以得到更多的样品

通常，我将此问题分为以下步骤：

对声音信号进行预处理（降低噪音、放大/衰减、消除静音周期）

提取与辅音发音质量相关的信号特征。特征是由声音块（帧）产生的数字向量。候选特征：声音的频谱、MFCC系数、振幅谱，。。。另一个问题是特征帧大小（持续时间）

使用一些分类算法（“一般来说是机器学习”）根据声音训练集中的特征进行分类

我遇到的主要问题是缺乏方法学，即如何提取特征

我曾尝试使用MFCC方法，但似乎特征向量更多地取决于采样期间的声音强度变化（坦率地说，我是通过查看MFCC系数图得出结论的，如X值为13个MFCC系数，每条线代表一个25毫秒的声音帧）

由于辅音的噪声性质，我不能确定纯频谱特性

许多论文和博客文章描述了单词和话语语境中的语音识别问题。我的直觉告诉我，我需要不同的方法来解决我的问题

类似任务的良好特性示例和特性评估的一般方法都对我有用。谢谢。

嗨，你是如何减少噪音的？嗨，我试过一些过滤，但声音本身就有噪音的性质。所以，噪声过滤是一个问题，我现在忽略了。这是声音。我只做了静音修剪和平均功率标准化。假设你得到了这样一个声音文件。你能做些什么来减少背景声音？据我所知，一般的方法是及时对声音进行帧处理，并减少那些与整个声音的平均水平相似的频率。请检查我在前面评论中放置的样本。你认为噪声过滤是这里的一个关键问题吗？