Machine learning 如何使用机器学习从音频剪辑中提取人声?

Machine learning 如何使用机器学习从音频剪辑中提取人声?,machine-learning,speech-recognition,curve-fitting,speech-to-text,speech,Machine Learning,Speech Recognition,Curve Fitting,Speech To Text,Speech,我们如何使用机器学习从一个音频片段中获取人声,该音频片段在整个频域中可能有很多噪声。与任何ML应用程序一样,该过程很简单:收集样本、设计特征、训练分类器。对于这些示例,您可以使用嘈杂的录音,也可以在诸如freesound.org之类的网络声音收藏中找到许多嘈杂的声音。对于可以使用平均归一化mel频率系数的功能,可以在中找到实现。对于分类器,您可以选择GMM或SVM。如果你有足够的数据,它会工作得相当好 为了提高准确性,您可以添加噪声和语音是连续的假设,因此,您可以使用hangover schem

我们如何使用机器学习从一个音频片段中获取人声,该音频片段在整个频域中可能有很多噪声。

与任何ML应用程序一样,该过程很简单:收集样本、设计特征、训练分类器。对于这些示例,您可以使用嘈杂的录音,也可以在诸如freesound.org之类的网络声音收藏中找到许多嘈杂的声音。对于可以使用平均归一化mel频率系数的功能,可以在中找到实现。对于分类器,您可以选择GMM或SVM。如果你有足够的数据,它会工作得相当好


为了提高准确性,您可以添加噪声和语音是连续的假设,因此,您可以使用hangover scheme(基本上是HMM)分析检测历史来检测语音块,而不是单独分析每个帧。

您能提供一个很好的参考吗?当然,你们能详细说明你们在找什么样的参考资料吗?一些关于去噪和语音识别背景理论的阅读材料。提前谢谢!!你最终是如何解决这个问题的?