Machine learning 如何使用机器学习从音频剪辑中提取人声？_Machine Learning_Speech Recognition_Curve Fitting_Speech To Text_Speech

Machine learning 如何使用机器学习从音频剪辑中提取人声？

machine-learning speech-recognition

Machine learning 如何使用机器学习从音频剪辑中提取人声？,machine-learning,speech-recognition,curve-fitting,speech-to-text,speech,Machine Learning,Speech Recognition,Curve Fitting,Speech To Text,Speech,我们如何使用机器学习从一个音频片段中获取人声，该音频片段在整个频域中可能有很多噪声。与任何ML应用程序一样，该过程很简单：收集样本、设计特征、训练分类器。对于这些示例，您可以使用嘈杂的录音，也可以在诸如freesound.org之类的网络声音收藏中找到许多嘈杂的声音。对于可以使用平均归一化mel频率系数的功能，可以在中找到实现。对于分类器，您可以选择GMM或SVM。如果你有足够的数据，它会工作得相当好为了提高准确性，您可以添加噪声和语音是连续的假设，因此，您可以使用hangover schem

我们如何使用机器学习从一个音频片段中获取人声，该音频片段在整个频域中可能有很多噪声。

与任何ML应用程序一样，该过程很简单：收集样本、设计特征、训练分类器。对于这些示例，您可以使用嘈杂的录音，也可以在诸如freesound.org之类的网络声音收藏中找到许多嘈杂的声音。对于可以使用平均归一化mel频率系数的功能，可以在中找到实现。对于分类器，您可以选择GMM或SVM。如果你有足够的数据，它会工作得相当好

为了提高准确性，您可以添加噪声和语音是连续的假设，因此，您可以使用hangover scheme（基本上是HMM）分析检测历史来检测语音块，而不是单独分析每个帧。

您能提供一个很好的参考吗？当然，你们能详细说明你们在找什么样的参考资料吗？一些关于去噪和语音识别背景理论的阅读材料。提前谢谢！！你最终是如何解决这个问题的？