Audio 在没有语音识别的情况下检测多个语音

Audio 在没有语音识别的情况下检测多个语音,audio,mobile,speech-recognition,audio-analysis,Audio,Mobile,Speech Recognition,Audio Analysis,有没有一种方法可以实时检测是否有多人在说话?我需要语音识别api吗 我不想分离音频,也不想转录。我的方法是经常用一个麦克风(->单声道)录音,然后分析这些录音。但我该如何检测和区分声音呢?我只想通过查看相关频率来缩小范围,但是 我明白这不是一件小事。这就是为什么我真的希望有一个api能够做到这一点的开箱即用-最好是一个移动/网络友好的api 现在,这听起来像是圣诞节的购物清单,但正如前面提到的,我不需要知道任何有关内容。因此,我的猜测是,一个成熟的语音识别系统会对性能产生很大的影响 大多数类似问

有没有一种方法可以实时检测是否有多人在说话?我需要语音识别api吗

我不想分离音频,也不想转录。我的方法是经常用一个麦克风(->单声道)录音,然后分析这些录音。但我该如何检测和区分声音呢?我只想通过查看相关频率来缩小范围,但是

我明白这不是一件小事。这就是为什么我真的希望有一个api能够做到这一点的开箱即用-最好是一个移动/网络友好的api

现在,这听起来像是圣诞节的购物清单,但正如前面提到的,我不需要知道任何有关内容。因此,我的猜测是,一个成熟的语音识别系统会对性能产生很大的影响

大多数类似问题(成人/儿童分类器、语音/音乐分类器、单一语音/语音混合分类器)都是标准的机器学习问题。您可以使用类似GMM的分类器来解决这些问题。您只需要为任务构建培训数据,因此:

  • 带上一些干净的录音,你可以下载有声读物
  • 通过混合干净的记录来准备混合数据
  • 在两个机器上训练GMM分类器
  • 比较干净语音GMM和混合语音GMM的概率,并根据两个分类器的概率比确定是否存在混合
  • 您可以在此处找到一些代码示例:

    比如你可以试试


    谢谢,这个看起来很好。我想我理解它背后的想法,并将尝试运行它。理想情况下,程序需要在启动时对当前语音的GMM分类器进行训练。我还没有使用python,但我会尝试一下。