Audio sox效应:可触发的沉默

Audio sox效应:可触发的沉默,audio,threshold,sox,Audio,Threshold,Sox,要检测我正在使用此sox命令播放的语音: rec voice.wav silence 1 5 30% 1 0:00:02 30% 每当输入音量上升到30%左右的阈值时,它就应该开始录制,并在音频下降到同一阈值以下2秒后停止录制 它起作用了。但如果它可以“再触发”,那就更好了。我的意思是:在音频下降到阈值以下并且音频再次上升后,它应该继续注册(即用户仍在讲话) 只有当它检测到整个2秒的静音时,它才会停止。 或者你推荐其他的“VOX”工具吗?我花了很多时间用SOX来做VOX,并且已经让它工作得相当

要检测我正在使用此sox命令播放的语音:

rec voice.wav silence 1 5 30% 1 0:00:02 30%
每当输入音量上升到30%左右的阈值时,它就应该开始录制,并在音频下降到同一阈值以下2秒后停止录制

它起作用了。但如果它可以“再触发”,那就更好了。我的意思是:在音频下降到阈值以下并且音频再次上升后,它应该继续注册(即用户仍在讲话)

只有当它检测到整个2秒的静音时,它才会停止。
或者你推荐其他的“VOX”工具吗?

我花了很多时间用SOX来做VOX,并且已经让它工作得相当好了。我一直在使用Audacity查看生成的波形,并决定使用以下SOX命令

rec snd.wav silence 1 .5 2.85% 1 1.0 3.0% vad gain -n  : newfile : restart
这将:

  • 等待半秒钟,直到听到高于阈值的活动,然后开始录制(静音1.5 2.85%)
  • 当音频活动降至零持续1秒(…1.0 3.0%)时停止录制
  • 修剪任何初始静音直到语音检测(vad)
  • 正常化增益(增益-n)
  • 将结果存储到新文件(snd001.wav、snd002.wav)中
  • 重新启动进程
获得正确的“静音”数字需要大量的尝试和错误,这将取决于环境噪音以及麦克风的灵敏度。我正在使用Logitech QuickCam IM中的麦克风通过USB连接覆盆子Pi

顺便说一句,这整件事抱怨如下

rec FAIL formats: can't open input  `default': snd_pcm_open error: No such file or directory
。。。在我在环境中创建此变量之前:

export AUDIODEV=hw:1,0
再一次-这涉及到对“静默”值的大量实验,需要对您的环境进行一些调整。

文档说:“对于以下时段,duration指定在不再复制音频之前必须存在的静默时段。通过指定更高的持续时间,可以在音频中保留所需的静音。例如,如果你有一首歌,中间有1秒的沉默,最后2秒的沉默,可以用2秒的时间跳过中间的沉默。