Audio sox效应：可触发的沉默_Audio_Threshold_Sox

Audio sox效应：可触发的沉默

audio

Audio sox效应：可触发的沉默,audio,threshold,sox,Audio,Threshold,Sox,要检测我正在使用此sox命令播放的语音： rec voice.wav silence 1 5 30% 1 0:00:02 30% 每当输入音量上升到30%左右的阈值时，它就应该开始录制，并在音频下降到同一阈值以下2秒后停止录制它起作用了。但如果它可以“再触发”，那就更好了。我的意思是：在音频下降到阈值以下并且音频再次上升后，它应该继续注册（即用户仍在讲话）只有当它检测到整个2秒的静音时，它才会停止。或者你推荐其他的“VOX”工具吗？我花了很多时间用SOX来做VOX，并且已经让它工作得相当

要检测我正在使用此sox命令播放的语音：

rec voice.wav silence 1 5 30% 1 0:00:02 30%

每当输入音量上升到30%左右的阈值时，它就应该开始录制，并在音频下降到同一阈值以下2秒后停止录制

它起作用了。但如果它可以“再触发”，那就更好了。我的意思是：在音频下降到阈值以下并且音频再次上升后，它应该继续注册（即用户仍在讲话）

只有当它检测到整个2秒的静音时，它才会停止。

或者你推荐其他的“VOX”工具吗？

我花了很多时间用SOX来做VOX，并且已经让它工作得相当好了。我一直在使用Audacity查看生成的波形，并决定使用以下SOX命令

rec snd.wav silence 1 .5 2.85% 1 1.0 3.0% vad gain -n  : newfile : restart

这将：

等待半秒钟，直到听到高于阈值的活动，然后开始录制（静音1.5 2.85%）
当音频活动降至零持续1秒（…1.0 3.0%）时停止录制
修剪任何初始静音直到语音检测（vad）
正常化增益（增益-n）
将结果存储到新文件（snd001.wav、snd002.wav）中
重新启动进程

获得正确的“静音”数字需要大量的尝试和错误，这将取决于环境噪音以及麦克风的灵敏度。我正在使用Logitech QuickCam IM中的麦克风通过USB连接覆盆子Pi

顺便说一句，这整件事抱怨如下

rec FAIL formats: can't open input  `default': snd_pcm_open error: No such file or directory

。。。在我在环境中创建此变量之前：

export AUDIODEV=hw:1,0

再一次-这涉及到对“静默”值的大量实验，需要对您的环境进行一些调整。

文档说：“对于以下时段，duration指定在不再复制音频之前必须存在的静默时段。通过指定更高的持续时间，可以在音频中保留所需的静音。例如，如果你有一首歌，中间有1秒的沉默，最后2秒的沉默，可以用2秒的时间跳过中间的沉默。