检测与诊断；用Python将音频录制为PCM格式_Python_Wav_Audio Recording_Pcm

检测与诊断；用Python将音频录制为PCM格式

python

检测与诊断；用Python将音频录制为PCM格式,python,wav,audio-recording,pcm,Python,Wav,Audio Recording,Pcm,我需要从raspberry pi录制PCM文件格式的音频，只要它检测到声音（通过特定阈值），并在静音时停止。因此，我遇到了一个以前问过的问题，并按照前面的答案进行了回答。但是，它以WAV格式保存文件，但我使用的API只读取pcm、speex或speex wb的格式如何以pcm格式录制音频，同时仅在检测到声音时保留录制功能 from sys import byteorder from array import array from struct import pack import pyaud

我需要从raspberry pi录制PCM文件格式的音频，只要它检测到声音（通过特定阈值），并在静音时停止。因此，我遇到了一个以前问过的问题，并按照前面的答案进行了回答。但是，它以WAV格式保存文件，但我使用的API只读取pcm、speex或speex wb的格式

如何以pcm格式录制音频，同时仅在检测到声音时保留录制功能

from sys import byteorder
from array import array
from struct import pack

import pyaudio
import wave

THRESHOLD = 8000
chans = 1
chunk = 4096
form_1 = pyaudio.paInt16
samp_rate = 44100
dev_index = 2 # device index found by p.get_device_info_by_index(ii)
wav_output_filename = 'test4.wav'

def is_silent(snd_data):
    "Returns 'True' if below the 'silent' threshold"
    return max(snd_data) < THRESHOLD

def normalize(snd_data):
    "Average the volume out"
    MAXIMUM = 16384
    times = float(MAXIMUM)/max(abs(i) for i in snd_data)

    r = array('h')
    for i in snd_data:
        r.append(int(i*times))
    return r

def trim(snd_data):
    "Trim the blank spots at the start and end"
    def _trim(snd_data):
        snd_started = False
        r = array('h')

        for i in snd_data:
            if not snd_started and abs(i)>THRESHOLD:
                snd_started = True
                r.append(i)

            elif snd_started:
                r.append(i)
        return r

    # Trim to the left
    snd_data = _trim(snd_data)

    # Trim to the right
    snd_data.reverse()
    snd_data = _trim(snd_data)
    snd_data.reverse()
    return snd_data

def add_silence(snd_data, seconds):
    "Add silence to the start and end of 'snd_data' of length 'seconds' (float)"
    silence = [0] * int(seconds * samp_rate)
    r = array('h', silence)
    r.extend(snd_data)
    r.extend(silence)
    return r

def record():
    """
    Record a word or words from the microphone and 
    return the data as an array of signed shorts.

    Normalizes the audio, trims silence from the 
    start and end, and pads with 0.5 seconds of 
    blank sound to make sure VLC et al can play 
    it without getting chopped off.
    """
    audio = pyaudio.PyAudio()
    stream = audio.open(format = form_1, channels=chans, rate = samp_rate,
                    input_device_index = dev_index, input = True, #output=True,
                    frames_per_buffer = chunk)

    num_silent = 0
    snd_started = False

    r = array('h')

    while 1:
        # little endian, signed short
        snd_data = array('h', stream.read(chunk, exception_on_overflow = False))
        if byteorder == 'big':
            snd_data.byteswap()
        r.extend(snd_data)

        silent = is_silent(snd_data)

        if silent and snd_started:
            num_silent += 1
        elif not silent and not snd_started:
            snd_started = True

        if snd_started and num_silent > 30:
            break

    sample_width = audio.get_sample_size(form_1)
    stream.stop_stream()
    stream.close()
    audio.terminate()

    r = normalize(r)
    r = trim(r)
    r = add_silence(r, 0.5)
    return sample_width, r

def record_to_file(path):
    "Records from the microphone and outputs the resulting data to 'path'"
    sample_width, data = record()
    data = pack('<' + ('h'*len(data)), *data)

    wf = wave.open(path, 'wb')
    wf.setnchannels(chans)
    wf.setsampwidth(sample_width) #
    wf.setframerate(samp_rate)
    wf.writeframes(data) #
    wf.close()

if __name__ == '__main__':
    print("please speak a word into the microphone")
    record_to_file(wav_output_filename)
    print("done - result written to " + wav_output_filename)

从系统导入字节顺序
从数组导入数组
从结构导入包
导入pyaudio
输入波
阈值=8000
chans=1
区块=4096
表单_1=pyaudio.16
抽样率=44100
dev_index=2#由p.get_device_info_by_index找到的设备索引（ii）
wav_输出_文件名='test4.wav'
def静音（snd数据）：
“如果低于“静默”阈值，则返回“True”
返回最大值（snd_数据）<阈值
def正常化（snd_数据）：
“求出卷的平均值”
最大值=16384
时间=浮动（最大）/最大值（snd_数据中i的绝对值（i））
r=数组（'h'）
对于snd_数据中的i：
r、 追加（整数（i*次））
返回r
def微调（snd_数据）：
“在开始和结束时修剪空白点”
def_微调（snd_数据）：
snd_start=False
r=数组（'h'）
对于snd_数据中的i：
如果未启动snd_且abs（i）>阈值：
snd_start=True
r、 附加（i）
elif snd_开始：
r、 附加（i）
返回r
#向左修剪
snd_数据=_修剪（snd_数据）
#向右修剪
snd_data.reverse（）
snd_数据=_修剪（snd_数据）
snd_data.reverse（）
返回snd_数据
def添加_静音（snd_数据，秒）：
“为长度为“秒”（浮动）的“snd_数据”的开始和结束添加静音”
静默=[0]*int（秒*采样率）
r=数组（'h'，静音）
r、 扩展（snd_数据）
r、 延长（沉默）
返回r
def记录（）：
"""
从麦克风录制一个或多个单词，然后
将数据作为带符号的短字符数组返回。
使音频正常化，从
开始和结束，并用0.5秒的
空白声音，确保VLC等可以播放
它没有被砍掉。
"""
audio=pyaudio.pyaudio（）
流=音频。打开（格式=表单1，频道=频道，速率=采样速率，
输入设备索引=开发索引，输入=真，输出=真，
帧（每帧缓冲区=块）
num_silent=0
snd_start=False
r=数组（'h'）
而1：
#小恩迪安，签名很短
snd_data=array（'h'，stream.read（chunk，exception_on_overflow=False））
如果字节顺序==“大”：
snd_data.byteswap（）
r、 扩展（snd_数据）
静默=静默（snd\U数据）
如果静音且snd_启动：
num_silent+=1
如果不沉默且未启动，则：
snd_start=True
如果snd_启动且num_silent>30：
打破
样本宽度=音频。获取样本大小（表格1）
stream.stop_stream（）
stream.close（）
audio.terminate（）
r=标准化（r）
r=纵倾（r）
r=加上静音（r，0.5）
返回样本宽度，r
def记录到文件（路径）：
“从麦克风录制并将结果数据输出到‘路径’”
样本宽度，数据=记录（）
数据包（“我找不到将音频文件格式化为pcm的任何解决方案，但我发现我能够以16k的采样率处理wav格式的音频。因此，我将保留它。
我找不到将音频文件格式化为pcm的任何解决方案，但我发现我能够以16k的采样率处理wav格式的音频所以我就不谈这个了