Audio 使用pocketsphinx/ffmpeg连续录制/识别音频_Audio_Ffmpeg_Cmusphinx_Pocketsphinx_Continuous

Audio 使用pocketsphinx/ffmpeg连续录制/识别音频

audio ffmpeg

Audio 使用pocketsphinx/ffmpeg连续录制/识别音频,audio,ffmpeg,cmusphinx,pocketsphinx,continuous,Audio,Ffmpeg,Cmusphinx,Pocketsphinx,Continuous,正如标题所说，我想通过麦克风连续录制原始音频。因此，我们的想法是在后台运行一个简单的C程序作为服务，创建音频块并通过sphinx语音识别发送这些文件之后，我可以对识别出的单词进行一些处理问题在于（持续的）识别。我不能只录制包含10秒我所说内容的音频块，因为可能chunk[33]->chunk[34]属于一个整体，然后sphinx会输出如下内容： recognized chunk[33] -> ["enable light"] recognized chunk[34] -> ["

正如标题所说，我想通过麦克风连续录制原始音频。因此，我们的想法是在后台运行一个简单的C程序作为服务，创建音频块并通过sphinx语音识别发送这些文件

之后，我可以对识别出的单词进行一些处理

问题在于（持续的）识别。我不能只录制包含10秒我所说内容的音频块，因为可能chunk[33]->chunk[34]属于一个整体，然后sphinx会输出如下内容：

recognized chunk[33] -> ["enable light"]
recognized chunk[34] -> ["5 with 50 percent"]

另一种方法是连续录制音频，但我不能用sphinx处理大的音频文件

我使用的是Pocketsphenx的基本公式：

#include <pocketsphinx.h>

int main(int argc, char *argv[])
{
ps_decoder_t *ps;
cmd_ln_t *config;
FILE *fh;
char const *hyp, *uttid;
int16 buf[512];
int rv;
int32 score;

config = cmd_ln_init(NULL, ps_args(), TRUE,
             "-hmm", MODELDIR "/en-us/en-us",
             "-lm", MODELDIR "/en-us/en-us.lm.bin",
             "-dict", MODELDIR "/en-us/cmudict-en-us.dict",
             NULL);
if (config == NULL) {
fprintf(stderr, "Failed to create config object, see log for details\n");
return -1;
}

ps = ps_init(config);
if (ps == NULL) {
fprintf(stderr, "Failed to create recognizer, see log for details\n");
return -1;
}

fh = fopen("audiochunk_33.raw", "rb");
if (fh == NULL) {
fprintf(stderr, "Unable to open input file goforward.raw\n");
return -1;
}

rv = ps_start_utt(ps);

while (!feof(fh)) {
size_t nsamp;
nsamp = fread(buf, 2, 512, fh);
rv = ps_process_raw(ps, buf, nsamp, FALSE, FALSE);
}

rv = ps_end_utt(ps);
hyp = ps_get_hyp(ps, &score);
printf("Recognized: %s\n", hyp);

fclose(fh);
ps_free(ps);
cmd_ln_free_r(config);

return 0;

#包括
int main（int argc，char*argv[]）
{
ps_解码器_t*ps；
cmd_ln_t*config；
文件*fh；
字符常量*hyp，*uttid；
int16buf[512]；
int-rv；
int32分；
config=cmd\u ln\u init（NULL，ps\u args（），TRUE，
“-hmm”，MODELDIR“/en-us/en-us”，
“-lm”，MODELDIR“/en-us/en-us.lm.bin”，
“-dict”，MODELDIR“/en-us/cmudit en-us.dict”，
无效）；
if（config==NULL）{
fprintf（stderr，“未能创建配置对象，有关详细信息，请参阅日志\n”）；
返回-1；
}
ps=ps_init（配置）；
如果（ps==NULL）{
fprintf（stderr，“未能创建识别器，有关详细信息，请参阅日志\n”）；
返回-1；
}
fh=fopen（“音频块_33.原始”、“rb”）；
如果（fh==NULL）{
fprintf（stderr，“无法打开输入文件goforward.raw\n”）；
返回-1；
}
rv=ps_启动_utt（ps）；
而（！feof（fh））{
nsamp的尺寸；
nsamp=fread（buf，21512，fh）；
rv=ps_过程_原始（ps、buf、nsamp、FALSE、FALSE）；
}
rv=ps_end_utt（ps）；
hyp=ps\U get\U hyp（ps和分数）；
printf（“已识别：%s\n”，hyp）；
fclose（fh）；
无聚苯乙烯（ps）；
cmd_ln_free_r（配置）；
返回0；

}

这是一个使用ffmpeg创建简单音频文件/块的基本示例：

#include <stdio.h>
#include <stdint.h>
#include <math.h>

#define N 44100

void main()
{
// Create audio buffer
int16_t buf[N] = {0}; // buffer
int n;                // buffer index
double Fs = 44100.0;  // sampling frequency

// Generate 1 second of audio data - it's just a 1 kHz sine wave
for (n=0 ; n<N ; ++n) buf[n] = 16383.0 * sin(n*1000.0*2.0*M_PI/Fs);

// Pipe the audio data to ffmpeg, which writes it to a wav file
FILE *pipeout;
pipeout = popen("ffmpeg -y -f s16le -ar 44100 -ac 1 -i - beep.wav", "w");
fwrite(buf, 2, N, pipeout);
pclose(pipeout);
}

#包括
#包括
#包括
#定义n44100
void main（）
{
//创建音频缓冲区
int16_t buf[N]={0}；//缓冲区
int n；//缓冲区索引
双Fs=44100.0；//采样频率
//产生1秒的音频数据-它只是一个1kHz的正弦波
对于（n=0；您需要检查pocketsphinx_的源是否连续，以了解如何正确解码连续流。ffmpeg在此处不相关。您需要检查pocketsphinx_的源是否连续，以了解如何正确解码连续流。ffmpeg在此处不相关。