Audio 提取音频文件的二进制表示形式

Audio 提取音频文件的二进制表示形式,audio,binary,extract,speech,Audio,Binary,Extract,Speech,我想从音频文件(可能是audacity中录制的)中提取精确的二进制实现。我想用它来提取那些表示来识别语音和声音,也就是说,一个基本的语音识别软件 音频文件也可以是.mp3或.wav。请帮忙 编辑- 我想获得的音频波形不是图形,而是二进制表示,这样我就可以将语音转换成文本 一个基本WAV文件由一个头文件(我认为大约60字节长)和实际数据组成 数据由整数集组成。为每个“样本”生成一组整数,可以是每秒8000次或每秒44000次或其他采样率 单个整数集(代表单个样本)由每个通道的一个整数组成,理论上可

我想从音频文件(可能是audacity中录制的)中提取精确的二进制实现。我想用它来提取那些表示来识别语音和声音,也就是说,一个基本的语音识别软件

音频文件也可以是.mp3或.wav。请帮忙

编辑-
我想获得的音频波形不是图形,而是二进制表示,这样我就可以将语音转换成文本

一个基本WAV文件由一个头文件(我认为大约60字节长)和实际数据组成

数据由整数集组成。为每个“样本”生成一组整数,可以是每秒8000次或每秒44000次或其他采样率

单个整数集(代表单个样本)由每个通道的一个整数组成,理论上可以是任何数字,但通常为1(单声道)或2(立体声)。每个整数的长度可以是1、2、3或4字节

单个整数表示该频道在特定时刻的声级。如果所表示的声音是正弦波,则整数的值将是
V*sin(K*t)
,其中
V
是音量,
K
是常数,
t
是当前时间。请注意,整数是有符号的,“声级”在任何特定时刻都可以是负数或正数(通常大约一半时间为负数)。 采样率、通道数和单个通道值的大小都在报头中的字段中编码(以及其他几条信息)


一般来说,要提取信号的频率,请将a应用于二进制声音数据,从“时域”转换为“频域”。根据采样率和其他因素,这通常在每秒5到50次之间进行。(有几个开源FFT库可用。)然而,语音识别也采用了许多其他算法。

您所说的“从音频文件中提取精确的二进制实现”是什么意思?如果您指的是文件格式的详细信息,那么您可以查看一下WAV文件:默认情况下,所有文件都是二进制文件。如果您的意思是将音频波形提取为一个数组(由浮点数或二进制字组成)以及播放所需的元数据(如采样率),则应编辑您的答案。阅读WAV文件的格式。MP3文件更复杂,你可能不想马上就玩弄它们——WAV文件会让你“切齿”。嗨,非常感谢。基本上,我想设计一个基本的语音识别软件。你能帮我做这件事吗。即使在你解释之后,我还是有点迷茫。我想用隐马尔可夫模型来设计software@SKC--如果你想设计语音识别软件,你必须做大量的研究。我猜,一周做10-20个小时的兼职工作,从零开始,需要一年的时间才能得到某种效果。但我正在寻找一些非常基本的东西。控制媒体播放器。像播放暂停等作为一个小项目。