Audio 提取音频文件的二进制表示形式_Audio_Binary_Extract_Speech

Audio 提取音频文件的二进制表示形式

audio binary

Audio 提取音频文件的二进制表示形式,audio,binary,extract,speech,Audio,Binary,Extract,Speech,我想从音频文件（可能是audacity中录制的）中提取精确的二进制实现。我想用它来提取那些表示来识别语音和声音，也就是说，一个基本的语音识别软件音频文件也可以是.mp3或.wav。请帮忙编辑- 我想获得的音频波形不是图形，而是二进制表示，这样我就可以将语音转换成文本一个基本WAV文件由一个头文件（我认为大约60字节长）和实际数据组成数据由整数集组成。为每个“样本”生成一组整数，可以是每秒8000次或每秒44000次或其他采样率单个整数集（代表单个样本）由每个通道的一个整数组成，理论上可

我想从音频文件（可能是audacity中录制的）中提取精确的二进制实现。我想用它来提取那些表示来识别语音和声音，也就是说，一个基本的语音识别软件

音频文件也可以是.mp3或.wav。请帮忙

编辑-

我想获得的音频波形不是图形，而是二进制表示，这样我就可以将语音转换成文本

一个基本WAV文件由一个头文件（我认为大约60字节长）和实际数据组成

数据由整数集组成。为每个“样本”生成一组整数，可以是每秒8000次或每秒44000次或其他采样率

单个整数集（代表单个样本）由每个通道的一个整数组成，理论上可以是任何数字，但通常为1（单声道）或2（立体声）。每个整数的长度可以是1、2、3或4字节

单个整数表示该频道在特定时刻的声级。如果所表示的声音是正弦波，则整数的值将是

V*sin（K*t）

，其中

是音量，

是常数，

是当前时间。请注意，整数是有符号的，“声级”在任何特定时刻都可以是负数或正数（通常大约一半时间为负数）。采样率、通道数和单个通道值的大小都在报头中的字段中编码（以及其他几条信息）

一般来说，要提取信号的频率，请将a应用于二进制声音数据，从“时域”转换为“频域”。根据采样率和其他因素，这通常在每秒5到50次之间进行。（有几个开源FFT库可用。）然而，语音识别也采用了许多其他算法。

您所说的“从音频文件中提取精确的二进制实现”是什么意思？如果您指的是文件格式的详细信息，那么您可以查看一下WAV文件：默认情况下，所有文件都是二进制文件。如果您的意思是将音频波形提取为一个数组（由浮点数或二进制字组成）以及播放所需的元数据（如采样率），则应编辑您的答案。阅读WAV文件的格式。MP3文件更复杂，你可能不想马上就玩弄它们——WAV文件会让你“切齿”。嗨，非常感谢。基本上，我想设计一个基本的语音识别软件。你能帮我做这件事吗。即使在你解释之后，我还是有点迷茫。我想用隐马尔可夫模型来设计software@SKC--如果你想设计语音识别软件，你必须做大量的研究。我猜，一周做10-20个小时的兼职工作，从零开始，需要一年的时间才能得到某种效果。但我正在寻找一些非常基本的东西。控制媒体播放器。像播放暂停等作为一个小项目。