Speech recognition 如何使用HTK工具包(而非仅使用MFCC)使用音调、共振峰、微光和抖动等多种特征来训练HMM?

Speech recognition 如何使用HTK工具包(而非仅使用MFCC)使用音调、共振峰、微光和抖动等多种特征来训练HMM?,speech-recognition,speech-to-text,speech,Speech Recognition,Speech To Text,Speech,我正在尝试使用HMM开发一个笔记转录系统。为此,我使用HTK工具包。我想使用不同的功能,如音高,共振峰,微光和抖动,而不是MFCC只 如何创建上述功能的特征向量,以便在HTK中训练HMM,从而提高系统的性能?HTK论坛和邮件列表已多次讨论此问题,您可以搜索更多详细信息 基本上,您需要首先以某种形式为每个帧创建特征,例如在文本表中。然后可以使用C代码或Matlab代码将这些值转换为二进制HTK格式。C代码不是很复杂,但它需要您了解HTK二进制格式。例如,您可以在以下位置查看详细代码: 我知道了。

我正在尝试使用HMM开发一个笔记转录系统。为此,我使用HTK工具包。我想使用不同的功能,如音高,共振峰,微光和抖动,而不是MFCC只


如何创建上述功能的特征向量,以便在HTK中训练HMM,从而提高系统的性能?

HTK论坛和邮件列表已多次讨论此问题,您可以搜索更多详细信息

基本上,您需要首先以某种形式为每个帧创建特征,例如在文本表中。然后可以使用C代码或Matlab代码将这些值转换为二进制HTK格式。C代码不是很复杂,但它需要您了解HTK二进制格式。例如,您可以在以下位置查看详细代码:


我知道了。但是在培训如何定义配置文件或波形配置文件的情况下(特别是TARGETKIND=?如果有多个特征,例如音高、共振峰)。TARGETKIND=USER,里面可能有任何内容。我已经计算了一个特征的特征文件(没有扩展名)并尝试使用HCompV-A-D-t1-C config-f0.01-m-S train.scp-m hmm0协议。它给出错误[+6310]OpenParmChannel:无法打开Parm文件路径/c_01。proto或二进制文件扩展名是否有问题。对,proto文件还必须有targetkind用户。列出文件的train.scp应该有问题。您真的在train.scp和文件系统中都有那个文件吗?