Speech recognition 如何使用HTK工具包（而非仅使用MFCC）使用音调、共振峰、微光和抖动等多种特征来训练HMM？_Speech Recognition_Speech To Text_Speech

Speech recognition 如何使用HTK工具包（而非仅使用MFCC）使用音调、共振峰、微光和抖动等多种特征来训练HMM？

speech-recognition

Speech recognition 如何使用HTK工具包（而非仅使用MFCC）使用音调、共振峰、微光和抖动等多种特征来训练HMM？,speech-recognition,speech-to-text,speech,Speech Recognition,Speech To Text,Speech,我正在尝试使用HMM开发一个笔记转录系统。为此，我使用HTK工具包。我想使用不同的功能，如音高，共振峰，微光和抖动，而不是MFCC只如何创建上述功能的特征向量，以便在HTK中训练HMM，从而提高系统的性能？HTK论坛和邮件列表已多次讨论此问题，您可以搜索更多详细信息基本上，您需要首先以某种形式为每个帧创建特征，例如在文本表中。然后可以使用C代码或Matlab代码将这些值转换为二进制HTK格式。C代码不是很复杂，但它需要您了解HTK二进制格式。例如，您可以在以下位置查看详细代码：我知道了。

我正在尝试使用HMM开发一个笔记转录系统。为此，我使用HTK工具包。我想使用不同的功能，如音高，共振峰，微光和抖动，而不是MFCC只

如何创建上述功能的特征向量，以便在HTK中训练HMM，从而提高系统的性能？

HTK论坛和邮件列表已多次讨论此问题，您可以搜索更多详细信息

基本上，您需要首先以某种形式为每个帧创建特征，例如在文本表中。然后可以使用C代码或Matlab代码将这些值转换为二进制HTK格式。C代码不是很复杂，但它需要您了解HTK二进制格式。例如，您可以在以下位置查看详细代码：

我知道了。但是在培训如何定义配置文件或波形配置文件的情况下（特别是TARGETKIND=？如果有多个特征，例如音高、共振峰）。TARGETKIND=USER，里面可能有任何内容。我已经计算了一个特征的特征文件（没有扩展名）并尝试使用HCompV-A-D-t1-C config-f0.01-m-S train.scp-m hmm0协议。它给出错误[+6310]OpenParmChannel:无法打开Parm文件路径/c_01。proto或二进制文件扩展名是否有问题。对，proto文件还必须有targetkind用户。列出文件的train.scp应该有问题。您真的在train.scp和文件系统中都有那个文件吗？