Machine learning 计算用户发出指定声音的准确度百分比

Machine learning 计算用户发出指定声音的准确度百分比,machine-learning,web-applications,nlp,speech-recognition,speech,Machine Learning,Web Applications,Nlp,Speech Recognition,Speech,我想为我两岁的堂兄设计一个web应用程序,在这个应用程序中,我实现了一个功能,当点击图像时,会播放一些声音,用户必须发出与录制的声音相同的声音。 例如,如果我点击“苹果”的图像,发出的声音是“苹果的A”。现在用户必须说出录制的单词。 现在我想计算用户说话的准确率百分比。我想知道如何知道准确率百分比。我之前没有使用过机器学习或自然语言处理,所以我想了解一些关于我应该学习什么或实现此功能的方法的指导。我需要一些帮助。 也经常使用nodejs框架,因此nodejs中是否有任何模块可以帮助满足上述要求。

我想为我两岁的堂兄设计一个web应用程序,在这个应用程序中,我实现了一个功能,当点击图像时,会播放一些声音,用户必须发出与录制的声音相同的声音。

例如,如果我点击“苹果”的图像,发出的声音是“苹果的A”。现在用户必须说出录制的单词。
现在我想计算用户说话的准确率百分比。我想知道如何知道准确率百分比。我之前没有使用过机器学习或自然语言处理,所以我想了解一些关于我应该学习什么或实现此功能的方法的指导。我需要一些帮助。


也经常使用nodejs框架,因此nodejs中是否有任何模块可以帮助满足上述要求。

您想要达到的是一个相当复杂且不平凡的任务,可以在多个级别上面对。首先,你应该在之前为自己回答一个问题:

你说的“accuarcy”是什么意思?你想用哪个指标来衡量?准确性意味着将结果与其最佳值进行比较。那么说“苹果”的最佳方式是什么呢

我认为有几个级别可以衡量言语准确性:

  • 音频级别上:这里有几个相关度量,可以计算两个音频文件的相似性。有关更多详细信息,请参见例如。简单地说,这个想法是直接比较音频样本。在您的情况下,您需要一个“正确”结果的参考音频曲目。但是,正确的时间对齐可能会成为一个问题

  • 语音识别级别上:您可以使用语音识别器(商业或开源)返回一串口语单词。在这种情况下,您应该考虑何时停止录制,以限制录制长度。然后你必须考虑一个评估转录正确性的指标。与我共事的一些人是或。用这些你可以计算出相似性