Machine learning 计算用户发出指定声音的准确度百分比_Machine Learning_Web Applications_Nlp_Speech Recognition_Speech

Machine learning 计算用户发出指定声音的准确度百分比

machine-learning web-applications nlp speech-recognition

Machine learning 计算用户发出指定声音的准确度百分比,machine-learning,web-applications,nlp,speech-recognition,speech,Machine Learning,Web Applications,Nlp,Speech Recognition,Speech,我想为我两岁的堂兄设计一个web应用程序，在这个应用程序中，我实现了一个功能，当点击图像时，会播放一些声音，用户必须发出与录制的声音相同的声音。例如，如果我点击“苹果”的图像，发出的声音是“苹果的A”。现在用户必须说出录制的单词。现在我想计算用户说话的准确率百分比。我想知道如何知道准确率百分比。我之前没有使用过机器学习或自然语言处理，所以我想了解一些关于我应该学习什么或实现此功能的方法的指导。我需要一些帮助。也经常使用nodejs框架，因此nodejs中是否有任何模块可以帮助满足上述要求。

我想为我两岁的堂兄设计一个web应用程序，在这个应用程序中，我实现了一个功能，当点击图像时，会播放一些声音，用户必须发出与录制的声音相同的声音。

例如，如果我点击“苹果”的图像，发出的声音是“苹果的A”。现在用户必须说出录制的单词。
现在我想计算用户说话的准确率百分比。我想知道如何知道准确率百分比。我之前没有使用过机器学习或自然语言处理，所以我想了解一些关于我应该学习什么或实现此功能的方法的指导。我需要一些帮助。

也经常使用nodejs框架，因此nodejs中是否有任何模块可以帮助满足上述要求。

您想要达到的是一个相当复杂且不平凡的任务，可以在多个级别上面对。首先，你应该在之前为自己回答一个问题：

你说的“accuarcy”是什么意思？你想用哪个指标来衡量？准确性意味着将结果与其最佳值进行比较。那么说“苹果”的最佳方式是什么呢

我认为有几个级别可以衡量言语准确性：

在音频级别上：这里有几个相关度量，可以计算两个音频文件的相似性。有关更多详细信息，请参见例如。简单地说，这个想法是直接比较音频样本。在您的情况下，您需要一个“正确”结果的参考音频曲目。但是，正确的时间对齐可能会成为一个问题
在语音识别级别上：您可以使用语音识别器（商业或开源）返回一串口语单词。在这种情况下，您应该考虑何时停止录制，以限制录制长度。然后你必须考虑一个评估转录正确性的指标。与我共事的一些人是或。用这些你可以计算出相似性