Neural network 用于识别0到20个语音数字的深度神经网络

Neural network 用于识别0到20个语音数字的深度神经网络,neural-network,Neural Network,我想实现一个神经网络,能够识别0到20的英语口语数字加上两三个其他单音节单词。然后我将使用AI来控制一个简单的游戏。我在征求你的意见。你认为有可能吗 是否有可能且相对容易使其工作;一个人,很多人都有接近母语的口音,很多人都有很多不同的口音 我应该从语音中提取哪些数据来为网络输入;长度、音量、随时间变化的组件频率,还是其他?我计划分别识别每个单词 我应该首先检查哪些网络架构。这里有人以前做过类似的事情吗 您在这里还看到了哪些其他挑战 如果有任何进展,我会通知您:) 谢谢 我相信建立一个神经网络来完

我想实现一个神经网络,能够识别0到20的英语口语数字加上两三个其他单音节单词。然后我将使用AI来控制一个简单的游戏。我在征求你的意见。你认为有可能吗

是否有可能且相对容易使其工作;一个人,很多人都有接近母语的口音,很多人都有很多不同的口音

我应该从语音中提取哪些数据来为网络输入;长度、音量、随时间变化的组件频率,还是其他?我计划分别识别每个单词

我应该首先检查哪些网络架构。这里有人以前做过类似的事情吗

您在这里还看到了哪些其他挑战

如果有任何进展,我会通知您:)
谢谢

我相信建立一个神经网络来完成更复杂的事情是相当容易的。我建议不要使用音量或频率进行测量,因为这样你将训练AI识别特定于你的测试数据集的东西,音量将取决于许多因素,比如一个人的声音有多大,他们的麦克风有多好或坏。频率将取决于他们是男性还是女性。成人或儿童。我建议关注长度的平均值,因为无论你怎么说,无论你的声音有多大,说20总是需要更长的时间,然后说一个,人工智能将以此为基础学习

编辑: 我还想说,不要对体积取样,而是对振幅进行测试。试着找出音频中的峰值音量,因为这将区分某些元音。“一”在工作开始时有一个峰值,在“O”处有一个峰值,在“ee”处有三个峰值,因为“th”的音高高于“ee”


所以在神经网络中,这两个因子可以算作两个独立的神经元。1表示长度,1表示样本中最高振幅的位置。

欢迎访问stackoverflow.com。请花些时间阅读,特别是命名和。也请和。最后请阅读。太广泛了,神经网络确实可以用于语音识别,但还有许多其他问题需要解决,如特征提取、识别过度检测等。。