Neural network 用于识别0到20个语音数字的深度神经网络_Neural Network

Neural network 用于识别0到20个语音数字的深度神经网络

neural-network

Neural network 用于识别0到20个语音数字的深度神经网络,neural-network,Neural Network,我想实现一个神经网络，能够识别0到20的英语口语数字加上两三个其他单音节单词。然后我将使用AI来控制一个简单的游戏。我在征求你的意见。你认为有可能吗是否有可能且相对容易使其工作；一个人，很多人都有接近母语的口音，很多人都有很多不同的口音我应该从语音中提取哪些数据来为网络输入；长度、音量、随时间变化的组件频率，还是其他？我计划分别识别每个单词我应该首先检查哪些网络架构。这里有人以前做过类似的事情吗您在这里还看到了哪些其他挑战如果有任何进展，我会通知您：）谢谢我相信建立一个神经网络来完

我想实现一个神经网络，能够识别0到20的英语口语数字加上两三个其他单音节单词。然后我将使用AI来控制一个简单的游戏。我在征求你的意见。你认为有可能吗

是否有可能且相对容易使其工作；一个人，很多人都有接近母语的口音，很多人都有很多不同的口音

我应该从语音中提取哪些数据来为网络输入；长度、音量、随时间变化的组件频率，还是其他？我计划分别识别每个单词

我应该首先检查哪些网络架构。这里有人以前做过类似的事情吗

您在这里还看到了哪些其他挑战

如果有任何进展，我会通知您：）

谢谢

我相信建立一个神经网络来完成更复杂的事情是相当容易的。我建议不要使用音量或频率进行测量，因为这样你将训练AI识别特定于你的测试数据集的东西，音量将取决于许多因素，比如一个人的声音有多大，他们的麦克风有多好或坏。频率将取决于他们是男性还是女性。成人或儿童。我建议关注长度的平均值，因为无论你怎么说，无论你的声音有多大，说20总是需要更长的时间，然后说一个，人工智能将以此为基础学习

编辑：我还想说，不要对体积取样，而是对振幅进行测试。试着找出音频中的峰值音量，因为这将区分某些元音。“一”在工作开始时有一个峰值，在“O”处有一个峰值，在“ee”处有三个峰值，因为“th”的音高高于“ee”

所以在神经网络中，这两个因子可以算作两个独立的神经元。1表示长度，1表示样本中最高振幅的位置。

欢迎访问stackoverflow.com。请花些时间阅读，特别是命名和。也请和。最后请阅读。太广泛了，神经网络确实可以用于语音识别，但还有许多其他问题需要解决，如特征提取、识别过度检测等。。