Audio 在说话人识别中，话语长度如何影响神经网络？_Audio_Machine Learning_Tensorflow_Neural Network

Audio 在说话人识别中，话语长度如何影响神经网络？

audio machine-learning tensorflow neural-network

Audio 在说话人识别中，话语长度如何影响神经网络？,audio,machine-learning,tensorflow,neural-network,Audio,Machine Learning,Tensorflow,Neural Network,我正在学习神经网络，并试图用tensorflow创建说话人识别系统。我想知道话语长度是如何影响神经网络的。例如，我有1000个相同长度的不同录音和1000个不同长度的不同录音。那么，从理论上讲，神经网络将如何处理这些数据呢？具有相同长度记录的数据库的神经网络会做得更好还是更差？为什么？这取决于神经网络的类型。在设计这样的系统时，通常需要指定输入神经元的数量，sou不能向它提供任意长度的数据。如果序列较长，则必须裁剪数据或使用滑动窗口然而，有些神经网络允许您处理任意输入序列，例如。后者似乎是解决

我正在学习神经网络，并试图用tensorflow创建说话人识别系统。我想知道话语长度是如何影响神经网络的。例如，我有1000个相同长度的不同录音和1000个不同长度的不同录音。那么，从理论上讲，神经网络将如何处理这些数据呢？具有相同长度记录的数据库的神经网络会做得更好还是更差？为什么？这取决于神经网络的类型。在设计这样的系统时，通常需要指定输入神经元的数量，sou不能向它提供任意长度的数据。如果序列较长，则必须裁剪数据或使用滑动窗口

然而，有些神经网络允许您处理任意输入序列，例如。后者似乎是解决你问题的一个很好的人选。这是一篇很好的文章，描述了特定类型的RNN的实现，称为RNN，它可以很好地与语音识别一起工作

我想你的问题可以重新表述为神经网络如何处理不同长度的音频

技巧是将任意大小的信号转换成一系列固定大小的特征向量。看看我的答案和答案