Audio 在说话人识别中,话语长度如何影响神经网络?

Audio 在说话人识别中,话语长度如何影响神经网络?,audio,machine-learning,tensorflow,neural-network,Audio,Machine Learning,Tensorflow,Neural Network,我正在学习神经网络,并试图用tensorflow创建说话人识别系统。我想知道话语长度是如何影响神经网络的。例如,我有1000个相同长度的不同录音和1000个不同长度的不同录音。那么,从理论上讲,神经网络将如何处理这些数据呢?具有相同长度记录的数据库的神经网络会做得更好还是更差?为什么?这取决于神经网络的类型。在设计这样的系统时,通常需要指定输入神经元的数量,sou不能向它提供任意长度的数据。如果序列较长,则必须裁剪数据或使用滑动窗口 然而,有些神经网络允许您处理任意输入序列,例如。后者似乎是解决

我正在学习神经网络,并试图用tensorflow创建说话人识别系统。我想知道话语长度是如何影响神经网络的。例如,我有1000个相同长度的不同录音和1000个不同长度的不同录音。那么,从理论上讲,神经网络将如何处理这些数据呢?具有相同长度记录的数据库的神经网络会做得更好还是更差?为什么?这取决于神经网络的类型。在设计这样的系统时,通常需要指定输入神经元的数量,sou不能向它提供任意长度的数据。如果序列较长,则必须裁剪数据或使用滑动窗口


然而,有些神经网络允许您处理任意输入序列,例如。后者似乎是解决你问题的一个很好的人选。这是一篇很好的文章,描述了特定类型的RNN的实现,称为RNN,它可以很好地与语音识别一起工作

我想你的问题可以重新表述为神经网络如何处理不同长度的音频

技巧是将任意大小的信号转换成一系列固定大小的特征向量。看看我的答案和答案