Audio 在google';中,音频特征提取使用什么算法;有录音机吗?

Audio 在google';中,音频特征提取使用什么算法;有录音机吗?,audio,machine-learning,sound-recognition,Audio,Machine Learning,Sound Recognition,我开始使用谷歌的。虽然数据集非常广泛,但我发现关于音频特征提取的信息非常模糊。网站提到 以1Hz频率提取128维音频特征。音频特征是使用Hershey等人描述的VGG启发的声学模型提取的,该模型在YouTube-8M的初步版本上进行了训练。这些功能经过PCA分析和量化,以与YouTube-8M提供的音频功能兼容。它们存储为TensorFlow记录文件 在本文中,作者讨论了在960毫秒的数据块上使用mel光谱图来获得96x64的表示。我不清楚他们是如何获得音频设备中使用的1x128格式表示的。有人

我开始使用谷歌的。虽然数据集非常广泛,但我发现关于音频特征提取的信息非常模糊。网站提到

以1Hz频率提取128维音频特征。音频特征是使用Hershey等人描述的VGG启发的声学模型提取的,该模型在YouTube-8M的初步版本上进行了训练。这些功能经过PCA分析和量化,以与YouTube-8M提供的音频功能兼容。它们存储为TensorFlow记录文件


在本文中,作者讨论了在960毫秒的数据块上使用mel光谱图来获得96x64的表示。我不清楚他们是如何获得音频设备中使用的1x128格式表示的。有人知道更多吗???

他们使用
96*64
数据作为修改后的
VGG
网络的输入。
VGG
的最后一层是
FC-128
,因此其输出将是
1*128
,这就是原因

VGG
的体系结构可以在这里找到: