Audio 在google'；中，音频特征提取使用什么算法；有录音机吗？_Audio_Machine Learning_Sound Recognition

Audio 在google'；中，音频特征提取使用什么算法；有录音机吗？

audio machine-learning

Audio 在google'；中，音频特征提取使用什么算法；有录音机吗？,audio,machine-learning,sound-recognition,Audio,Machine Learning,Sound Recognition,我开始使用谷歌的。虽然数据集非常广泛，但我发现关于音频特征提取的信息非常模糊。网站提到以1Hz频率提取128维音频特征。音频特征是使用Hershey等人描述的VGG启发的声学模型提取的，该模型在YouTube-8M的初步版本上进行了训练。这些功能经过PCA分析和量化，以与YouTube-8M提供的音频功能兼容。它们存储为TensorFlow记录文件在本文中，作者讨论了在960毫秒的数据块上使用mel光谱图来获得96x64的表示。我不清楚他们是如何获得音频设备中使用的1x128格式表示的。有人

我开始使用谷歌的。虽然数据集非常广泛，但我发现关于音频特征提取的信息非常模糊。网站提到

以1Hz频率提取128维音频特征。音频特征是使用Hershey等人描述的VGG启发的声学模型提取的，该模型在YouTube-8M的初步版本上进行了训练。这些功能经过PCA分析和量化，以与YouTube-8M提供的音频功能兼容。它们存储为TensorFlow记录文件

在本文中，作者讨论了在960毫秒的数据块上使用mel光谱图来获得96x64的表示。我不清楚他们是如何获得音频设备中使用的1x128格式表示的。有人知道更多吗？？？

他们使用

96*64

数据作为修改后的

VGG

网络的输入。

VGG

的最后一层是

FC-128

，因此其输出将是

1*128

，这就是原因

VGG

的体系结构可以在这里找到：