Python 2.7 在音频和视频中应用时间导数
我有一个视频数据集,人们随机说出0-9之间的数字。我的目标是训练语音/视频模式的神经网络 为了实现我的目标,我首先必须把这个视频分解成几个小视频,每个视频包含一个人一次只说一个数字 一旦我有了自己的视频,我在视频中每秒钟精确提取10帧,最后得到视频的连续图像。我使用著名的命令行工具ffmpeg完成了这项工作 然后,我使用opencv提取感兴趣区域(ROI),在本例中是口腔。后来我做了一些研究,发现要对动态语音信息建模,我必须对这些图像应用所谓的“时间导数” 此外,在我从视频中提取图像的过程中,我还提取了原始光谱图形式的音频信息。我还打算对频谱图进行时间推导,以保持频率随时间的动态变化 我读过关于时间导数的书,发现它只是一个函数随时间变化的导数 我想知道如何使用Python将其应用到我的图像和光谱图上,以及是否有任何可用的Python库可以操纵图像矩阵来随时间进行推导Python 2.7 在音频和视频中应用时间导数,python-2.7,opencv,audio,video,neural-network,Python 2.7,Opencv,Audio,Video,Neural Network,我有一个视频数据集,人们随机说出0-9之间的数字。我的目标是训练语音/视频模式的神经网络 为了实现我的目标,我首先必须把这个视频分解成几个小视频,每个视频包含一个人一次只说一个数字 一旦我有了自己的视频,我在视频中每秒钟精确提取10帧,最后得到视频的连续图像。我使用著名的命令行工具ffmpeg完成了这项工作 然后,我使用opencv提取感兴趣区域(ROI),在本例中是口腔。后来我做了一些研究,发现要对动态语音信息建模,我必须对这些图像应用所谓的“时间导数” 此外,在我从视频中提取图像的过程中,我