Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/video/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Video 自动为视频选择缩略图_Video_Machine Learning_Tensorflow_Thumbnails - Fatal编程技术网

Video 自动为视频选择缩略图

Video 自动为视频选择缩略图,video,machine-learning,tensorflow,thumbnails,Video,Machine Learning,Tensorflow,Thumbnails,我们都听说YouTube使用深度学习为用户视频选择具有代表性的缩略图。但有人在tensorflow上成功试用过吗 我确实找到了那些声称能做到这一点的人,但对结果印象不深。实际上,我使用ffmpeg提取关键帧,然后计算颜色分布来选择“最佳”图像,得到了更好的结果 但是我很想知道是否有人使用更“智能”的算法做得更好。我想向OP说明,这个答案并不代表对方法的正式描述,以便以直观的方式描述预期的方法 假设一个视频由n个帧组成,每个帧都可以表示为一个3D张量(高度、宽度、通道)。可以使用卷积神经网络(CN

我们都听说YouTube使用深度学习为用户视频选择具有代表性的缩略图。但有人在tensorflow上成功试用过吗

我确实找到了那些声称能做到这一点的人,但对结果印象不深。实际上,我使用ffmpeg提取关键帧,然后计算颜色分布来选择“最佳”图像,得到了更好的结果

但是我很想知道是否有人使用更“智能”的算法做得更好。

我想向OP说明,这个答案并不代表对方法的正式描述,以便以直观的方式描述预期的方法

假设一个视频由n个帧组成,每个帧都可以表示为一个3D张量(高度、宽度、通道)。可以使用卷积神经网络(CNN)为每个帧生成潜在表示

视频可以表示为帧序列(f_1,f_2,…,f_n)。最适合序列建模的神经网络结构是递归神经网络(RNN)。我们可以使用RNN对CNN生成的视频帧序列进行编码。之后,对于RNN生成的每个帧,您将有一个潜在表示(f_1f_2,…,f_n),它直接依赖于之前的帧(这是RNN的一个众所周知的属性)

正如您在最近发布的视频中所看到的,每个视频都有高质量的缩略图,因此您可以将它们用作目标。特别是,给定应用于帧序列的RNN生成的潜在表示,您可以生成上下文向量c,其生成如下:

alpha = softmax(FNN(f_1), FNN(f_2), ..., FNN(f_n))
c = f_1 * alpha_1 + f_2 * alpha_2 + ... + f_n * alpha_n
其中FNN是一个前馈神经网络,它接收帧f_i的潜在表示f_i,并生成一个表示当前序列中有多重要的分数。我们可以利用上下文向量c来预测最合适的视频帧

在我看来,有两种可能的策略来定义网络应该解决的最小化问题的损失函数。第一个比第二个容易。我简要描述如下:

alpha = softmax(FNN(f_1), FNN(f_2), ..., FNN(f_n))
c = f_1 * alpha_1 + f_2 * alpha_2 + ... + f_n * alpha_n
  • 预测缩略图索引:通过利用上下文向量c,我们可以训练网络通过最小化生成索引和目标索引之间的交叉熵损失来预测表示所选帧位置的整数值
  • 重建误差:通过利用上下文向量c,我们可以通过最小化模型生成的图像与目标图像之间的重建误差来训练网络生成新图像

我没有在实践中尝试过任何方法,因此我不能确定我的方法是否有效,但我相信这样做是合理的,以便有效地完成这项任务。无论如何,我希望这个答案可能会对OP有所帮助,以便更好地理解如何解决这项任务。

有人告诉我,OP采用了“提取关键帧并计算颜色分布…”的方法