Audio 什么是'；该模型逐帧生成视频；？_Audio_Video

Audio 什么是'；该模型逐帧生成视频；？

audio video

Audio 什么是'；该模型逐帧生成视频；？,audio,video,Audio,Video,我在读一篇文章，在描述模型的段落中，它说该模型通过在音频序列上滑动0.35秒的窗口，逐帧生成视频。帧一次向前移动1帧（0.04秒）该模型在给定两个输入的情况下生成对话人脸的视频：（1）音频片段，（2）目标身份的静止图像（正面头像）引用的部分令人困惑例如，如果输入是一个1.4秒长的音频，模型将生成4帧的视频，对吗？但是帧一次向前移动1帧，因此它的长度为0.16秒这意味着1.4秒长的音频变成了0.16秒长的视频我在哪里迷路了？我想可能混淆的是，视频的帧速率不一定会精确地划分为视频时间

我在读一篇文章，在描述模型的段落中，它说

该模型通过在音频序列上滑动0.35秒的窗口，逐帧生成视频。帧一次向前移动1帧（0.04秒）

该模型在给定两个输入的情况下生成对话人脸的视频：（1）音频片段，（2）目标身份的静止图像（正面头像）

引用的部分令人困惑

例如，如果输入是一个1.4秒长的音频，模型将生成4帧的视频，对吗？
但是帧一次向前移动1帧，因此它的长度为0.16秒

这意味着1.4秒长的音频变成了0.16秒长的视频

我在哪里迷路了？

我想可能混淆的是，视频的帧速率不一定会精确地划分为视频时间

例如，如果帧速率为每秒2帧，视频长度为10秒，那么很明显，它会在第20帧或最后一帧的10秒处停止

如果您的视频只有9.45秒长，那么视频将在最后一帧停止，在本例中是在9.30秒停止。

好的，假设3.5秒长的音频是输入，那么3.5秒长的视频应该是输出，然后需要3.5*25（每秒25帧）。但是我们在哪里使用0.35秒窗口呢？如果一切都由帧的长度决定，那么我们使用0.35秒窗口还是0.5秒窗口没有区别。