Audio 什么是';该模型逐帧生成视频;?

Audio 什么是';该模型逐帧生成视频;?,audio,video,Audio,Video,我在读一篇文章,在描述模型的段落中,它说 该模型通过在音频序列上滑动0.35秒的窗口,逐帧生成视频。帧一次向前移动1帧(0.04秒) 该模型在给定两个输入的情况下生成对话人脸的视频:(1)音频片段,(2)目标身份的静止图像(正面头像) 引用的部分令人困惑 例如,如果输入是一个1.4秒长的音频,模型将生成4帧的视频,对吗? 但是帧一次向前移动1帧,因此它的长度为0.16秒 这意味着1.4秒长的音频变成了0.16秒长的视频 我在哪里迷路了?我想可能混淆的是,视频的帧速率不一定会精确地划分为视频时间

我在读一篇文章,在描述模型的段落中,它说

该模型通过在音频序列上滑动0.35秒的窗口,逐帧生成视频。帧一次向前移动1帧(0.04秒)

该模型在给定两个输入的情况下生成对话人脸的视频:(1)音频片段,(2)目标身份的静止图像(正面头像)

引用的部分令人困惑

例如,如果输入是一个1.4秒长的音频,模型将生成4帧的视频,对吗?
但是帧一次向前移动1帧,因此它的长度为0.16秒

这意味着1.4秒长的音频变成了0.16秒长的视频


我在哪里迷路了?

我想可能混淆的是,视频的帧速率不一定会精确地划分为视频时间

例如,如果帧速率为每秒2帧,视频长度为10秒,那么很明显,它会在第20帧或最后一帧的10秒处停止


如果您的视频只有9.45秒长,那么视频将在最后一帧停止,在本例中是在9.30秒停止。

好的,假设3.5秒长的音频是输入,那么3.5秒长的视频应该是输出,然后需要3.5*25(每秒25帧)。但是我们在哪里使用0.35秒窗口呢?如果一切都由帧的长度决定,那么我们使用0.35秒窗口还是0.5秒窗口没有区别。