Computer vision 如何将具有不同比例的视频卷(密集采样后)转换为描述符?

Computer vision 如何将具有不同比例的视频卷(密集采样后)转换为描述符?,computer-vision,anomaly-detection,Computer Vision,Anomaly Detection,我阅读了这篇文章()并试图理解这里介绍的算法。 所以,现在我几乎理解了本文的所有观点,但有一个问题: 如何将具有不同比例的视频卷(密集采样后)转换为描述符 据我所知,如果我有100帧120*160的视频,然后我应用不同比例的密集比例(例如[5*5*5,10*10*10,20*20]),然后我将分别得到[15360,1920,240]立方体。但是,在这之后,我需要为它们中的每一个创建描述符,并且描述符的长度必须相同(在本文中,描述符的长度与多维数据集的大小相同,所以[12510008000]) 其



我阅读了这篇文章()并试图理解这里介绍的算法。
所以,现在我几乎理解了本文的所有观点,但有一个问题:

如何将具有不同比例的视频卷(密集采样后)转换为描述符

据我所知,如果我有100帧120*160的视频,然后我应用不同比例的密集比例(例如
[5*5*5,10*10*10,20*20]
),然后我将分别得到
[15360,1920,240]
立方体。但是,在这之后,我需要为它们中的每一个创建描述符,并且描述符的长度必须相同(在本文中,描述符的长度与多维数据集的大小相同,所以
[12510008000]


其中一个解决方案,我认为是以不同的比例为每个像素立方体创建,然后将它们连接到一个长度为9125的向量中。是吗?

所以,我找到了答案
在每个像素周围,我必须构建每个大小的立方体(因此,每个大小的立方体大约为1920000个)