Computer vision 如何将具有不同比例的视频卷（密集采样后）转换为描述符？_Computer Vision_Anomaly Detection

Computer vision 如何将具有不同比例的视频卷（密集采样后）转换为描述符？

computer-vision

Computer vision 如何将具有不同比例的视频卷（密集采样后）转换为描述符？,computer-vision,anomaly-detection,Computer Vision,Anomaly Detection,我阅读了这篇文章（）并试图理解这里介绍的算法。所以，现在我几乎理解了本文的所有观点，但有一个问题：如何将具有不同比例的视频卷（密集采样后）转换为描述符据我所知，如果我有100帧120*160的视频，然后我应用不同比例的密集比例（例如[5*5*5,10*10*10,20*20]），然后我将分别得到[15360,1920,240]立方体。但是，在这之后，我需要为它们中的每一个创建描述符，并且描述符的长度必须相同（在本文中，描述符的长度与多维数据集的大小相同，所以[12510008000]）其

我阅读了这篇文章（）并试图理解这里介绍的算法。
所以，现在我几乎理解了本文的所有观点，但有一个问题：

如何将具有不同比例的视频卷（密集采样后）转换为描述符

据我所知，如果我有100帧120*160的视频，然后我应用不同比例的密集比例（例如

[5*5*5,10*10*10,20*20]

），然后我将分别得到

[15360,1920,240]

立方体。但是，在这之后，我需要为它们中的每一个创建描述符，并且描述符的长度必须相同（在本文中，描述符的长度与多维数据集的大小相同，所以

[12510008000]

）

其中一个解决方案，我认为是以不同的比例为每个像素立方体创建，然后将它们连接到一个长度为9125的向量中。是吗？

所以，我找到了答案
在每个像素周围，我必须构建每个大小的立方体（因此，每个大小的立方体大约为1920000个）