Deep learning 如何在应用ROI对齐后计算特征图，如Mask RCNN论文中所述？_Deep Learning_Mask_Roi

Deep learning 如何在应用ROI对齐后计算特征图，如Mask RCNN论文中所述？

deep-learning

Deep learning 如何在应用ROI对齐后计算特征图，如Mask RCNN论文中所述？,deep-learning,mask,roi,Deep Learning,Mask,Roi,我正在浏览给定掩模RCNN的幻灯片，但在应用ROI对齐后无法计算特征图，如下图所示，论文和幻灯片提到使用双线性插值，但我不知道在给定的图像中如何做到这一点。谢谢将4个点放置在每个池单元内后，使用最接近的4个像素，使用双线性插值确定每个点的值。一旦你有了一个每个点的值，你可以取每个池单元格中4个点的平均值或最大值。将该值放入输出张量内的相应点，可以进行正向运算，反向运算也不成问题例如，在您的图像中，第一个红点被0.85、0.34、0.32和0.74值像素包围。结果值是以下各项的函数：这些价

我正在浏览给定掩模RCNN的幻灯片，但在应用ROI对齐后无法计算特征图，如下图所示，论文和幻灯片提到使用双线性插值，但我不知道在给定的图像中如何做到这一点。谢谢

将4个点放置在每个池单元内后，使用最接近的4个像素，使用双线性插值确定每个点的值。一旦你有了一个每个点的值，你可以取每个池单元格中4个点的平均值或最大值。将该值放入输出张量内的相应点，可以进行正向运算，反向运算也不成问题

例如，在您的图像中，第一个红点被0.85、0.34、0.32和0.74值像素包围。结果值是以下各项的函数：

这些价值观
红点到这些像素（其中心）的距离

它与像素的距离越近，它的值就越接近相应的像素值。

在考虑第二个红点（0.76）时，周围的像素是多少？每个像素周围都有8个像素点，我们会选择哪一个？wiki说“双线性插值只使用距给定像素对角线方向最近的4个像素的值，以便找到该像素的适当颜色强度值。”。所以我猜它不是周围的像素（甚至可以是8），而是diagnol像素。这取决于你的实现。我猜这是一个设计选择。Girshick似乎选择了由应用于点的浮点坐标的floor and ceil操作符定义的邻居。它正好定义了4个像素。

#From Mask R-CNN paper: "We sample four regular locations, so
        # that we can evaluate either max or average pooling. In fact,
        # interpolating only a single value at each bin center (without
        # pooling) is nearly as effective."
        #
        # Here we use the simplified approach of a single value per bin,
        # which is how it's done in tf.crop_and_resize()
        # Result: [batch * num_boxes, pool_height, pool_width, channels]