Deep learning 如何在应用ROI对齐后计算特征图,如Mask RCNN论文中所述?

Deep learning 如何在应用ROI对齐后计算特征图,如Mask RCNN论文中所述?,deep-learning,mask,roi,Deep Learning,Mask,Roi,我正在浏览给定掩模RCNN的幻灯片,但在应用ROI对齐后无法计算特征图,如下图所示,论文和幻灯片提到使用双线性插值,但我不知道在给定的图像中如何做到这一点。谢谢 将4个点放置在每个池单元内后,使用最接近的4个像素,使用双线性插值确定每个点的值。一旦你有了一个每个点的值,你可以取每个池单元格中4个点的平均值或最大值。将该值放入输出张量内的相应点,可以进行正向运算,反向运算也不成问题 例如,在您的图像中,第一个红点被0.85、0.34、0.32和0.74值像素包围。结果值是以下各项的函数: 这些价

我正在浏览给定掩模RCNN的幻灯片,但在应用ROI对齐后无法计算特征图,如下图所示,论文和幻灯片提到使用双线性插值,但我不知道在给定的图像中如何做到这一点。谢谢


将4个点放置在每个池单元内后,使用最接近的4个像素,使用双线性插值确定每个点的值。一旦你有了一个每个点的值,你可以取每个池单元格中4个点的平均值或最大值。将该值放入输出张量内的相应点,可以进行正向运算,反向运算也不成问题

例如,在您的图像中,第一个红点被0.85、0.34、0.32和0.74值像素包围。结果值是以下各项的函数:

  • 这些价值观

  • 红点到这些像素(其中心)的距离

它与像素的距离越近,它的值就越接近相应的像素值。


在考虑第二个红点(0.76)时,周围的像素是多少?每个像素周围都有8个像素点,我们会选择哪一个?wiki说“双线性插值只使用距给定像素对角线方向最近的4个像素的值,以便找到该像素的适当颜色强度值。”。所以我猜它不是周围的像素(甚至可以是8),而是diagnol像素。这取决于你的实现。我猜这是一个设计选择。Girshick似乎选择了由应用于点的浮点坐标的floor and ceil操作符定义的邻居。它正好定义了4个像素。
#From Mask R-CNN paper: "We sample four regular locations, so
        # that we can evaluate either max or average pooling. In fact,
        # interpolating only a single value at each bin center (without
        # pooling) is nearly as effective."
        #
        # Here we use the simplified approach of a single value per bin,
        # which is how it's done in tf.crop_and_resize()
        # Result: [batch * num_boxes, pool_height, pool_width, channels]