Math 什么是梯度方向和梯度大小？_Math_Computer Vision_Terminology

Math 什么是梯度方向和梯度大小？

math computer-vision

Math 什么是梯度方向和梯度大小？,math,computer-vision,terminology,Math,Computer Vision,Terminology,我目前正在学习一个叫边缘检测的计算机视觉模块。我试图理解梯度方向和梯度大小的含义。两个变量x，y的函数的梯度是x和y方向上偏导数的向量。如果你的函数是f（x，y），梯度就是向量（f_x，f_y）。图像是（x，y）的离散函数，因此也可以讨论图像的梯度图像的梯度有两个分量：x导数和y导数。因此，可以将其视为在每个像素处定义的向量（f_x，f_y）。这些向量具有方向atan（f_y/fx）和幅值sqrt（f_x^2+f_y^2）。因此，您可以将图像的梯度表示为x导数图像和y导数图像，也可以表示为方

我目前正在学习一个叫边缘检测的计算机视觉模块。

我试图理解梯度方向和梯度大小的含义。

两个变量x，y的函数的梯度是x和y方向上偏导数的向量。如果你的函数是f（x，y），梯度就是向量（f_x，f_y）。图像是（x，y）的离散函数，因此也可以讨论图像的梯度

图像的梯度有两个分量：x导数和y导数。因此，可以将其视为在每个像素处定义的向量（f_x，f_y）。这些向量具有方向atan（f_y/fx）和幅值sqrt（f_x^2+f_y^2）。因此，您可以将图像的梯度表示为x导数图像和y导数图像，也可以表示为方向图像和幅度图像。

正如在his中所解释的，您应该熟悉的数学概念，以便更好地理解图像处理领域中的梯度

我的回答是基于对这一点的理解

在这里，您可以看到黑色背景上的白色磁盘的简单初始图像：

您可以计算此图像梯度的近似值。正如迪马在他的回答中解释的，梯度有两个分量，一个水平分量和一个垂直分量

下图显示了水平构件：

它显示了图像中的灰度在水平方向上的变化程度（正x方向，从左到右扫描图像），这种变化在水平分量图像的灰度中被“编码”：平均灰度表示没有变化，亮度表示从暗值变为亮值，暗级别表示从亮值更改为暗值。因此，在上面的图像中，您可以在圆的左半部看到更亮的值，因为在初始图像的左半部，您有一个从黑到白的过渡，它给出了磁盘的左边缘；类似地，在上面的图像中，您可以在圆的右侧看到较暗的值，因为在初始图像的右侧，您有从白色到黑色的过渡，从而获得磁盘的右边缘。在上图中，磁盘内部和背景处于平均灰度，因为磁盘内部和背景没有变化

我们可以对垂直分量进行类似观察，它显示图像在垂直方向上的变化，即从上到下扫描图像：

现在可以组合这两个组件以获得渐变的大小和渐变的方向

下图是渐变的大小：

同样，在上面的图像中，初始图像中的变化是以灰度编码的：在这里，您可以看到白色表示初始图像中的高变化，而黑色表示根本没有变化。因此，当你看梯度大小的图像时，你可以说“如果图像是明亮的，它意味着初始图像有很大的变化；如果图像是暗的，它意味着没有变化或变化很小”

下图是渐变的方向：

在上面的图像中，方向再次被编码为灰度：你可以认为方向是一个箭头的角度，从图像的黑暗部分指向图像的明亮部分；该角度指的是xy帧，其中x从左到右运行，而y从上到下运行。在上图中，您可以看到从黑色（零度）到白色（360度）的所有灰度。我们可以用颜色对信息进行编码：

在上图中，信息以这种方式编码：

红色：角度在0到90度之间

青色：角度在90到180度之间

绿色：角度介于180度和270度之间

黄色：角度介于270度和360度之间

这里是C++ opencv代码，用于生成上述图像。请注意，对于方向的计算，我使用函数，如中所述，当梯度的垂直分量和水平分量均为零时，该函数给出的角度为0；这可能是方便的，但是从数学角度来看显然是错误的，因为当两个分量都为零时，方向没有被定义，并且在浮点C++类型中保持的方向的唯一有意义的值是<代码>楠< /代码>。< /强>

这显然是错误的，因为例如，0度方向已经与水平边相关，它不能用于表示没有边的区域以及方向没有意义的区域等其他对象

// original code by https://stackoverflow.com/users/951860/mevatron // see https://stackoverflow.com/a/11157426/15485 // https://stackoverflow.com/users/15485/uvts-cvs added the code for saving x and y gradient component #include <opencv2/core/core.hpp> #include <opencv2/highgui/highgui.hpp> #include <opencv2/imgproc/imgproc.hpp> #include <iostream> #include <vector> using namespace cv; using namespace std; Mat mat2gray(const cv::Mat& src) { Mat dst; normalize(src, dst, 0.0, 255.0, cv::NORM_MINMAX, CV_8U); return dst; } Mat orientationMap(const cv::Mat& mag, const cv::Mat& ori, double thresh = 1.0) { Mat oriMap = Mat::zeros(ori.size(), CV_8UC3); Vec3b red(0, 0, 255); Vec3b cyan(255, 255, 0); Vec3b green(0, 255, 0); Vec3b yellow(0, 255, 255); for(int i = 0; i < mag.rows*mag.cols; i++) { float* magPixel = reinterpret_cast<float*>(mag.data + i*sizeof(float)); if(*magPixel > thresh) { float* oriPixel = reinterpret_cast<float*>(ori.data + i*sizeof(float)); Vec3b* mapPixel = reinterpret_cast<Vec3b*>(oriMap.data + i*3*sizeof(char)); if(*oriPixel < 90.0) *mapPixel = red; else if(*oriPixel >= 90.0 && *oriPixel < 180.0) *mapPixel = cyan; else if(*oriPixel >= 180.0 && *oriPixel < 270.0) *mapPixel = green; else if(*oriPixel >= 270.0 && *oriPixel < 360.0) *mapPixel = yellow; } } return oriMap; } int main(int argc, char* argv[]) { Mat image = Mat::zeros(Size(320, 240), CV_8UC1); circle(image, Point(160, 120), 80, Scalar(255, 255, 255), -1, CV_AA); imshow("original", image); Mat Sx; Sobel(image, Sx, CV_32F, 1, 0, 3); Mat Sy; Sobel(image, Sy, CV_32F, 0, 1, 3); Mat mag, ori; magnitude(Sx, Sy, mag); phase(Sx, Sy, ori, true); Mat oriMap = orientationMap(mag, ori, 1.0); imshow("x", mat2gray(Sx)); imshow("y", mat2gray(Sy)); imwrite("hor.png",mat2gray(Sx)); imwrite("ver.png",mat2gray(Sy)); imshow("magnitude", mat2gray(mag)); imshow("orientation", mat2gray(ori)); imshow("orientation map", oriMap); waitKey(); return 0; }

//原始代码由https://stackoverflow.com/users/951860/mevatron //看https://stackoverflow.com/a/11157426/15485 // https://stackoverflow.com/users/15485/uvts-cvs 添加了保存x和y渐变分量的代码 #包括 #包括 #包括 #包括 #包括使用名称空间cv；使用名称空间std； Mat mat2gray（常数cv:：Mat和src） { Mat-dst；标准化（src、dst、0.0、255.0、cv:：NORM_MINMAX、cv_8U）；返回dst； } Mat方向图（常数cv:：Mat和mag，常数cv:：Mat和ori，双阈值=1.0） { Mat oriMap=Mat:：zeros（ori.size（），CV_8UC3）；向量3b红色（0,0255）； Vec3b青色（255,255,0）； Vec3b绿色（0，255，0）； Vec3b黄色（0、255、255）；对于（int i=0；i阈值） { float*oriPixel=reinterpret_cast（ori.data+i*sizeof（float））； Vec3b*mapPixel=reinterpret_cast（oriMap.data+i*3*sizeof（char））；如果（*像素<90.0） *mapPixel=红色；