Computer Vision_IT技术博客_编程技术问答

Computer vision 梯度大小的标准化意味着什么？

标签： Computer Vision

标准化梯度在这里意味着什么？实际上它没有多大意义，因为梯度在图像中是稀疏的，但是如果图像是某种纹理，并且在整个图像子图像中普遍存在某种梯度，然后，这种归一化将有助于获得相对于周围梯度的相对梯度 Normalized Gradient = [Gradient(x,y) - Mean_Gradient(5*5 window)]/ Deviation(5*5 Window)

Computer vision 从图像中提取haar特征

标签： Computer Vision pattern-matchingobject-recognitionhaar-wavelet

我正在尝试基于图像处理的产品分类。我会有（比如说10000）个不同类型物体的图像，比如说5个，我的系统会将它们分开。作为一种解决方案，我试图提取选定的haar特征以及在图像上检测到这些特征的位置。然后，我将在这些字段上训练一个分类器（待定）我担心提取图像中每个位置的所有haar特征所需的时间（与人脸检测不同，在人脸检测中，缺少一个特征就不需要在该窗口中查找其他特征）。我有一个简单的函数，它通过积分图像求和来检测特征，但它不是最理想的。有没有一种方法可以让我的计算速度更快（一些库等）。语言/工具

Computer vision 具有已知本质的射影到度量重构

标签： Computer Vision 3d-reconstructionmultiple-viewsprojective-geometry

我已经从同一台摄像机拍摄的三张图像中对场景进行了投影重建（也就是说，我重建了摄像机矩阵和投影帧中的点坐标；三个摄像机矩阵中的一个是圆锥矩阵p=[I | 0]）。相机的本质是完全已知的如何升级到公制？仅凭相机内部信息无法进行公制重建对于公制重建，相机的外部特征应该是已知的，或者您应该捕获包含已知尺寸对象的场景有关更多信息，请参阅Hartley&Zisserman在《计算机视觉》中的《多视图几何》第10章。10.2和10.4.2节清楚地讨论了这个问题从254p开始，同一教科书的第二版不知道

Computer vision 从立体图像获取深度贴图的库？

标签： Computer Vision stereo-3d3d-reconstructionphotogrammetry

我将设置一些设备来执行实时3D运动跟踪。我的第一个想法是使用一对照相机拍摄立体图像，并计算深度贴图以获得我所需的3D数据有没有好的开源库（C/C++）可用，并且速度足够快，可以实现实时（~12-24fps）？我找到了，在SourceForge，有人试过吗或者在启动之前我可以实现的任何算法建议？，考虑立体视觉不仅仅是软件问题。对相机的校准对于深度贴图的准确性至关重要。为了获得最佳效果，您需要两个完全相同的相机完全平行，两个相机上的镜头完全相同，相机的CCD位于3D空间中的一个平面上。这是很难

Computer vision 边缘检测技术

标签： Computer Vision edge-detection

有人知道Prewitt、Sobel和Laplacian算子在边缘检测算法中的区别吗有些人比其他人好吗不同的算子在不同的情况下使用吗？拉普拉斯算子是一个二阶导数算子，另外两个是一阶导数算子，因此它们在不同的情况下使用。Sobel/Prewitt测量坡度，而Laplacian测量坡度的变化示例：如果您有一个具有恒定斜率（梯度）的信号：一阶导数滤波器（Sobel/Prewitt）将测量斜率，因此滤波器响应为 Sobel result: 2 2 2 2 2 2 2 对于该信号，拉

Computer vision 从基本矩阵计算极线

标签： Computer Vision triangulation

我有一个关于图像处理和计算机视觉课程中给出的一个问题的问题：鉴于： ->两个摄像机的固有参数K=K'=1[3x3单位矩阵] ->基本矩阵算计 i）两个摄像机的极线点 ii）与点x=（2,2）相关的极线（这是相机1图像平面中的点，即相机1看到的未知3D点的投影）解决方案： i）这很容易。只要解F*e=0和e'F=0的方程（我已经这样做了）我不确定。我只知道我可以通过l=F*p计算极线向量l（或者分别对另一个相机进行fttransposed，其中p是一个3D点）。是否有方法获得两个摄像

Computer vision 如何实现用于视觉跟踪的粒子过滤器？

标签： Computer Vision roboticsparticle-filter

所以我刚上了Sebsatian thrun的人工智能课程。在这里，他提到了如何建立一个粒子过滤器，用于跟踪一个移动的xy机器人，该过滤器基于航向θ和向前运动代码如下：在实施过程中，他做到了以下几点： 1. Get Range from Sensor of all bearings after moving R=1, Theta=0.5 2. Move all the particles by R=1, Theta=0.5 3. Compute the weights of all part

Computer vision 利用卡尔曼滤波对传感器数据进行综合

标签： Computer Vision kalman-filter

我有两个摄像头，它们正在检索两点（称为中心和端点）和水平线之间的角度。我在手臂末端的感应中添加了噪声，该噪声等于高斯噪声，平均值为0，标准偏差为5像素如何制作卡尔曼滤波器来整合两个读数以生成更准确的读数？以以下方式将估算Zest作为两个读数Z1和Z2的加权和： Zest=Z1*V2/（V1+V2）+Z2*V1/（V1+V2） V1和V2分别是Z1和Z2读数的方差。将估算Zest表示为两个读数Z1和Z2的加权和，方法如下： Zest=Z1*V2/（V1+V2）+Z2*V1/（V1+V2） V1、

Computer vision 将InfoGainLoss用于类距离（输入值<；0），而不是相似性

标签： Computer Vision Deep Learning caffepycaffe

我尝试使用图层执行基于像素的多标签分割，有两个类彼此相对相似。为了现在能够区分它们，我想在infogain_矩阵中的相应位置引入负距离值而不是正相似值，这样像素的损失值与P（真类）成正比，与P（相似类）成反比，在理想情况下，在不同的类别之间进行更尖锐的区分然而，在InfoGainLoss的当前实现中，infogain_mat中的负值不会导致我想要的行为，而是通过绝对值H（ln，k）*p（k）减少损失值。任何对InfoGainLoss有更多经验的人都可以证实这一点吗？如果可能，就如何实施我想要的

Computer vision 对抗性训练和测试

标签： Computer Vision generative-adversarial-networkadversarial-machines

也许这更像是一个概念问题，但我希望你能给我你的意见。我知道对抗性训练意味着在训练过程中引入一些损坏的实例，以便在测试时混淆模型并产生错误的预测。但是，该模型是否适用于以下场景：假设创建了一个敌对补丁来愚弄检测到停止标志的分类器，那么普通的对象检测器将无法在存在该补丁的情况下区分真正的停止标志。但是，如果模型同时训练有补丁和没有补丁的两个实例呢？这对于对象分类程序来说并不难执行，攻击会失去所有成功的机会，对吧？。我不明白为什么这些攻击可以成功，如果模型只需要多一点训练就可以包含这些对抗性样本。

Computer vision 如何测试microsoft conitive services计算机vsion api？

标签： Computer Vision azure-cognitive-services

我是azure Contive服务的新手。我想在Microsoft控制台上测试分析api。我试图从api中提取图像描述。当我经过图像url时，它会被删除并变成红色。该网站称url无效。我尝试了多个图像。它显示了相同的错误。我甚至尝试了Microsoft自己在计算机视觉演示中使用的图像url。请帮帮我我在api服务中测试的URL：示例图像url：我得到的回应 apim-request-id: ecb54c47-8a6e-4f16-a44f-0a40dc29e44d Strict-Trans

Computer vision 如何调整图像分割遮罩的大小？

标签： Computer Vision semantic-segmentation

我对每个图像都有一个二进制掩码，每个掩码像素的值为0或255。现在因为我的图像分割需要固定大小的图像，所以我必须调整图像和遮罩的大小。但是，当我调整图像大小时，遮罩中的某些位置的值大于0但小于255。我怎么知道该保留哪一个？因为库要求只有0或255。请帮助我，非常感谢。如果要调整图像大小，并希望结果图像仅具有原始范围的值，可以使用最近邻插值

Computer vision 使用工具、表单识别器和自定义标签进行标签后，两个字段的精度较低

标签： Computer Vision azure-cognitive-servicesazure-form-recognizer

我需要两个特定字段的识别帮助-信用日期和信用类型。标记后的准确率较低（训练约30%），测试集的准确率甚至更低（约10%）我使用自定义标签API后，标签，标签和培训我认为这两个字段相对于其他字段出现在不同的位置，因为不同收据中的条目数不同我能做些什么来提高这些字段的准确性吗认知服务服务增加了对新的和令人兴奋的功能的支持-多表单模型（模型组合）、语言扩展、预构建名片模型、选择标记等现在在表单识别器v2.1版本中可用表单识别器已更新，以支持新的发布功能，有关使用标签的自定义序列的入门信息，

Computer vision Javascript-从像素中提取RGB值

标签： Computer Vision Javascript

我目前正在使用一个名为的javascript库，其中包括计算机视觉库，在提取该javascript库中像素的RBG值时遇到问题我通过创建另一个并使用以下代码成功地提取了值： // Pixel extraction --RGB function cropFaceColor(canvas, locationX, locationY) { var idata = canvas.getImageData(locationX,locationY ,1,1);

Computer vision 是否有用于制作计算机视觉管道原型的程序？

标签： Computer Vision matlab-cvstprototypingvision

是否有任何一款软件可用于制作不需要编码的计算机视觉管道原型我试过这个，但不太好用我想做一个不同软件的赞成和反对列表，因为人们在答案中添加软件优点：大覆盖率opencv 免费试用版缺点：难制管道价格:$99 优点：管道带电更换屏幕预览实时免费试用版缺点：还没出来不成熟无法导出功能价格：未知，但看起来约为100GBP 如果你用过这个，请加上优点：缺点：价格：135.00美元（matlab）+39.00美元高级预览带电参数变化免费

Computer vision 如何调整Caffe中不同数据集的训练模式？

标签： Computer Vision Neural Network Deep Learning caffe

目前我正在遵循，但将其应用于我自己的培训数据集。我的数据集大约有2000个类，每个类大约有10~50个图像。实际上，我正在对车辆图像进行分类，图像被裁剪到前面，因此每个类别中的图像都具有相同的大小和相同的视角（几乎相同）我尝试过imagenet模式，但似乎效果不好，经过大约3000次迭代后，精度降至0。因此，我想知道是否有一个关于如何调整模式的实用指南？您可以删除imagenet中的最后一层，使用不同的名称添加您自己的最后一层（以适应类的数量），以较高的学习率指定它，并指定较低的总体学习率。这

Computer vision 当人脸检测到微笑时，如何使用Ionic捕捉照片？

标签： Computer Vision ionic3hybrid-mobile-appface-recognitionionic-native

使用爱奥尼亚，我是否能够捕捉到一张照片，并在脸部微笑时触发？我正在寻找建议，任何我可以使用Ionic获得的资源材料。你需要使用一些情绪检测api。这个问题与离子本身无关，而是与计算机视觉有关。所以，你可能会做的是将你的照片发送/上传到在线api（例如google cloud vision或任何其他），以检测照片中的情绪，它将为你检测情绪。结果将由您的应用程序使用。请帮助，我的截止日期是本周，我的老板偶尔会带着枪走在我身后。这并不容易，我认为您需要为此编写自己的本地插件，您已经向持枪老板承诺了吗？

Computer vision 如何修剪Detectron2模型？

标签： Computer Vision Pytorch web-deploymentobject-detectionfaster-rcnn

我是一名学习计算机视觉几个月的教师。当我能够使用Detectron2更快的R-CNN模型训练我的第一个物体检测模型时，我非常激动。它就像一个符咒！超级酷但问题是，为了提高精度，我在模型动物园中使用了现在我想将其部署为人们可以用来简化工作的工具。但是，这个模型太大了，在我的CPU上，即Intel i7-8750h上，只需10秒钟就可以推断出一个图像因此，即使在普通的云服务器上也很难部署此模型。我需要使用GPU服务器或最新型号的CPU服务器，这些服务器非常昂贵，我甚至不确定我是否可以补偿几个月

Computer vision 从单个图像估计相机高度、方向和视野

标签： Computer Vision camera-calibration

我希望有人能给我指出正确的方向（或者让我知道我是否走在正确的道路上）我正在尝试构建一个图像编辑应用程序，它使用计算机视觉来辅助虚拟对象插入-基本上是AR，但受单个单眼图像（未校准）的约束虚拟对象插入将仅发生在地平面上（例如，想象地板上的虚拟地毯）。因此（与AR非常相似），我需要将虚拟摄影机与物理摄影机对齐，并将渲染的虚拟场景与物理图像合成我已经成功地训练了语义分割深度CNN来预测室内场景的地板（用作遮罩，因此虚拟对象（如地毯）仅在该区域可见），但我在确定相机属性时遇到了困难我的直觉是，为

Computer vision 对两个视图进行捆绑调整有意义吗？

标签： Computer Vision

如果我只有两张单眼图像，光束调整真的有用吗？根据我的想法，只有当我有多个视图/图像，并因此计算多个图像中一个（或实际上多个）3D点的重投影时，束调整才有意义。为什么？因为我在每个图像中都有离散化错误，我可以通过束调整在多个图像上减轻这些错误。如果我只考虑两个视图，重投影误差应该接近于零，不是吗？或者这是错误的，它也适用于2幅图像，因为基本/基本矩阵和相对变换可能是错误的，从而导致较大的错误？我很困惑，因为我看到一些实现总是在一组图像之间最小化重投影错误。对于普通针孔相机的图像，可以在两个视图上最

Computer vision SIFT是一种分割算法吗？

标签： Computer Vision sift

我必须使用分割算法跟踪场景中的人。会做这项工作，但它肯定被认为是一个分割算法还是其他什么非常感谢。筛选定位感兴趣的点，即在图像中有明确位置的点。这通常是角点和线端。SIFT不是一种分割算法。SIFT可以被认为是一种图像描述方法，一种关键点匹配算法，一种对象识别方法，但绝对不是一种分割算法。我感觉情况就是这样，所以我避免了SIFT。谢谢：）。

Computer vision Horn-Schunck光流计算

标签： Computer Vision opticalflow

我在研究Horn-schunck方法来计算视频中的光流。我的代码是C语言，这意味着我正在从头开始实现所有的算法，包括对图像进行灰度缩放、计算导数等。我无法完全吸收该方法的精髓。我得到的最终流矩阵将包含每个像素的位移向量，对吗？这意味着对于每个像素，流矩阵中的值将指示其在下一幅图像中的位移量当我的所有像素值都在0-255之间时，我的所有计算都是在这些像素值上进行的，结果输出会给出一个1920 X 1080图像中的位移。你的方法的结果将是一个具有两个通道或两个矩阵的矩阵，一个用于u（或dx）方向/

Computer vision 为什么正向图像扭曲会在图像中留下孔洞？

标签： Computer Vision

我使用单应性扭曲第一张图像，新图像由孔组成。原因是什么？单应是映射图像像素坐标ref的变换矩阵。因此，假设图像左上角的同质坐标为：p0=[0 0 1]^T。在某些一般单应H下，p=H*p0可能不是新扭曲图像的左上角，因此新图像的左上角将有孔。下面显示了一个更直观的示例，特别是对于相似性转换，图像大小将缩小：这取决于孔的形状如果你所说的“洞”是指最可能是三角形或梯形形状的黑色区域，那么这是一个伪影，因为单应性将矩形映射为梯形。参见的答案，特别是里面的图形如果这些空洞实际上是散布在输出图像上的

Computer vision 重渐晕图像的SIFT特征检测

标签： Computer Vision feature-detectionsiftvlfeat

我试图在使用内窥镜相机拍摄的图像对之间匹配特征。在翻译图像时，我发现匹配的特征数量非常差（即使重叠仍然很高）几个问题这种低数量的特征匹配可能来自图像中存在的渐晕现象吗？（SIFT描述符描述渐变，如果存在恒定的渐晕渐变，是否会损坏描述符？）摄像机的校准会很差吗您对改进匹配有何其他建议以下是我正在做的： -图像将根据使用棋盘格图案进行的相机校准重新映射 -使用SIFT（VLFeat）检测特征 -特征与几何验证步骤匹配（RANSAC具有相当高的阈值）以下是两个例子：（红色=未匹配的特

Computer vision 背光场景中的人脸检测

标签： Computer Vision

众所周知，当场景中有背光时，Viola-Jones人脸检测器的性能较差。有没有办法对图像进行预处理，使VJ工作得更好？否则，是否有其他人脸检测器不会出现相同的问题？如果您希望看到许多这样的图像，您可以在自己的此类数据集上使用VJ检测器进行训练。假设黑暗面区域中存在实际数据，并且数据不只是饱和不足，这将有助于提高性能。我已经通过使用背光补偿代码来实现VJ性能的改善。然而，结果仍然远远低于在光线充足的图像上的性能水平

Computer vision 摄像机姿态估计

标签： Computer Vision pose-estimation

我正试图从头开始编写一个程序，可以估计相机的姿势。我对任何编程语言持开放态度，并使用内置函数/方法进行特征检测我一直在探索估算姿势的不同方法，如SLAM、PTAM、DTAM等。。。但我并不需要追踪和映射，我只需要姿势你们中有谁能提出一种方法或任何资源来帮助我吗？我知道什么是姿势，以及如何估计它的粗略想法，但我找不到任何资源来解释如何做到这一点我正在考虑从录制的视频开始，从视频中提取特征，然后使用这些特征和几何体来估计姿势（请原谅我的天真，我不是一个计算机视觉的人，对这一切都很陌生）一般来

Computer vision TOF摄像机校准-到棋盘的距离

标签： Computer Vision kinectcamera-calibration

对于我的应用程序，我需要校准我的TOF相机（kinect v2）我已经用matlab做了摄像机校准。校准后，我发现直角平面是倾斜的。例如，此处是两个“直角”平面的结果：我认为这一结果是校准错误参数的间接原因。因此，我想改进kinect的校准过程所以我有三个主要问题： TOF相机和棋盘之间的距离对校准结果是否重要？对于我的应用，我需要一个相当高的精度在2.5米-3米的间隔（相机和物体之间的Z距离）。所以我选择这段时间是为了在这个区域得到最好的结果，特别是因为它是一个TOF相机。或者我应该

Computer vision 超分辨率算法的大（O）计算复杂度

标签： Computer Vision Big O

我正在尝试实现一个超分辨率算法，以提高单个输入图像的分辨率，但需要一些在复杂性方面相对便宜的东西我遇到过Yang等人。使用稀疏表示的超分辨率算法 http://www.ifp.illinois.edu/~jyang29/papers/TIP10-SR.pdf bigO表示法的计算复杂度是多少？快速浏览一下这篇文章，这不是一件容易确定的事情。很大程度上取决于实现细节（例如，如何解决作为算法一部分的约束优化问题）。然而，如果你关心现实世界的表现，一个大O答案不会告诉你太多。为什么？因为一切都取决于

Computer vision 端到端OCR模型中的特征提取问题

标签： Computer Vision Artificial Intelligence ocr

我正在读这篇有趣的文章，并且有一个关于特征提取器的问题在第3.1节中。作者说，他们修改了conv4_1，使其具有步幅1。但就在那之后，他们说他们从第三阶段的输出中提取特征。我不明白为什么要修改第4阶段，而他们已经在第3阶段停止了。谁能给我解释一下吗？非常感谢你

Computer vision 我在CustomVision中创建了一个新模型。如何在计算机视觉中使用此模型？

标签： Computer Vision microsoft-custom-vision

正如我所说，我通过自定义Vision创建了一个新模式。现在，我想用这个模型分析其他图像。可能吗？我应该使用什么端点？谢谢。我想你是用www.customvision.ai创建了你的“模型” 计算机视觉和自定义视觉是两种不同的产品：计算机视觉API是一种API，具有预先培训的、随时可用的视觉方法（描述图像、OCR等）自定义Vision API是计算机视觉的自定义“兄弟”：在这里，您可以创建自己的“模型”（称为“项目”）自定义愿景的过程如下所示：创建项目后，将图像导入其中，标记这些图像（

Computer vision 与SIFT比较的BRIEF和ORB的优缺点

标签： Computer Vision siftfeature-detection

我正在做一些关于局部特征表示的研究，比如SIFT、SURF等等现在，这里有没有人试过？如果是这样的话，你能讨论一下什么是赞成和反对分别进行筛选吗？是我发现有帮助的一个比较。从本质上讲，简短和ORB要快得多。这里没有很好的尺度不变性比较，但我个人发现SURF/SIFT比BRIENT和ORB更具尺度不变性。我建议，如果你打算将它们用于特定的用例，你可以尝试两者，看看哪一个最能满足你的需求。SURF/SIFT使用需要以某种方式付费的专利。我不了解这方面的最新情况，但成本可能很大。因此，如果可能的话，

Computer vision 卷积神经网络是否具有图像定位能力？

标签： Computer Vision Neural Network feature-detection Deep Learning

据我所知，CNN依赖于滑动窗口技术，只能指示给定边界框中是否存在特定模式。这是真的吗如果没有这些技术的帮助，你能用CNN实现定位吗？这是图像识别中的一个公开问题。除滑动窗口外，现有的方法包括预测CNN输出图像中的目标位置、预测边界（将像素分类为是否属于图像边界）等。参见示例和其中的参考文献还请注意，使用最大池的CNN，可以识别有助于对象识别的特征检测器的位置，并使用该位置来建议可能的对象位置区域最近有一些技术可以在CNN中定位物体。看到这张纸了吗它使用一个称为全局平均池（GAP）的层，不

Computer vision 沿一个方向移动时的旋转矩阵

标签： Computer Vision

假设我有一个安装在轨道上的相机，我可以前后移动它来拍摄我的场景我可以假设旋转矩阵等于零吗？这取决于您选择的坐标系。假设它与相机旋转对齐（例如，负Z轴指向相机的观察方向，正y轴指向上方），并且只移动相机而不旋转，则用于在这些坐标系之间转换的旋转矩阵为标识矩阵。零矩阵没有意义。如果假设没有旋转，则旋转矩阵是3x3单位矩阵，而不是零此外，这可能是一个好的假设，也可能不是一个好的假设，这取决于您希望的准确性。即使相机在轨道上移动，也会有一些小的旋转。正确，单位矩阵不为零。我只需要估计一下深度图。谢

Computer vision Tensorflow：维度大小不一致的张量？

标签： Computer Vision Tensorflow object-detection

我一直在为目标检测实施卷积神经网络，我遇到了以下问题：对于对象检测任务，通常，一个输入图像与数量不确定的对象边界框相关联。每个边界框可以由4个坐标表示。因此，要将边界框表示为张量，形状将为： [batch_size, variable_num_bbox(?), 4] 请注意，在这里，不仅仅是在构建图形之前不能指定variable_num_bbox，而且，即使在一批输入中，不同的图像也可以有不同数量的边界框作为一个示例，我想将以下数组转换为张量： [[[1, 2, 3, 4], [2, 3

Computer vision 识别图像中的扑克牌

标签： Computer Vision image-recognition

我在试着从纸牌游戏中辨认出来。我一直在尝试使用各种图像识别api Google vision api，即ai、azure的计算机视觉api等，但它们似乎都不能正常工作。当演示图像中只有一张卡出现时，他们能够识别其中一张卡，但当两张卡都与另一张卡同时出现时，他们无法识别其中一张卡。我已经用一套大约40张不同的图片对API进行了培训，每张卡有不同的角度、背景和灯光。我也尝试过使用ocrvia谷歌视觉api，它只适用于一些卡片，可能是因为一些卡片上的字母很小，没有太多细节。有人知道我可以教其中

Computer vision 图像分类深度学习（旋转和缩放规范）

标签： Computer Vision Deep Learning conv-neural-network

我们怎样才能建立一个深度学习模型来检测给定图像是否包含直线和椭圆，如果它包含椭圆，椭圆的参数是什么（中心点、轴和旋转角度）？您可以训练一个模型来检测形状。许多框架（例如tensorflow）提供了现有的模型，您可以使用这些模型进行迁移学习，以加快过程。可能已有用于检测基本形状的模型我怀疑通过深入学习来计算形状属性是否有意义，比如中心点。如果你知道形状的类型，为什么不使用几何函数来获得这些形状属性

Computer vision 相机模型中比例因子和深度之间的差异？

标签： Computer Vision camera-calibration

相机模型中的比例和深度有什么区别？我知道“缩放”参数可以使整个3d场景变大或变小，从而影响场景中的所有3d点，其中“深度”指的是3d中的特定点。这仍然令人困惑，因为沿着同一条光线的不同深度的点投影到同一点，同样不同比例的点也投影到同一点。在摄影机模型方程式中，存在未知比例因子，为什么不将其称为/视为未知深度。我如何更好地理解这一点在摄影机模型方程式中，存在未知比例因子，为什么不将其称为/视为未知深度如果你所说的相机模型方程是指一个3d点到图像空间的投影，那么得到的系数实际上是一个未知的深度

Computer vision 原型面具和Yolact生产的面具尺寸

标签： Computer Vision real-timeimage-segmentation

我读了解释Yolact和Yolact++的文章。我对面具的尺寸和原型感到困惑。有一个protonet的图示，protonet的输出大小为138*138*32。这是原型面具的尺寸吗？我在报纸上读到，该算法产生了一个图像大小的遮罩。因此，请澄清生产的掩模的尺寸。以具有以下尺寸的输入为例：（H，W，C）=（512512,3）协议网将为您提供以下输出大小（也称为协议掩码）：（128128,32）-其中32=协议数。它是输入大小的1/4 protos被用于通过它们的线性组合获得掩模，预测模块预测相应的

Computer vision 冲浪比较代码给出问题

标签： Computer Vision

我正在进行SURF比较，通过计算描述器之间的欧几里德距离来识别图像中的对象。但是下面的代码不起作用。IPoint是一个冲浪功能点，任何帮助都值得一提 List<IPoint> ipts = new List<IPoint>(); Dictionary<string, List<IPoint>> objs = new Dictionary<string, List<IPoint>>(); double distance(IP

Computer vision 找出线条的形状

标签： Computer Vision hough-transform

我有一个二值图像，我正在寻找一种健壮的方法来找到形状和拓扑中的线条（线条如何连接）我已经在matlab中进行了实验（尽管我要求的是使用哪种方法）我曾尝试在二值图像上使用骨架化，然后使用hough变换，有时有效，但不是一个可靠的解决方案。我与边界干扰作斗争有人能告诉我在这里使用哪些方法的方向（以及顺序如何）这确实是一个棘手的问题，从二进制图像到图形（即拓扑）。基本上涉及从像素和2D图像数据的离散世界到节点和连接的抽象数据结构的交叉但是，什么能在两者之间提供“粘合剂”？恐怕这是一个相当

Computer vision SPLUNK subsearch 2 CSV文件连接在一起

标签： Computer Vision splunkspl

我有两个文件，订单数据保存在splunk中的两个不同源类型中。一个文件包含orderid、plnum（praefix+orderid（一个ordernum包含3个plnum））、model（订单类型）。第二个文件包含与这些plnum相同的plnum和MaterialNumber 我想搜索用于一个或多个模型的顶级材质因此，我搜索了如何设置子搜索： sourcetype=file1 [search sourcetype=file2 MODEL="someting"| fields MODEL]

Computer vision ORB后用PCA降维

标签： Computer Vision

我尝试使用ORB和PCA对提取的特征进行降维，然后提取PCA处理过的关键点 plt.rcParams['figure.figsize'] = [14.0, 7.0] e1 = cv2.getTickCount() #read image and convert to RGB image_normal = cv2.imread(image) image_query = cv2.cvtColor(image_normal, cv2.COLOR_BGR2RGB) image_gray = cv2.

Computer vision 如何在darknet为YoloV3进行迁移学习

标签： Computer Vision object-detectionyolodarknet

我想在Darknet的YOLOv3中进行迁移学习，所以我想使用在COCO数据集上训练的YOLOv3预训练模型，然后在我自己的数据集上进一步训练它，以检测其他对象。那么，我应该采取哪些步骤呢？如何标记数据以便在Darknet中使用？请帮助我，因为这是我第一次使用Darknet和YOLO。这里有详细说明：注意，符号必须一致。任何缺少注释的对象都会导致错误的学习和错误的预测。这里将详细说明：注意，符号必须一致。任何缺少注释的对象都会导致错误的学习，从而导致错误的预测。这个问题在“YOLO示例的微调

Computer vision 将可变大小的输入传递到Pytorch中的线性层

标签： Computer Vision conv-neural-network Pytorch

我在Pytorch中有一个Linear（）层，在几个Conv（）层之后。我的数据集中的所有图像都是黑白的。但是，测试集中的大多数图像与训练集中的图像具有不同的维度。除了调整图像本身的大小外，是否有任何方法来定义Linear（）层，使其采用可变的输入维度？例如，类似于视图（-1）的内容，使用具有可变输入大小的Linear（）层是没有意义的。因为实际上它是一个可学习的形状矩阵[n_in，n_out]。如果输入的特征尺寸！=纽因您可以做的是从函数API应用。您需要指定kernel\u size和st

Computer vision 如何规范化uint16深度图像以进行训练？

标签： Computer Vision Pytorch

从ScanNet数据集渲染的深度图像位于uint16，深度除以移位（1000）后，深度值在[0,1

Computer vision 如何解决MSS导入问题

标签： Computer Vision screenshotimporterror

我下载了图书馆 !python -m pip install mss “已满足要求：mss在/root/.local/lib/python3.7/site-packages（6.1.0）中” 但是我不能导入它从mss导入mss导入mss.工具 ModuleNotFoundError:没有名为“mss”的模块奇怪的是，它在我的defgetitem函数中运行良好（没有错误），即使它没有导入（？）但是后来当我试着打印屏幕截图时 2 loader = DataLoader(datas

Computer vision 光流示例

标签： Computer Vision opticalflow

我对光流有一个概念上的怀疑。亮度恒定性约束声明： ∂我/∂x vx+∂我/∂y vy+∂我/∂t=0 该示例是时间t处的2×2图像[1 0；0 0]。现在，假设在时间t+1，它被移动了[a]个像素（假设a是分数并且小于1）。然后，新图像是[（1-a）（1-a）a（1-a）；（1-a）*a*a] 现在，如果我们拟合原始方程中的值，Ix=Iy=-1，它=-2*a+a*a，在（1,1）处。（我使用了Ix（x，y）=I（x+1，y）-I（x，y））这使得∂我/∂x vx+∂我/∂y vy+∂我/∂t

Computer vision Google Inceptionism：按类获取图像

标签： Computer Vision Neural Network Deep Learning caffe

在著名的Google Inceptionism文章中，它们显示为每个类获取的图像，例如香蕉或蚂蚁。我想对其他数据集也这样做这篇文章确实描述了它是如何获得的，但我觉得解释是不够的有一个相关的代码但它所做的是生成一个随机的梦幻图像，而不是指定一个类，并了解它在网络中的外观，如上面的文章所示有谁能给出一个更具体的概述，或者关于如何为特定类生成图像的代码/教程吗？（最好假设caffe框架）我认为这是一个很好的起点，可以重现谷歌团队发布的图像。程序看起来很清楚：从纯噪声图像和类开始（说“猫”

Computer vision 阿鲁科是高精度姿势运动的良好标志吗？如果是的话，我应该使用哪种措辞？

标签： Computer Vision artoolkitarucoapriltagsfiducial-markers

我目前正在从事一个计算机视觉项目，我需要估计一根针的姿势，以帮助外科医生操作它。不用说，我需要非常高的精度我目前正在编写最后一位实习生留下的代码，他使用阿鲁科基准标记进行姿势估计我已经读过一些报纸，觉得阿鲁科不够好，但似乎有各种各样的措辞，他们的性质差别很大 apriltag、s-TAG还是ARToolKitPlus更适合此应用程序？嘿，我也对这个问题感兴趣。你有什么结果吗？嘿，如果你是说法语的人，我建议你阅读我的实习“论文”。主要结论是tag不能满足需要，需要另一个系统（如加速计）进行备份

Computer vision 校准凝视向量到屏幕点

标签： Computer Vision computational-geometrycamera-calibrationcalibrationeye-tracking

我试图将一些基于ML的眼睛跟踪模型（ex RT-GENE）的凝视向量（偏航和俯仰）输出校准到屏幕上的2D凝视位置。到目前为止，我已经尝试过线性和多项式回归模型，它们不是很精确，而且还需要大量的校准点。有什么更好的方法？非常感谢任何python实现