Computer Vision_IT技术博客_编程技术问答

Computer vision 主动光立体系统的深度误差估计？

标签： Computer Vision stereo-3ddisparity-mapping

我想用这个公式计算我的系统的深度误差- 在这里，我需要先估计视差误差的值，然后才能计算实际的深度误差，而视差误差取决于立体匹配算法。然而，如果我使用的是主动光系统（例如，在感兴趣的物体上投射激光线等），视差误差会是一个非常小的值吗？它显然不能为零，因为事情不是这样的。无论您试图缩小什么ROI，场景之间的视差误差都会发生变化。它完全依赖于算法，因此可以通过数据集对算法进行评估，以获得视差误差。这些评估考虑了一些地面数据视差将被知道的数据集。因此，可以确定视差误差一些评估可以由KITTI，Mid

Computer vision 计算机视觉系统工具箱

标签： Computer Vision video-capture Matlab matlab-cvst

我已经找到了matlab的示例，但是工具箱中包含的所有演示都希望输入的是avi视频。此工具箱是否适用于网络摄像头和/或简单图像？如果是，有人能告诉我怎么做吗？我知道这可能不是很有帮助，但Mathworks喜欢将Simulink作为流媒体应用程序（包括视频处理）的首选工具对于实时视频或来自照相机的静止图像，您选择的工具是。这与您找到的图像处理工具箱相结合，使matlab成为非常强大的视频处理工具演示如何将图像文件读入matlab矩阵计算机视觉系统工具箱适用于MATLAB和Simulink。

Computer vision 生成计算机视觉算法最容易检测到的图像

标签： Computer Vision feature-detectionfeature-extraction

从事与计算机视觉相关的小型项目，主要是尝试使用OpenCV。这让我想到一个有趣的问题：使用特征检测在图像中查找已知对象并不总是容易的-对象很难找到，尤其是当目标对象的特征不是很好时但如果我能提前选择我要找的是什么，那么理论上我可以为自己生成一个最佳的图像进行检测。任何使特征检测变得困难的品质都将不存在，所有使其变得容易的品质都将存在我怀疑这种想法也适用于二维码之类的东西，但由于他们希望二维码简单、小巧的局限性所以我要问你们的问题是：你们将如何生成一个最佳的图像以供以后的相机识别？如果您已

Computer vision 光流与关键点匹配：有什么区别？

标签： Computer Vision augmented-realityopticalflowkeypoint

我花了几个月的时间研究和实验关键点检测、描述和匹配的过程。在上一节课中，我还学习了增强现实背后的概念，即“无标记”识别和姿势估计幸运的是，我发现前面的概念在这个环境中仍然被广泛使用。创建基本增强现实的通用管道如下所示，但不详细介绍所需的每个算法：捕获视频时，在每一帧获取一些关键点并创建它们的描述符查找这些点与以前保存的“标记”（如照片）中的点之间的匹配如果匹配足够，估计可见对象的姿势并使用它也就是说，一个非常简化的过程，例如，由现在的问题是：在我个人的研究中，我还发现了另一种叫做“

Computer vision 基于lmdb的caffe多标签人脸区域分类训练

标签： Computer Vision Neural Network Deep Learning caffeconv-neural-network

我使用两个lmdb输入来识别人脸的眼睛、鼻尖和嘴巴区域。数据lmdb的维度为Nx3xHxW，而标签lmdb的维度为Nx1xH/4xW/4。标签图像是通过在opencv Mat上使用数字1-4屏蔽区域创建的，opencv Mat已初始化为所有0（因此总共有5个标签，0为背景标签）。我将标签图像的宽度和高度缩小为相应图像的1/4，因为我的网络中有两个池层。这种降尺度确保标签图像尺寸与最后一个卷积层的输出相匹配 My train_val.txt： name: "facial_keypoints" la

Computer vision 在基本矩阵计算和投影后看起来倾斜的对象

标签： Computer Vision camera-calibration

我试图从两幅图像中计算一个基本矩阵和一个投影矩阵。然后我将使用它们将3D对象投影到图像上。我使用的两个图像是我选取了一些像素对应，并将其输入到基于SVD的最小二乘机制中，书中说这给了我基本矩阵。我在这个任务中使用了下面的代码（代码主要基于Eric Solem的《用Python编程计算机视觉》（Programming Computer Vision with Python）一书）：将scipy.linalg导入为lin 作为pd进口熊猫 def歪斜（a）：返回np.array（[[0，-

Computer vision 约洛联合会（IOU）地面真相交叉点

标签： Computer Vision yolo

我试图理解YOLO中借据的概念。我读到它是预测边界框和地面真值边界框之间的重叠区域。这是训练数据所必需的，您可以手动放置地面真实值边界框。我的问题是，如果你想在新的图像上应用YOLO，它如何知道地面真相边界框问候,， Bryan如果我们有两个边界框，那么IoU的定义是它有两个用途：这有助于我们衡量模型预测的准确性。使用它，我们可以计算出预测的边界框与地面真实边界框的重叠程度IoU越高，性能越好。结果可以解释为它帮助我们删除相同对象的重复边界框。因此，我们按照置信度的降序对所有预

Computer vision 计算机视觉OCR的训练

标签： Computer Vision ocrazure-cognitive-services

我设置了Azure计算机视觉服务并在我的应用程序中使用。当我尝试在一些图像上执行OCR时，它无法识别所有文本（即在“cups”中省略“S”）。当无法正确识别文本时，是否可以在OCR中对其进行培训/再培训？OCR工具并非总能检测到所有内容。您可以尝试在将某些图像发送到azure之前对其进行预处理。根据您提供的图像和信息，我快速检查了Computer Vision API的输出，该API具有多个文本处理操作： OCR：原始的，同步的识别文本：第二个，异步，最后一个将不推荐使用批读取（2.0

Computer vision 如何使用/重用visual SLAM中生成的地图

标签： Computer Vision orbslam

我正在使用视觉SLAM，如ORB SLAM，用于室内机器人车导航。我有几个问题，希望你能帮助我生成地图后，基本上是3D点及其描述符，下次如何重复使用？重用生成的地图是一个好主意吗支持我重复使用地图，随着时间的推移，我如何维护和改进地图在没有太多特征点的地方，我应该做些什么来提高visual SLAM的性能谢谢，还有一个基于ORB的，还支持加载预构建地图的。但在映射时，OpenVSLAM中不支持预构建的映射。您应该在运行SLAM时开发用于改进预构建映射的代码。如果没有太多的关键点，应该寻找

Computer vision 哪个F1分数用于语义分段任务？

标签： Computer Vision semantic-segmentation

我读了一些关于最先进的语义分割模型的文章，在所有这些文章中，作者都使用F1评分标准进行比较，但他们没有写他们使用的是“微观”还是“宏观”版本有人知道用哪一个F1分数来描述分割结果吗？为什么很明显，作者在论文中没有对其进行定义样本文件：只有一个F-1分数——精确性和召回率的调和平均值宏/微/样本/加权/二进制用于多类/多标签目标。如果None，则返回每个类的分数。否则，这将决定对数据执行的平均类型： binary：仅报告pos_标签指定类别的结果。这仅适用于目标（y_{true，pred

Computer vision 图像块注册

标签： Computer Vision registrationlinear-algebra

我正在尝试创建一个映射，将一个平铺图像数据集中的平铺/像素位置映射到另一个数据集中的平铺/像素位置（大致覆盖相同的图像区域）。由于成像区域的旋转、平移轴、平移和比例变化，此映射中存在许多未知因素。这种情况如下图所示，其中矩形代表每个瓷砖的成像区域，瓷砖的布局由平移轴（黑线）和相机轴之间的关系决定：问题归结为以下线性系统，该系统考虑了两个数据集中扫描轴相对于相机轴的不同旋转，以及两个数据集中成像区域之间的旋转、缩放和平移。不幸的是，我不知道如何着手解决未知问题： |tx ty|X|a b|+|

Computer vision 使用YOLO版本2进行测试

标签： Computer Vision conv-neural-networkobject-detectionyolo

我在运行yolo v2时遇到以下错误。Yolo和tiny Yolo很好用。任何线索将不胜感激 ./darknet detector test ./cfg/voc.data ./cfg/yolo-voc.cfg ./yolo- voc.weights data/dog.jpg layer filters size input output 0 conv 32 3 x 3 / 1 416 x 416 x 3 -> 416 x 416 x 32 1 max 2 x 2 / 2 416 x

Computer vision 如何打印每个类'；使用Mxnet快速RCNN进行目标检测时的平均精度

标签： Computer Vision Deep Learning object-detectionmxnet

我在自己的数据集上使用更快的rcnn（mxnet）进行对象检测，该数据集有9个类（包括背景）。然而，我发现最终它只打印出了培训过程中所有9个班级的平均准确度。此外，在测试过程中，它也只打印出所有9个类的平均精度和召回率。我想知道如何在培训过程中打印出每门课的准确度，以及在测试过程中打印出每门课的召回率和准确度？或者有人能告诉我，我应该在哪里实现我的目标？图中会显示一个理想的示例您可以使用Scikit学习功能sklearn.metrics.precision_recall_fscore_su

Computer vision 根据图像中出现的顺序对检测到的文本边框坐标进行排序

标签： Computer Vision ocrbounding-boxtext-recognition

我使用了一个文本检测模型，它给出了边界框坐标。我已经将多边形转换为矩形，用于裁剪图像中的文本区域。生成的边界框被洗牌了，我无法进行排序。据我了解，这些箱子是按Y3分类的。但是，当曲线文本出现在同一行中时，如下图所示，顺序会被打乱，我需要在将其传递给文本提取模型之前对其进行排序将多边形转换为矩形以裁剪文本区域在这种情况下，将显示带有检测到的文本的多边形边界框坐标 146,36354,34354,82146,84“澳大利亚人” 273,78434151411201250129“收集” 1

Computer vision HALCON min_mas_grey（）

标签： Computer Vision grayscalehalcon

有人能解释一下Halcon中min_mas_grey（）操作符的percent参数是什么吗最小最大灰度（区域，图像：：百分比：最小，最大，范围）此运算符的文档可在此处找到：如果您在理解过程中遇到困难，请详细说明以下解释：计算与图像区域相对应的像素百分比数输入图像。然后在直方图的两侧向内移动通过此像素数确定最小和最大像素数灰度值本质上，如果百分比为0，您将获得预期的最小值/最大值，但是如果您给出一个百分比，它将从直方图的任一侧减去该百分比（作为像素值），并将这些值改为最小值和最大值

Computer vision 将类Haar特征应用于图像/定义特征

标签： Computer Vision haar-classifier

我知道类哈尔特征的一般概念，以及如何使用积分图像计算形状然而，我的问题是，在定义一个形状并计算积分图像之后，如何获得特征也就是说，我是否在每个可能的位置应用形状（类似于高斯滤波器）？整体图像是否平铺，并在每个平铺上计算形状？或者形状在图像中的位置是否固定且必须预定义在这之后，分类器训练的具体特征是什么？例如，如果图像是平铺的，那么新的“图像”（将所有平铺组合成一个向量）是特征还是每个平铺都是其自身的特征我找到的关于它的所有东西都只是说‘将它插入代码库XY’。类似haar的特征算法的特

Computer vision 如何将Kinect rgb和深度图像转换为真实世界坐标xyz？

标签： Computer Vision kinectmatlab-cvst

我最近使用kinect查找一些标记的距离，所以我一直在将kinect rgb和深度图像（以像素为单位）转换为现实世界坐标xyz（以米为单位）请注意，在Kinect SDK 1.8（Kinect 1）中，无法从RGB图像空间转换到世界空间：只能从深度图像空间转换到世界空间。其他可能的转换为：深度->RGB 世界->深度世界->RGB 因此，要转换，您需要使用SDK中包含的坐标映射器（我假设您使用的是Microsoft SDK，而不是OpenNI、AS3NUI或Ephoriani）。以下是

Computer vision 将线的图像转换为坐标集

标签： Computer Vision polygoncomputational-geometryedge-detection

假设我有一个平面图，如上图所示。是否有一种简单的处理方法将该图像转换为一组由坐标[（x1，y1），（x2，y2）]，[（x2，y2），（x3，y3）]，…，表示的直线，[（xn-1，yn-1），（xn，yn）]我想你想找到图像中所有线条的坐标。在c++中，通过以下简单步骤很容易找到坐标：阈值二进制反转适用于减少厚度在二值图像中查找非零像素查找轮廓并应用近似多边形来近似点这是一张代表你需要处理的图片，还是一张解释性的草图？这可能会有很大的不同。这是计算机视觉任务，在简历1中没有简单的事

Computer vision Viola-Jones算法复杂度

标签： Computer Vision Time Complexity Computer Science viola-jones

什么是Viola-Jones算法的复杂性，以O（log（N））的形式表示？即使它是一个简单的算法，也没有关于它的具体信息。输入图像的像素数（N）是线性的（O（N））。所有Haar图像特征在积分图像上以恒定时间计算，而计算积分图像需要对输入图像进行一次遍历我不知道如何计算它的复杂性，我很想知道答案。我知道算法分为3个主要部分。1-计算图像梯度，2-特征提取，3-分类（人脸或无人脸）。但这三个步骤中的每一个都发生在图像内部的一个小ROI中，该ROI总是滑动到下一个区域并重复该过程。然后图像被重新

Computer vision 可以从对应关系计算投影变换吗？

标签： Computer Vision linear-algebra

我试图计算以下对象中每个平面的投影变换目标是将此参照对象映射到目标平面。因此，每个平面可以生成9个对应。我成功地生成了最小二乘SVD解决方案，但该映射不适合几何体。我想知道是否有可能从这些信息计算投影变换？是的，是的。实际上，只需要4点对应。我不能完全确定，因为您没有提供代码，但您是否有可能只假设了一个仿射变换（最后一行是[0,0,1]的3x3矩阵）。这还不够请仔细查看，为您的问题找到一个好的逐步解决方案。谢谢。事实上，结果在代数上是正确的。我没有修好最后一排。只是SVD解在几何上

Computer vision 摄像机运动下的轨迹预测

标签： Computer Vision

如何从摄像机移动的物体的视频中预测轨迹？为了预测轨迹，摄像机的运动是否起到了重要作用？从视频中，我可以看到，由于摄像机的运动，物体的位置突然改变

Computer vision Image.open（os.path.join（origin#u path，name））.convert（'；P'；）中是否存在任何问题？

标签： Computer Vision python-imaging-library

我通过opencv更改了pascal数据集中的一些图像，然后我需要将它们转换为p模式。我使用img=Image.open（os.path.join（origin\u path，name））.convert（'P'）将RGB图像转换为P模式。但是新图像有点奇怪。为什么新图像的颜色不像原始图像那样平滑？这对我的训练有害吗？我该怎么处理原始图像新形象哦，我明白了。您想修改调色板。您可以这样做： #!/usr/bin/env python3 import numpy as np from

Computer vision 基于转移学习的低分辨率热像cnn深度学习

标签： Computer Vision object-detectiontransfer-learningdownsampling

我需要为没有数据集的超低分辨率热像仪的目标检测训练模型。摄像头分辨率为32x24像素（摄像头为MLX90640）我可以用车前称重吗？或者我需要减少已知数据集的样本，然后从头开始训练它 Mobilenet的最小分辨率为128*128像素，您可以添加填充位或调整（扩展）图像大小并执行对象检测，但这可能不会得到好的结果由于分辨率几乎等于mnist数据集的大小，您可以尝试使用其上使用的所有算法 “没有数据集”是什么意思？热像仪的输出与预先训练的模型完全不同，因此它永远不会工作。您至少需要一个小的带

Computer vision 评估模型导致CUDA内存不足错误

标签： Computer Vision Pytorch gpu

我的模型接收一系列RGB图像（512 x 512 x 3），并基于此进行预测。我在测试224幅图像的序列时，出现了以下错误：运行时错误：CUDA内存不足。尝试分配4.00 GiB（GPU 0；15.78 GiB总容量；10.21 GiB已分配；1.06 GiB空闲；PyTorch总共保留13.43 GiB）这发生在Colab上，但我在AWS ml.p2.xlarge笔记本实例上也遇到了类似的错误我看到的解决方案都指向减少批量大小，但这对我来说没有意义，因为我的批量大小已经是1: 火炬尺寸（

Computer vision OpenTLD，它与其他目标检测方法有何不同？

标签： Computer Vision object-recognition

对于那些听说过OpenTLD的人来说，它是如何在跟踪不同对象之间进行切换的？它一次只能跟踪一个对象，但是如果我在同一个视频源中训练了两个或多个对象，OpenTLD如何决定跟踪什么？在所有示例视频中，用户手动绑定要跟踪的对象，然后自动跟踪是否仅将其视为对象跟踪器？而不是物体识别系统？我对此有点困惑对于我的应用程序，我可以一次跟踪/检测一个对象，但前提是我可以选择切换到跟踪另一个对象例如，在类似Haar的功能设置中： 1.我有一个杯子和一本书，用了一些正反两方面的知识 2.启动我的Haar识别

Computer vision 关于计算机视觉中的splat模糊与切片技术

标签： Computer Vision

我是计算机视觉新手，正在努力理解用于加速高斯滤波技术的splat、模糊和切片技术的概念。我一直在关注这篇论文然而，我是一个非常初学者。所以，有谁能给我指出一些可以帮助我理解这项技术的基础知识吗？如果你需要从最基础的知识开始，有很多关于图像处理的介绍性文章。就我个人而言，我非常喜欢冈萨雷斯·温茨，但这几天可能很难找到。这一个得到了很好的评价

Computer vision 关于vlfeat sift的标准牛津格式

标签： Computer Vision standardssiftvlfeat

我的一个高年级同学给了我一个数据集，用于试验vlfeat的SIFT，然而，她提取的框架部分的SIFT数据包含5个维度。下面给出了一个例子： 192 9494 262.08 749.211 0.00295391 -0.00030945 0.00583025 0 0 0 45 84 107 86 8 10 49 31 21 32 37 46 50 11 23 49 60 29 30 24 17 4 15 67 25 28 47 13 11 27 9 0 40 117 99 27 3 117 117

Computer vision 运行J型连杆机构代码进行模型拟合

标签： Computer Vision

我试图从这里运行J-Linkage算法的Matlab代码：但是，我在运行时遇到以下错误：类型为“logical”的输入参数的未定义函数“pDistJaccard” 聚类点错误（第27行） Y=PDISTJACARD（totdbin'） testJLinkage中出错（第25行） [T，Z，Y，totdbin]=聚类点（totd，inliersThreshold）我没有更改代码中的任何内容&我正在使用windows机器该函数的源代码包含在“CSources”文件夹中。它是使用mex函数编码

Computer vision 如何合并两个比例不同的点云？

标签： Computer Vision point-cloud-libraryslamstructure-from-motion

我们现在正在使用SFM重建我们的校舍。但是我们学校太大了，一次也不能重建。所以我们决定把它们分成几个块，重建它们，然后合并这些点云由于SFM的尺度模糊性，点云的尺度不同而点云合并算法，如ICP，只能估计旋转和平移变换矩阵，不能估计相似变换矩阵那么，是否存在一种算法来合并两个不同比例的点云或任何纸张？您有多少部分？如果这是一个一次性项目，并且您只需要结果，那么您可以在CloudCompare中打开云（例如），并测量参考对象以自己找到比例。

Computer vision 差异和深度的区别是什么？

标签： Computer Vision stereo-3d

我刚开始学习多视点立体视觉但我无法理解差距和深度（视差贴图和深度贴图）你能告诉我直觉吗谢谢在立体视觉中，由两台摄像机拍摄的两幅图像相隔一定距离，可用于获取真实世界中图像点的3d位置（x、y、z），即除了2d--x和y位置之外的深度--z位置视差是在透视下投影到两个不同相机时相同3D点的图像位置差异场景中在两个摄影机中可见的任何点都将投影到两个图像中的一对图像点，称为共轭对。两点位置之间的位移称为视差阅读更多视差贴图/图像只是给定的图像，其中每个像素给出该3d点的视差深度（3

Computer vision 使用已知的平移向量，从基本矩阵计算相机姿态？

标签： Computer Vision camera-calibration

如果我根据立体对应关系计算出我的基本矩阵 x'Fx=0 其中，x'和x已通过使用块匹配进行估计，那么我是否可以（如果我知道立体对的本质和平移向量）计算它们的相对姿势（即旋转）？自 E=K^T F K和E=[R T] R基本上是三个未知的旋转。我发现这可能是解决我的立体声校准问题的一个很好的解决方案，因为我非常准确地知道我的本质和转换向量。或者我对矩阵所代表的内容有什么遗漏或误解

Computer vision 如何使用伏都教摄影机跟踪器？

标签： Computer Vision

我有voodoo camera tracker软件，它将视频作为输入，并以以下格式提供输出： # Text export # created by voodoo camera tracker - www.digilab.uni-hannover.de # Creation date: Mon Feb 28 18:41:56 2011 # The camera (one line per frame) # # Description of the CAHV camera model: # --

Computer vision 如何使用softmax进行像素分类

标签： Computer Vision image-segmentation Pytorch

我的目标是使用像素分类进行灰度图像分割。所以我有两个标签0和1。我在pytorch中创建了一个网络，如下所示类网络（nn.Module）：定义初始化（自）：超级（网络，自我）。\uuuu初始化 self.up=nn.Upsample（比例系数=2，模式='nearest'） self.conv11=nn.Conv2d（1128，内核大小=3，填充=1） self.conv12=nn.Conv2d（128256，内核大小=3，填充=1） self.conv13=nn.Conv2d（256，2

Computer vision 使用8点算法从一幅图像到另一幅图像的已知位置

标签： Computer Vision

我有两个图像，并且知道第一个图像中一个点的位置。现在我想得到第二幅图像中的对应位置这是我的想法：我可以使用SIFT等算法来匹配关键点（如图所示）我知道使用棋盘等校准的摄像机矩阵使用8点算法，我计算基本矩阵F 我现在可以使用F计算相应的点吗？仅使用基本矩阵F是不够的。如果一幅图像上有一个点，则无法在第二幅图像上找到它的位置，因为它不仅取决于摄影机的配置，还取决于摄影机到该点的距离这也可以从x2^T*F*x1=0中看出。如果你知道x1和F，那么对于x2你会得到方程x2^T*b=0，其

Computer vision 最近邻算法中距离度量的替代方案？

标签： Computer Vision nearest-neighborcorrelationkdtreesift

我遇到了一个最近邻算法的实现，用于在两个相似图像中查找某些关键点之间的匹配。关键点由SIFT算法生成。这些点由128维向量描述，两幅图像中都有许多这样的点匹配算法使用最近邻搜索，对于一幅图像中的每个点，计算另一幅图像中对应的最近点。“贴近度”由点向量之间的最小欧几里德距离表示。通过仅获取距离低于某个阈值的点对来选择最佳匹配然而，我遇到的实现将一个图像中关键点的所有向量与另一个图像中的向量相乘，从而形成产品矩阵。然后找到乘积高于给定阈值的点这个实现给出了正确的结果，但我想知道它是如何工作的。

Computer vision 基于hough变换坐标的有效直线

标签： Computer Vision hough-transform

我正在使用hough变换（极坐标）。我想从hough变换的坐标计算直线的向量表示我当前的实现循环遍历图像中从（0,0）到（M，N）的所有像素坐标，其中M和N是图像的大小。当循环遍历空间时，将计算该值： //角度和ρ是hough空间的极坐标 tmp=（int）（（i*cos（角））+（j*sin（角））其中tmp-rho==0是直线的一部分，所以我跟踪该位置。当循环到达图像（i，j）=（M，N）的末端时，从相反方向（M，N）到（0,0）再次进行循环从左到右的第一个（tmp rho==0）和从

Computer vision 需要关于开源库的建议，这些库可以用来开发谷歌眼镜等应用程序

标签： Computer Vision Artificial Intelligence search-engine

我正在寻找一个开源库，它可以帮助我创建类似谷歌眼镜的视觉搜索应用程序。首选语言：Java、Ruby、Python 谢谢您可以尝试使用Python或Java。这是计算机视觉最好的开源软件。如果需要的话，它可以与其他图书馆连接

Computer vision 面向小人脸的Dlib正面人脸检测

标签： Computer Vision face-detectiondlib

我使用Dlib的正面人脸检测器来检测图像中的人脸；但是，它无法检测小于80×80像素的人脸 Dlib在中的示例使用pyramid\u up（）增加输入图像的大小。但是，这会使算法速度慢得多，因为它必须在更大的图像中搜索我想知道是否有人知道这个问题的解决方案。Dlib的人脸检测器经过培训可以处理80x80张人脸。如果要检测较小的面，有两种方法：提高分辨率以使面变大。您可以使用pyramid_up或任何其他方法来调整lice cv:：resize。你可以将结果增加2倍，但可能是1.5倍就足够了，

Computer vision 使用视频（恒定帧数）训练LSTM模型的结构

标签： Computer Vision Deep Learning Keras lstmrnn

我有数千个视频，每个视频都包含固定数量的35帧。我尝试通过训练LSTM模型对视频进行分类。但我不知道人们是如何保持视频的顺序结构并训练LSTM模型的所以我想做的是, 从数据集中读取视频获取该视频的35帧，并通过CNN提取每帧的特征将这些35帧的功能馈送到LSTM层-如何将每个视频（35帧）一批一批地馈送到LSTM层？中的函数使用率很高。但是我不知道如何保持视频的顺序结构，同时将所有数据读入内存以实现fit功能。 rm.model.fit(X,y,batch_size=batch_siz

Computer vision 两种基于深度学习的分类器的组合方法

标签： Computer Vision Deep Learning classification

我想有一个主要的基于CNN的分类器和一个类似的图像区域二级分类器这两种分类器都将用于图像区域。我需要第一个分类器用于主要区域，而第二个分类器用于辅助区域，并将用于支持第一个分类器做出的决策，并提供进一步的证据因此，主图像区域和辅助图像区域将用于一次推断一个类别标签现在还有什么其他方式或架构来执行这样的任务，而不是ROI池理想情况下，我希望有一个类似于本文的分类器方案，但不使用ROI池您可以看看这篇文章，其中包含对最近检测体系结构的全面调查。基本上有3种元体系结构，所有模型都属于以下类别

Computer vision 在Caffe培训期间更改输入数据层

标签： Computer Vision Deep Learning caffeconv-neural-network

是否可以动态更改ImageData层或MemoryData层的输入源我试图在每个历元中洗牌数据，但我有图像和其他一些非图像功能，我想在网络的后期连接它们。我找不到一种可靠的方法来洗牌图像和其他数据，以保持两者的对齐因此，我考虑在每个历元重新生成imagelist.txt以及非图像数据（内存中），并将新文件附加到ImageData层，并用新数据初始化MemoryDataLayer 如何确保在不重新启动培训过程的情况下使用新文本文件重新初始化网络。（我希望网络继续在同一阶段进行培训，动量等…，只

Computer vision CNTK fastrCNN-训练自定义图像-FileNotFoundError:[WinError 2]系统找不到指定的文件

标签： Computer Vision Artificial Intelligence Deep Learning cntk

我正在尝试从CNTK库中训练fastrCNN模块。我在PARAMETERS.py文件中做了必要的更改。当我运行A1_GenerateROI.py时，它生成了ROI，但我得到了以下消息 Number of images in set train = 73 Processing image set 'train', image 0 of 73 wrote gt roidb to C:\local\CNTK-2-0-beta15-0-Windows-64bit-CPU-Only\cntk\Exampl

Computer vision 为什么本质矩阵有2个euqal奇异值和1个零奇异值？

标签： Computer Vision

我在看关于基本矩阵的讲座。教授在教八点线性算法。我知道我们需要8点来估计基本矩阵。但在这张幻灯片中，他说，估计矩阵与基本矩阵不对应，我们应该将该矩阵投影到基本空间。他没有证明这个定理，只是跳过了它。所以我有一些问题为什么本质矩阵有两个相等的奇异值和一个零奇异值为什么我们要平均从八点算法中获得的两个最大奇异值来生成一个基本矩阵如果讲座不是视频，你应该亲自问他（然后毫不犹豫地在下面贴出答案）。如果是视频，请共享URL和时间戳。这是url，时间在1:09:54之后

Computer vision CASIA人脸防欺骗数据库

标签： Computer Vision datasetface-recognitionspoofing

有人知道我在哪里可以下载CASIA face反欺骗数据库吗此数据集发布时包含以下内容注：我尝试了几个链接，URL被删除，没有响应。没有可用的真实数据集链接，您必须签署发布协议并将其发送到某个链接，协议可在此处找到：如果您有机会找到指向数据集的链接，请也将其链接到我，因为我无法从数据集所有者那里得到响应有CASIA数据集（）尝试使用VPN访问站点，注册，然后等待。我实际找到了数据集：你好。你拿到数据集了吗？实际上，我也需要一个项目。好了：这个存储库可能只是临时可用的。你是如何访问它的？它

Computer vision Pytorch加载保存了重量，但不起作用

标签： Computer Vision Pytorch

我有这个密码。我在每个历元后保存权重，代码保存它。但当我加载权重时，损失值从初始损失值开始，这意味着加载以某种方式失败 net = torchvision.models.resnet18(pretrained=True) num_ftrs = net.fc.in_features net.fc = nn.Linear(num_ftrs, 136) def train(): device = torch.device("cuda:0" if torch.cuda.is_available

Computer vision 使用Google Vision API进行对象识别是否需要图像形式的数据？

标签： Computer Vision google-vision

我计划使用谷歌视觉Api来识别和计算视频中的对象。我只能以高质量的视频格式获取数据。因此，我想知道我是否可以使用它，还是只需要使用图像来训练模型？查看云视觉API的视频：谢谢，我们将介绍它。

Computer vision 为什么我的准确度在迁移学习中饱和到一个非常低的值？

标签： Computer Vision ocrcnntransfer-learningpre-trained-model

我正在培训一个使用迁移学习的古吉拉特语光学字符识别模型。输入图像是字符图像。我上了37节课。总培训图像为22200张（每班600张），测试图像为5920张（每班160张）。我的输入图像是32x32。但我的准确度非常低。下面是我的代码： from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Conv2D from tensorflow.keras.layers import MaxPo

Computer vision Sagemaker GPU上的培训太慢了

标签： Computer Vision Pytorch amazon-sagemaker

我已经在Sagemaker Studio中为PyTorch的二进制分类启动了CelebA数据集培训我已经确定所有的，模型，张量都发送到cuda（）我的图像数据集位于S3中，我通过以下导入和代码访问它： from PIL import Image import s3fs fs = s3fs.S3FileSystem() # example f = fs.open(f's3://aoha-bucket/img_celeba/dataset/000001.jpg') 当然还有我的PyTorc

Computer vision 块级像素级运动矢量

标签： Computer Vision opticalflow

考虑到边界和遮挡处的运动不连续性以及可在硬件逻辑上实时实现的光流，有哪些好的算法可以将运动矢量从4*4块/网格级别转换为像素级别。提前谢谢

Computer vision 使用3通道（RGB）PyTorch模型对4通道（RGBY）图像进行分类

标签： Computer Vision Pytorch pre-trained-model

我用4通道图像（RGBY）标记数据集。我想使用预训练分类模型（使用pytorch和ResNet50作为模型）。不过，所有的pytorch型号都适用于3个通道。因此，问题是：如何使用3通道预训练模型来处理4通道数据？我将以下一种方式加载模型：导入torchvision.models作为模型 resnet50=models.resnet50（pretrained=True）您可以修改CNN的第一层，使其需要4个输入通道，而不是3个。在您的例子中，第一层是resnet50.conv1。因此： i