Image processing 图像中的图像算法

我需要一个用任何语言编写的算法来查找图像内部的图像,包括不同比例的图像。有人知道解决这样一个问题的起点吗 例如: 我有一张800x600的图像,在这张图像中有一个周长为180像素的黄色球。我需要能够找到这个图像,搜索模式是一个周长为15像素的黄色球 谢谢您应该看看,一个开源的计算机视觉库-这将是一个很好的起点。具体检查对象检测和方法。如果你想找到圆,一个简单的起点是 然而,围绕这一主题有一个完整的研究领域,称为目标检测和识别。在过去的十年中,最先进的技术有了显著的进步。这里有一个算法: 将图像

Image processing 几种简单目标的实时跟踪算法

我试图写一个程序来跟踪某些物体的相对位置,而我正在玩流行的游戏,传奇联盟。具体地说,我想跟踪屏幕上所有“仆从”的x、y屏幕坐标(“仆从”是图片中心的小家伙,头上有红色和绿色的小条) 我目前正在使用Java Robot类在玩游戏时向我的程序发送屏幕截图,并试图找出最佳算法来定位和跟踪仆从,只要他们留在屏幕上 我目前的想法是使用卷积神经网络通过头顶上的彩色条来识别和定位仆从。然而,我必须在每一个新的帧上重新识别和定位仆从,如果我想实时(约10-60 fps)这样做,这似乎在计算上很昂贵 这些类型的计

Image processing DirectX 11,结合像素着色器以防止瓶颈

我试图用GPU实现一个复杂的算法。唯一的问题是硬件限制,最大可用功能级别为9_3 该算法基本上是两幅图像的“立体匹配”算法。由于上述限制,所有计算只能在顶点/像素着色器中执行(没有可用的计算API)。顶点着色器在这里非常无用,因此我将它们视为通过顶点着色器 让我简要描述一下算法: 拍摄两张图像并计算成本体积图(基本上是将RGB转换为灰度->将右侧图像转换为D并从左侧图像中减去)。对于生成纹理3d的不同D,此步骤重复大约20次 这里的问题:我不能简单地创建一个像素着色器来计算 由于像素的大小限制,

Image processing Python图像库覆盖1000幅图像

我需要创建一个1000幅图像的叠加/合成图,所有图像的大小都相同。它们都将具有相同的透明度级别,这样,在1000幅图像中的任何一幅图像中没有图像的任何像素都将是白色的,而在1000幅图像中的每幅图像中都有图像的像素在1000幅图像的最终叠加中将是黑色的 我是这个领域的新手,一直在努力找出最好的方法。我意识到可以使用混合或粘贴(此时不确定它们之间的差异),但它们只使用两个图像作为参数。如何叠加所有1000个图像?实际上,我决定使用matplotlib和numpy制作热图,而不是创建叠加图像。您必须

Image processing 计算单位梯度向量

我有一个计算单位梯度向量的问题。我有一个公式,但我不明白。如果可能的话,你能更详细地解释这个公式吗。我必须实现一个眼睛中心定位图像。谢谢你的关注。 梯度向量计算将为您提供图像中每个像素的大小和方向。这意味着您需要分别计算沿x轴和y轴的导数。然后将它们融合以计算向量的大小和方向。如果您使用的是OpenCV或MATLAB,您将看到用于计算图像中像素的梯度大小和方向的函数。例如,对于MATLAB,请参见ImGradientAMD imgradientxy函数

Image processing 需要帮助并行化CUDA C程序中的if和else条件吗

我已经用C写了一个用于图像模糊的过滤器,它工作得很好,我正在尝试使用CUDAC在GPU上运行,以加快处理速度。该程序有一些if和else条件,如下C代码版本所示, 函数的输入是输入图像、输出图像和列的大小 void convolve_young1D(double * in, double * out, int datasize) { int i, j; /* Compute first 3 output elements */ out[0] = B*in[0

Image processing 是否有用于摄像机标定模拟实验的测试图像库?

我想验证一个关于摄像机校准的算法。但是用我自己拍的照片是没有说服力的。是否有用于相机校准模拟的标准图像库?请查看张正友的页面;在“摄像机标定的实验数据和结果”一节中,您将在此处找到五幅图像,五组图像坐标(例如这一组)和标定结果: 我不知道它是否规范,可以肯定的是,张正友以其与相机校准相关的工作和他的文章而闻名: 张正友。一种灵活的摄像机标定新技术。IEEE模式分析和机器智能学报,2000年,22.11:1330-1334 被高度引用 你也可以看看Jean-Yves Bouguet的代码,他的代码

Image processing 图像处理服务器

我正在寻找一个免费的,最好是开源的http。也就是说,我会向其发送如下请求: http://myimageserver/rotate?url=http%3A%2F%2Fstackoverflow.com%2FContent%2FImg%2Fstackoverflow-logo-250.png&angle=90 它将返回旋转后的图像。需要的功能: 服务器端缓存 若干操作/效果(如缩放、水印等)。越多越好 发布支持以提供映像(而不是服务器获取映像) 不同的输出格式(PNG、JPEG等)

Image processing 在低分辨率运动视频中,目标检测的最佳方法是什么?

我正在寻找最快、更有效的方法来检测运动视频中的物体。关于这个视频需要注意的事情:它是非常颗粒和低分辨率,而且背景和前景同时移动 注意:我试图在移动视频中检测到道路上移动的卡车 我尝试过的方法: 训练Haar级联-我尝试训练分类器通过拍摄所需对象的多张图像来识别对象。这证明会产生许多错误检测或根本没有检测(从未检测到所需的对象)。我用了大约100张正片和4000张底片 SIFT和SURF关键点-当尝试使用这两种基于特征的方法时,我发现我想要检测的对象的分辨率太低,因此没有足够的特征来匹配以进行准确

Image processing 如何将图像输入神经网络?

我知道神经网络是如何工作的,但如果我想将它们用于图像处理,比如实际的字符识别,我不知道如何将图像数据输入神经网络 我有一个非常大的字母图像。也许我应该尝试从图像中获取一些信息/规格,然后使用该规格值的向量?它们将成为神经网络的输入 谁做过这样的事,你能解释一下怎么做吗 您试图解决的问题的名称为“”。这绝对不是一件小事,也是一个积极研究的课题 实现这一点的简单方法是将图像的每个像素映射到相应的输入神经元。显然,这只适用于大小相同的图像,并且通常效果有限 除此之外,你还可以做很多事情。。。Gabor

Image processing 图像校正

我需要执行图像校正。问题是从四个角度(topL、topR、bottomL、bottomR)给出对象的图像。我需要进行成对校正。我在OpenCV中尝试了一些代码,但一直没有取得进展。有人能告诉我执行校正的好方法(源代码/教程)吗?我需要使用C/C++/OpenCV 这是一个非常广泛的问题,这里是一个大致的大纲,你可以这样做 使用cvGoodFeaturesToTrack() 将找到的功能传递到cvFindCornerSubPix()中,以获得强功能位置的更精确浮点表示 使用上一步的亚像素特征,

Image processing 使用ImageMagick、OCR和JavaScript将标签图像(EP)转换为交互式网页

业务洞察力: 我们是在教育领域,我们有一个要求,自动转换(EPS),到交互式练习 (使用HTML/SVG/JavaScript),供学生使用 技术洞察力: 分层EPS文件是我们从发布者那里得到的。EPS文件应转换为两个PNG文件:[1.PNG],其中仅包含标签文本[2.PNG],除标签文本外,其他所有内容均包含在内 然后[1.png]应该通过一些高级OCR(?)程序运行,该程序应该输出标签文本及其在图像中的位置(X,Y坐标)。然后可以使用HTML/JavaScript将标签文本覆盖在[2.png

Image processing 卡尔曼滤波:一些疑问

我有几个问题: 在openCV文档中给出的: /*生成测量值*/ cvMatMulAdd(卡尔曼->测量矩阵、状态、测量、测量) 这是正确的吗? 在教程中:由韦尔奇和毕晓普 在方程式1.2中,表示测量=H*状态+测量噪声 似乎两者并不相同 我试图实现一个球。 我尝试了以下方法:(如果我做得不对,请指出。) 对于测量,我要测量两件事:a)x b)y球的质心 我只是提到与opencv文档中给出的示例不同的行 CvKalman* kalman = cvCreateKalman( 5, 2, 0 );

Image processing gabor滤波器与gabor变换的区别

我已经阅读了所有关于gabor函数的文章,但它们并没有给我带来任何有用的东西。有人能简单地解释一下两者之间是否有区别吗 上述两种方法中的哪一种用于图像分类?Gabor变换是一种用于分析一维信号(如音频数据)的一维变换 Gabor滤波器是用于分析2d信号(如图像数据)的Gabor变换的二维推广。我将为您提供一些链接,让您清楚了解Gabor变换以及Gabor滤波器的概念 关于gabor滤波器和变换的教程 有关GABOR滤波器的更多信息 gabor滤波器可视化 Gabor小波变换及其应用 你能

Image processing Photoshop&x27;s自动调平、对比度/Picasa';她觉得很幸运

有谁知道有一个好的图书馆(免费或不免费)可以做与Photoshop的自动对比/关卡或Picasa的幸运感相当的工作 我正在尝试批量自动更正图片 我尝试了一个org.net,它很酷,但会带来一些灾难性的结果(下面的示例) 之前: 在(a)之后: 致以最诚挚的问候自动对比度改善通常通过直方图均衡化(又称直方图归一化)实现。(通常在灰度图像或HSI颜色模型的强度通道上进行) 请记住,虽然这通常是改善对比度的好方法,但并不总是有效。如果在某些图像上进行局部直方图均衡,它的性能会更好 关于主题的体面P

Image processing ImageMagick:从不同大小的瓷砖拼接图像

我正在开发一个脚本,从基于磁贴的图像托管下载图像。 我使用wget下载了tiles,并尝试使用蒙太奇来制作它们 问题是我有不同大小的瓷砖(最后一排瓷砖比其他瓷砖窄)。下面是combine命令: montage $temp/*.jpg -tile $maxcolumn"x"$maxrow -geometry -1-1 -quality 100% merged.jpg ImageMagick按网格对齐瓷砖并生成此图像(请参见右侧和底部) 如何使用蒙太奇修复此问题?通过指定“-mode Conca

Image processing 如何计算与连续图像的距离

假设我在一个位置拍摄了一张图像,在将相机移动固定距离后,我拍摄了另一张照片。有没有办法用这两张图像来确定移动的距离呢?不知道你正在观看的场景。想象一个物体。现在将对象移到离您两倍远的地方,并使其大小加倍。它看起来和你一模一样。如果现在向左移动,对象将向右移动,但移动的距离取决于移动的距离。这种效果称为视差,如果您确切知道移动了多远,它可以让您确定对象的相对深度。不幸的是,这也意味着如果不知道你所看到的东西的深度,你就无法知道你走了多远 如果可以在世界空间中定义某些点的位置,那么就可以了 不是在不

Image processing TinyMCE与图像裁剪

我正在为TinyMCE编写一个裁剪图像的插件。这段代码可以在firefox上运行,但在其他浏览器中似乎不起作用 基本上,我使用JCrop获取图像和选定区域的坐标,并将其传递给服务器端 方法进行裁剪并返回更新的宽度、高度和图像src 之后,返回结果。我更新图像尺寸和src如下 tinyMCE.activeEditor.selection.getNode().src = croppedImageSource; tinyMCE.activeEditor.selection.getNode().wid

Image processing 如何将高斯图像像素的差值归一化为负值?

在用于边缘检测的图像处理上下文中,或在我的情况下,基本SIFT实现: 当对2个高斯模糊图像进行“差分”时,你一定会得到差分为负数的像素(它们最初在0-255之间,相减时可能在-255-255之间)。“修复”这一问题的正常方法是什么?在这种情况下,我不认为取绝对值是非常正确的 有两种不同的方法,具体取决于您希望对输出执行的操作 第一种方法是将输出偏移128,以便-128到127的计算范围映射为0到255 第二种方法是钳制负值,使它们都等于零。对于第一种方法,剩余的计算范围-255到-129和128

Image processing 删除多页tif中的分页符以生成一个长页

我有一些包含多个页面的tif文件,我想将其转换为一个长页面。i、 e.包含两个页面(每个页面为8.5x11)的文件将转换为大小为8.5x22的结果文件。有没有办法删除分页符 我不是问如何将多个文件转换为单个文件。我已经解决了这个问题。下面的代码中有一大部分来自on 此C#函数获取源图像的文件名及其tiff输出的保存位置: public static void RemovePageBreaks(string fileInput, string fileOutput) {

Image processing 在图像中定位多个斑点

对于一门计算机科学课,我应该写一个程序,在这样一张图片中找到未知数量外星人的位置和大小:。我目前拥有以下代码: #include "Myro.h" #include <iostream> #include <stdlib.h> #include <stdio.h> #include "alien.h" #include <vector> using std::cout; using std::cin; using std::endl; using

Image processing 图像处理:画一条穿过骨骼轴的线

我希望有人能指点我如何解决我的问题。我有6000张X光片,需要测量骨骼之间的角度 我的策略如下:如果我可以通过bone1的长轴绘制line1,通过bone2的长轴绘制line2,那么我可以简单地测量两条线之间的角度 那么首先我怎么才能找到轴呢?可以这样做吗 (这是一张x光照片)比方说,从照片顶部开始,我们扫描那一行,寻找第一个变白的像素(骨骼的第一个边缘),这里有一个点A1,我们继续扫描,直到找到第一个变黑的像素(骨骼的第二个边缘),这是点A2,我们在Y1(A1,A2)之间画了一条线 我们做同样

Image processing 为什么opencv立体对应中的对象边界不清晰

我得到了两张几乎是平行的图片,并且彼此的位置不是很远。 我正在使用OpenCV尝试创建视差贴图(立体对应)。 因为我试图在真实场景中使用它,所以使用棋盘校准有点不切实际。 正因为如此,我使用了StereoRectified()。 我尝试比较结果,使用两组不同的对应点进行校正: 手动选择的点(点并单击) 从SURF生成并使用RANSAC过滤的点 输入图像1: 输入图像2: (请注意,在使用图像进行校正等之前,我不会对图像进行失真处理) 使用SURF和RANSAC校正图像:(按顺序为1和2

Image processing ta_Liebel_06-01-2012.jpg Alexandria_Garvey_10-20-2012.jpg NULL Madeline_Beck_01-15-2013.jpg Julia_Haney_01-16-2013.jpg NULL NULL

ta_Liebel_06-01-2012.jpg Alexandria_Garvey_10-20-2012.jpg NULL Madeline_Beck_01-15-2013.jpg Julia_Haney_01-16-2013.jpg NULL NULL并且它们都是该文件夹中的有效图像。是的,我们也采用了这种方法。它解决了我在回答中提到的部分问题,即图像文件中的头被fubar重新写入。你们的思路是对的,但除了说“是的,这是一个糟糕的图像,这是你可以告诉我的方法”之外,你们的“回答”都没有提供解

Image processing 基于像素距离的渐变

我有一个算法,可以根据到遮罩中最近像素的距离创建灰度梯度。我通过构造一个半径越来越大的圆,并根据圆的像素对遮罩中的所有像素进行采样来找到像素: for (x = 0; x < width; x++){ for (y = 0; y < height; y++) { bool pixelFound = false; for (radius = 0; radius < resolution, pixelFound == false; radius++)

Image processing 每厘米像素与图像的缩放和像素化有什么关系

我正在做一件事,管理员为图像的PPI设置一个阈值,例如35。如果上传图像的PPI大于35,则返回true或false 所以我用imageMagick找出了图像的PPI: identify -format "%x x %y" myimg.png 这给了我数字,例如,5.51像素像素,我通过5.51*2.35 这一切都很好。然而,我很好奇PPI如何与图像的缩放因子相关 问题 低分辨率(比如说,10 PPI)图像是否意味着它不能像高分辨率图像(比如,72 PPI)那样放大 嗯,我确信低分辨率可以以高

Image processing 是否可以将图像与其在视频中的外观进行匹配?

我有一个10分钟的短片。这个视频实际上是一个在线讲座。当您观看时,您将只看到幻灯片放映(有些幻灯片带有注释) 我有原始幻灯片(pdf或图像或ppt或其他)。当幻灯片出现时,是否可以将其与视频中的特定时间相匹配 我的想法是拍摄每幅图像,并将其与该视频的每一个视频帧进行比较,然后尝试匹配视频中的幻灯片图像 你觉得我的想法怎么样?使用某种算法是否可行?我是否可以用图像减去视频帧(计算差值),以查看哪个差值接近于零?谢谢如果图像完全对齐,那么您可以使用任何简单差分、平方差和或归一化互相关。但是,如果它们

Image processing 图像的2D FFT显示一些高频无效值

我在这里上传了我的2D FFT幅值图像: 如果你看一看,对于高频[右、左、上、下],只有在x轴和y轴附近,有一些点具有高功率[黄色]。这些点不应该在最终的FFT2中,因为我知道原始高度图像是各向同性的,因此2D FFT必须看起来像下面的示例(只需注意高频): 现在的问题是,在高频率下发生这种行为的可能原因是什么 增加: 以下是加窗前的幅度功率谱: 这是原始图像,它是轮廓仪记录的高度轮廓: 顺便说一下,我将数据作为.txt文件从轮廓仪软件导出到Matlab。我们用于捕获表面图像的轮廓仪使用

Image processing “什么是”呢;同季度“;直方图是什么意思?

在“自适应文档图像二值化”论文(链接:)中,我找到了SDM,用于文本/图像分割的TBM算法, 但我不明白下面这段话中的“同一季度”是什么意思 如果平均值较高,且出现全局直方图峰值 同一季度的直方图和瞬时值不同- ence是瞬态的,然后使用SDM 如果平均值为中等且为全局直方图峰值 不在直方图和transi的四分之一处- ent差异均匀后,使用TBM 我知道四分之一的意思是四分之一。但我认为那个季度是不同的意思。。是吗?在快速浏览了这篇文章之后,我找到了两种可能的解释方法 从当前箱子中,向左看1

Image processing 摄像机&x2B;透明过滤器和GPUImage

我正在尝试使用GPUImage制作一些相机滤镜,并尝试获得类似于camera+的清晰度滤镜的东西(当然不期望100%匹配,但希望达到相同的标准)。但我似乎无法达到任何接近效果的地方。从概念上看,你知道Clarity在做什么吗?包含了一个关于Instagram中Lux效应的概念性讨论,它类似于Camera+中的Clarity效应(如果我没有弄错的话)。这与Instagram中的Lux效应相同或相似,对吗?

Image processing 使用余烬上载和调整图像大小/裁剪图像

我正在为以下帖子中的图像构建上传功能: 但我想在上传到服务器之前对所选图像进行一些更改;换句话说,我希望当用户选择上传700万像素(5MB)的图像时,它的大小会调整为640x480(只有几KB)的图像(最终裁剪),然后上传 有人这样做过吗?您可以使用 将jQuery裁剪器包装到ember组件中 示例: // app/components/avatar-cropper.js import imageCropper from 'ember-cli-image-cropper/components

Image processing matlab REGIONPROPS需要I作为计算';最小强度';

我想知道如何使用matlab函数regionprops执行像素值测量,根据程序的帮助,这可以使用灰度图像作为函数的输入来完成,但是我使用了以下代码: A=imread('siluetagris.jpg'); A=rgb2gray(A); imshow(A);impixelinfo; s=regionprops(A,'MaxIntensity'); s.MaxIntensity 我总是会遇到以下错误: REGIONPROPS需要I作为 计算“最小强度” 任何帮助都将

Image processing 由于聚类和像素值被切断,难以计算单元数

编辑: 我一直在努力解决我的问题,并取得了重大进展。使用ImageJwiki上提供的一个Ashby博士的宏,并使用我自己的一些临时代码,我现在可以对Hoescht、Calcein AM和Ethidium同型二聚体染色的图像进行批处理,并获得像样的对象识别。减少曝光时间和使用的色斑水平(特别是钙黄绿素AM)有助于我之前处理的像素值截止值。尽管如此,宏在区分聚集的细胞和其他细胞方面仍然存在问题。为了解决这个问题,我想在我的宏中实现一个命令,该命令根据单元格的平均大小划分它标识为一个单元格的单元格集群

Image processing 我可以为GIMP创建一个脚本来执行许多进程吗?

我希望在将图像发送到Tesseract进行OCR之前对其进行处理 例如: 调整图像大小 将分辨率更改为300 dpi 阈值(黑白图像) 锐化图像 如何实现这一过程的自动化?我刚刚总结了一个关于graphicdesign的答案(),该答案旨在为没有编程技能的人提供GIMP自动化入门知识- 理解Python fu也应该很好 在同一个答案上,有到官方文档的链接,还有一个如何创建小脚本的示例。你应该把GIMP的PDB交给他们,让他们知道你想要的确切收益 但是,总而言之,您可以创建如下Python文件

Image processing 计算论文中学习词汇的总数[图像处理]

我在做一个DIP项目。我想用图像处理来计算每篇论文的总字数 原始图像为: 我做了一些预处理,生成了下图: 我计算每篇论文的总字数的想法是检测blob中的数字 所以请引导我。我如何计算这个图像中的单词?你的想法是什么 谢谢。使用斑点/圆圈内的数字是一个很好的问题定义。我建议您执行圆hough变换,只查找特定半径的圆,然后计算检测到的圆数。你必须计算出你的半径是多少像素,但这可能是一个很好的起点。祝你好运如果所有页面都有一个清晰的分隔,每行定义一个,那么你可以采用一种非常简单的方法来计算填充的行

Image processing 建筑造型模型

我正在尝试建立统计形状模型(我想从统计形状模型开始,然后我将尝试建立活动形状模型和活动外观模型) 所以我实现了两个类,第一个用于广义Procrustes Analysis(),第二个用于主成分分析() 我有一个可以建立形状模型的函数,但我不能使用它,因为它很难理解。该函数也使用GPA和PCA,但返回不同的结果。 所以我的问题是: 为什么结果不同(假设我的代码给出的结果与示例中的结果相同) 我如何连接这两个类(如果我可以这么说的话),以及我还需要做什么来构建形状模型 任何帮助都是有用的!谢谢 嘿,

Image processing 从DLT参数检索相机方向

我目前有12个DLT参数将3D点映射到2D像素,投影/转换效果很好 现在,我可以使用公式[25]从参数中检索相机位置。但是,我找不到公式来推导相机的实际方向 我可以计算主点(在2D像素空间中,使用相同的网站)。我想我需要将其转换为3D对象空间,以获得相机的凝视方向。也可以使用图像平面的法线,但我也不知道如何计算。当然(希望)有一个更简单的解决方案,任何帮助都将不胜感激 由于12个DLT参数基本上包括摄像机矩阵,因此应该是可能的

Image processing 如何剥离EXIF,但“除外”;“采取的日期”;使用Imagemagick?

我想通过剥离EXIF元数据来减小图像大小(convert-strip…),但问题是我想保留“拍摄日期”条目。可能吗?例如:convert-quality 80-strip除了“date take”source.jpg dest.jpg这取决于将“date take”保存在正常图像查看程序可以解析的正确位置的重要性。如果您只想将原始日期/时间保存在文件的某处/任何地方,可以将其提取并保存在“注释”字段中,如下所示: # Use ImageMagick to get the exif:DateTim

Image processing 基于内容的图像检索特征

我正在尝试在我的应用程序中实现基于内容的图像检索。我找到了一个看起来不错的里尔图书馆 我需要分析我的图像收集类似(从人类的角度)的图像。在我的目录中,我有大量完全不同的未分类/非结构化图像 为了分析图像,LIRE包含以下算法列表: CEDD, AutoColorCorrelogram, BinaryPatternsPyramid, ColorLayout, EdgeHistogram, FCTH,

Image processing 我们如何通过索引来区分这些模式?

Q1:列出索引以确定模式是均匀分布还是聚集 问题2:给定您的索引,如果我只有一个分析模式,如何确定它是否是聚集的?(即,是否存在比较阈值) 问题3:如何区分(2)和(3),即有多少簇?它们有多紧凑 PS:我只是在2D中展示了这个案例,但是这个索引应该也适用于更高维度的案例。很酷-这是哪个考试?这是一个来自我研究的问题。。。

Image processing 计算透视图像中两点之间的距离

我想验证透视图像中两点C和D(CD)之间的距离 这张照片是在我的客厅里拍的。每个瓷砖的尺寸为0.6x0.6(以米为单位) 真实世界测量: 点A和点D之间的距离(AD)=1.8米。 点A和点B之间的距离(AB)=0.6米 图像平面坐标: A'=(232,613) B'=(221341) C'=(215189) D'=(210,98) 我使用交叉比率来计算CD R{A',B',C',D'}=1.316 及 R{A,B,C,D}=(AC*BD)/(AD*BC) 经计算,CD为0.584m(而非0.

Image processing 基于云视觉api的图像检测表

我准备了一些解决方案来检测图像的文本,现在我得到了文本、符号和语言属性的边界框 是否有任何方法可以使用Google Vision API获取文档的表结构?据我所知,使用Vision API提取文本有两个功能:文档文本检测和文本检测,如中所述。这两种特征都响应于提取的文本、语言和文本的边界多边形。因此,您无法直接从这两个特性获得表结构。但是,考虑到Vision API可以识别空格和换行符,并且您拥有每个单词的边界多边形,或许您可以进行一些变通。这个问题应该通过参考Google Vision API

Image processing 神经网络模拟行为的研究

我的问题是关于专门模拟噪声的神经网络。这个想法是要有一个干净的图像和一个模仿噪音的神经网络(类型不重要)。像柏林噪声或相机上的噪声,来自照片闪电或黑白图像上的椒盐噪声等。我想知道的是,如果有人尝试过类似的东西,是否有关于类似的研究发表。噪声专门用于图像和2D矩阵。为什么您希望神经网络生成具有特定分布的随机噪声,并且有成熟的技术?这听起来适得其反。原因很难解释,但我需要的噪音无法用常规技术重现。例如,下雨时激光雷达深度图上的噪声行为。雨是棘手的,它会造成各种各样的扭曲和影响。所以我的想法是用cnn

Image processing 不同图像大小的迁移学习(VGG、ResNet)

我希望使用迁移学习来处理图像,我的图像有不同的大小。 我认为一般来说,卷积层可以接受可变的输入大小,但完全连接的层只能接受特定大小的输入。 然而,VGG-16或ResNet50的Keras实现可以采用大于32x32的任何图像大小,尽管它们具有完全连接的层。我想知道如何为不同的图像尺寸获得固定的完全连接层大小 非常感谢 您所说的是误导性的,您可以使用任何大于32x32的输入图像大小构建VGG/ResNet Keras模型,但一旦构建了模型,您就无法更改输入大小,这通常就是问题所在。因此,模型无法真

Image processing Google Cloud Vision API可以标记人脸吗?

我目前正在为一个项目使用GoogleCloudVisionAPI。我想给一张脸分配一个唯一的ID,这样它就能自动检测出任何图像包含的ID。这样我就可以知道图像中是哪个人 cloud vision能否区分人脸并为人脸返回一些唯一的ID?vision API服务提供了一项功能,可用于检测图像中的多张人脸以及相关的关键人脸属性,如情绪状态或佩戴头饰。在此基础上,可以得到人脸周围的边界多边形、地标、滚动角度、检测置信度等;但是,需要注意的是,此功能不支持面部识别,这意味着它不能用于检索检测到的面部的唯一

Image processing 如何为视网膜网训练准备图像和注释?

我遵循这一点在coco数据集上训练对象检测模型。本教程包含下载和使用及其注释并将其转换为TFRecord的步骤 我需要使用自己的自定义数据来进行训练,我使用工具进行了注释,该工具生成了包含(w,h,xmin,ymin,xmax,ymax)图像的xml文件 但是,coco数据集具有JSON格式和图像分割字段,用于创建TFRecord 训练resnet、retinanet是否必须进行分段 那么,有谁能告诉我一个从XML注释中创建JSON注释的过程,而不使用分段值 xml: <annotatio

Image processing 如何检测图像中的盐和胡椒点?

我已经在一个项目上工作了几个星期,以检测机器产生的缺点,但找不到任何好的解决方案。不知道你们能不能给我一些线索 损坏的图像显示如下。坏点是非常亮或暗的点。这些要点具有以下特点: 相对较大或较小的强度 它们大多是一个或两个像素加在一起 我所尝试的: 我把它们当作哈里斯·康纳,用更大的梯度来检测它们。但是,边缘中的某些点也具有较大的渐变。另外,梯度阈值不易确定。较小的阈值引入假阳性,较大的阈值引入假阴性 由于坏点相对于其局部区域具有更大或更小的强度,因此我计算除中心点之外的平均强度,并将其与中心点

Image processing Keras,图像配准,全卷积网络

我正在做图像注册,基本上是计算一个60x60的图像在一个更大的74x74图像上的位置。图像是不同的模式——一种是视觉模式,另一种是红外模式——因此简单的匹配(openCV-matchTemplate)或其他技术(如互信息)不起作用。所以我正在尝试一个完全卷积的暹罗网络。(末尾有两个引用-但都不带源。) 我希望网络的暹罗部分在结构/重量方面是相同的,以便识别的特征具有可比性。我的挑战是“完全卷积”部分。从最新的论文“得益于完全卷积结构,我们能够为左右分支提供不同大小的输入图像块。” 问题-一个完全

Image processing 培训和测试精度避免了过度拟合,验证精度为98%,但分类报告始终为0.01%?

我用CNN做了水果检测图像分类问题我做了所有的事情,直到训练和拟合模型,我的准确率和验证准确率几乎是100%,但当我试图从模型打印分类报告和混淆矩阵时,它总是显示精度,召回率和最终准确率始终为0.01%,混淆矩阵也很奇怪。为什么会这样?请帮帮我。代码可在代码部分找到。多谢各位 测试数据正在被洗牌,这就是为什么分类报告的准确性较低。 使用 对于预测时的测试集,这样,您就可以保持预测的顺序,然后将其与正确的基本真值进行比较。add shuffle=False,并尝试告诉您venkata krishn

Image processing 如何扭曲一系列图像-处理

我试图扭曲鼠标单击时随机显示的图像网格 我有网格和随机点击 当我只有一个图像时,我已经完成了我想要的失真 现在我必须将这两个代码合并在一起,但是我不知道当PImage是一个数组时怎么做 网格代码: PImage img[]; int nPics; int w, h; void loadImages(){ for (int i = 0; i < nPics; i++) { img[i] = loadImage("img_"+ nf(int(random(0

上一页 1 2 ...  7   8   9   10    11   12   13  ... 下一页 最后一页 共 107 页