Computer vision 从单个图像估计相机高度、方向和视野
我希望有人能给我指出正确的方向(或者让我知道我是否走在正确的道路上) 我正在尝试构建一个图像编辑应用程序,它使用计算机视觉来辅助虚拟对象插入-基本上是AR,但受单个单眼图像(未校准)的约束 虚拟对象插入将仅发生在地平面上(例如,想象地板上的虚拟地毯)。因此(与AR非常相似),我需要将虚拟摄影机与物理摄影机对齐,并将渲染的虚拟场景与物理图像合成 我已经成功地训练了语义分割深度CNN来预测室内场景的地板(用作遮罩,因此虚拟对象(如地毯)仅在该区域可见),但我在确定相机属性时遇到了困难 我的直觉是,为了构建可以合成的虚拟场景,我关心的相机校准属性是相机的高度、俯仰、滚动和视野(或焦距)。现在,因为这只是为了渲染目的,所以估计值不需要非常精确,只要足够接近,渲染对象看起来就不会扭曲 在研究了我在这篇论文中遇到的问题之后,它似乎为上面列出的所有校准特性提供了一个估计值。尽管如此,由于没有可用的培训代码,这可能会花费相当长的时间来完成一些可能有效或可能无效的事情——尽管我愿意调查这是否是唯一的选择Computer vision 从单个图像估计相机高度、方向和视野,computer-vision,camera-calibration,Computer Vision,Camera Calibration,我希望有人能给我指出正确的方向(或者让我知道我是否走在正确的道路上) 我正在尝试构建一个图像编辑应用程序,它使用计算机视觉来辅助虚拟对象插入-基本上是AR,但受单个单眼图像(未校准)的约束 虚拟对象插入将仅发生在地平面上(例如,想象地板上的虚拟地毯)。因此(与AR非常相似),我需要将虚拟摄影机与物理摄影机对齐,并将渲染的虚拟场景与物理图像合成 我已经成功地训练了语义分割深度CNN来预测室内场景的地板(用作遮罩,因此虚拟对象(如地毯)仅在该区域可见),但我在确定相机属性时遇到了困难 我的直觉是,为
我是否错过了一个明显的方法?我读过一些关于更传统的CV方法(如消失点)和一些更现代的方法(如垂直网)的文章,但它们通常缺少上面列出的一个必要的相机校准值。您可以通过根据校准来获得相机参数。你试过吗?呃,“更现代”。。。发布于1998年IIRC,部分基于UCB的Paul Devevec早些时候所做的工作。两者都表明,在单个图像上插入逼真的CG是可行的,用户输入非常少/容易 软件通过让用户用鼠标跟踪与视图中的结构(如建筑物、塔楼)相匹配的几个盒子或圆柱体来校准相机的焦距和姿势。只要稍加练习,就只需要一两个盒子就可以得到一个好的解决方案