从哪里开始研究视频识别 在中途的某个时候,我想开始发展我的家庭自动化系统以拥有视频功能。我已经开始做一些这方面的研究,我很有耐心,学习速度也很快,但这是一个非常密集的领域,在数学上比我习惯的要激烈得多。我从来没有以编程的方式处理过视频,虽然我读过OpenCV的文档和一些非常激烈的东西,比如研究论文,但令人沮丧的是,对我来说,大量的视频是胡言乱语。我有多变量微积分和线性代数的背景,但那是很久以前的事了。现在我几乎所有的编程都是用Java编写的,C语言的使用量也在不断增加。我还修了一门机器学习的课程,我认为这对物体分类有帮助

从哪里开始研究视频识别 在中途的某个时候,我想开始发展我的家庭自动化系统以拥有视频功能。我已经开始做一些这方面的研究,我很有耐心,学习速度也很快,但这是一个非常密集的领域,在数学上比我习惯的要激烈得多。我从来没有以编程的方式处理过视频,虽然我读过OpenCV的文档和一些非常激烈的东西,比如研究论文,但令人沮丧的是,对我来说,大量的视频是胡言乱语。我有多变量微积分和线性代数的背景,但那是很久以前的事了。现在我几乎所有的编程都是用Java编写的,C语言的使用量也在不断增加。我还修了一门机器学习的课程,我认为这对物体分类有帮助,opencv,Opencv,这里的地面高度是多少?我需要学习什么样的数学,我应该写什么样的Hello World应用程序,我需要什么样的相机?这类工作的语言选择是什么?目前的技术水平究竟有什么可能和不可能 目标: 以下是我希望有朝一日能通过这一点完成的一些事情: 首先,我希望在大多数情况下保留一个简短的“缓冲区”历史记录,并在识别某些功能或系统的其他部分引发某些事件时开始记录到本地网络位置 我想模拟Dropcam,用户可以在固定摄影机的视点中定义重要区域,并指定自定义事件以与这些区域中的运动相关联 我希望能够识别人脸,并与

这里的地面高度是多少?我需要学习什么样的数学,我应该写什么样的Hello World应用程序,我需要什么样的相机?这类工作的语言选择是什么?目前的技术水平究竟有什么可能和不可能

目标: 以下是我希望有朝一日能通过这一点完成的一些事情:

首先,我希望在大多数情况下保留一个简短的“缓冲区”历史记录,并在识别某些功能或系统的其他部分引发某些事件时开始记录到本地网络位置

我想模拟Dropcam,用户可以在固定摄影机的视点中定义重要区域,并指定自定义事件以与这些区域中的运动相关联

我希望能够识别人脸,并与一个小的已知训练示例数据库进行比较,以便与房间内的其他占用传感器一起实时建立

我希望能够使用多个摄像头根据提供的平面图实时跟踪对象的位置


我一直在玩各种微控制器,我想在视频传送到我的中央服务器之前,尽可能多地在摄像机前进行预处理,以便尽可能多地并行化事情。

以下是我的拙见

作为背景知识,熟悉计算机视觉领域可能会有帮助(因为你所做的属于它的经典领域)。有用的数学背景包括信号处理(即傅里叶变换理论),通常用于机器人识别和图像处理,“数学规划”(凸优化、线性/整数规划等),以及一些概率论/随机过程和矩阵演算(特别是如果你想用卡尔曼滤波器或粒子滤波器进行跟踪的话)。但是,如果你只是打算使用像OpenCV这样的工具,了解所有这些背景是不必要的

如需了解相关文献,请访问谷歌学者并键入“运动跟踪”或“视频识别”

诚然,对于实时性,我不认为C++有很多竞争。你已经看过OpenCV了,但是看看Boost。Matlab还有一些快速而惊人的工具箱,但是灵活性明显降低。而且价格昂贵。我也听说过最新的Mathematica,用于计算机视觉,但是这和Matlab有类似的问题。


然而,由于您刚刚开始这一领域,我的建议是从Python开始。numpy、scipy、scikit学习组合非常棒,而且它有opencv绑定。另外,请查看PyStruct以进行结构化学习,这对于这类学习非常好,而Theano以进行深入学习。这些工具速度很慢,但对我们来说却非常简单e、 非常适合制作原型。

由于您想做的大多数事情都属于计算机视觉,因此最好学习最先进的技术。到目前为止,这是一种深度学习(使用sota可以实现视频活动识别、目标检测和跟踪等)

对于数学背景的深入学习,你需要线性代数、概率统计、多元微积分和一些优化技术。你可以开始阅读。它假设你的背景最少

在编程方面,了解python就足够了


有关计算机视觉深度学习资源的策划列表,请查看。其中还包含有关视频分析的信息。

另一个更简单的问题:是否有人有过Nest API的使用经验?购买DropCam并通过我的系统发送这些资源可以替代多少?功能示例“当某些特征被识别时”?“跟踪对象的位置”什么类型的对象?我想最简单的部分将是人脸识别部分,因为有解决方案,但从未测试过,所以不能保证。可能每个任务都需要不同的摄像头。实现“活动检测”的最简单方法“是背景减法。对于光照条件自然变化的区域,这种方法通常会失败。光流、视频稳定、人体动作识别