Neural network 基于环境的目标检测_Neural Network_Deep Learning_Computer Vision_Conv Neural Network_Object Detection

Neural network 基于环境的目标检测

neural-network deep-learning computer-vision

Neural network 基于环境的目标检测,neural-network,deep-learning,computer-vision,conv-neural-network,object-detection,Neural Network,Deep Learning,Computer Vision,Conv Neural Network,Object Detection,我想问一个关于基于DNN的对象检测算法的一般性问题，比如Yolo、SSD或R-CNN 假设我想在小图像上检测手机，因此，移动设备本身是超小的，而且，仅仅通过查看它们出现的像素几乎不可能检测到它们。例如，看一张300x300的图片，手机显示在7x5的网格上，因此只有看7x5的图片，没有人能够确定在那里可以看到什么另一方面，如果我们在照片上看到一辆地铁，一个人手里拿着黑色的东西，我们（人类）几乎可以肯定，黑色的小7x5网格代表移动设备我的理解正确吗？当前最先进的DNN算法不能像人类那样捕捉环境

我想问一个关于基于DNN的对象检测算法的一般性问题，比如Yolo、SSD或R-CNN

假设我想在小图像上检测手机，因此，移动设备本身是超小的，而且，仅仅通过查看它们出现的像素几乎不可能检测到它们。例如，看一张300x300的图片，手机显示在7x5的网格上，因此只有看7x5的图片，没有人能够确定在那里可以看到什么

另一方面，如果我们在照片上看到一辆地铁，一个人手里拿着黑色的东西，我们（人类）几乎可以肯定，黑色的小7x5网格代表移动设备

我的理解正确吗？当前最先进的DNN算法不能像人类那样捕捉环境，但它们只能通过图像上的物理外观来检测对象？如果不是，你能建议一种算法，它不一定只在黑色像素组上学习，但能够捕捉到一个人手里拿着一个可能是手机的黑色物体吗

谢谢。

我的背景不是物体检测。研究中存在这样的背景信息。这是一条尚未解决的管道。这里有一些应用于实例分割和文本标题的示例

因此，我假设在提供上下文信息的对象检测方面有研究

无论如何，SSD使用了一种金字塔结构，其中有编码的上下文信息，这可能与跟踪算法松散相关。通常，您会使用LSTM或其他算法结合CNN来预测时间序列图像中的人类行为

我不明白为什么你不能用手机的目标标签和没有手机的目标标签来设置数据集，以便CNN预测类别标签。R-CNN或YLO不会像这样开箱即用，因此您需要定制适合此应用程序的算法和训练集

理解人类行为是目前深度学习的一个重要而活跃的研究课题。预测这样一项任务的行为在公共库中可能没有广泛分布，因为这些任务可能是领域特定的任务，而且研究是新的，但这并不意味着这是不可能的

这是一篇关于此主题的调查论文，可能与您的问题有关：。你可能还想看看正在进行的关于目标跟踪的研究，因为这是一个类似的概念（但涵盖的范围比仅仅检测某人持有的东西更广）