Python 物体识别与CNN，什么是最好的方式来训练我的模型：照片或视频？_Python_Tensorflow_Deep Learning

Python 物体识别与CNN，什么是最好的方式来训练我的模型：照片或视频？

python tensorflow deep-learning

Python 物体识别与CNN，什么是最好的方式来训练我的模型：照片或视频？,python,tensorflow,deep-learning,Python,Tensorflow,Deep Learning,我的目标是设计一个能够识别某种类型的对象（比如说，一本书）的应用程序，并且可以判断输入是否是一本书（二进制分类）为了获得更好的用户体验，我希望输入是视频而不是图片：这样，用户就不必处理锐度、对象居中等问题。。。他只需对物体进行一次“扫描”，而不必考虑单个图像的质量我的问题来了：因为我打算从头开始创建我的训练数据集（我想要检测的真实对象在现有的数据集（如ImageNet）中不存在）我想知道视频是否与这种类型的二元分类无关，我是否应该让用户好好拍一张对象的照片一方面，视频比仅从照片创建的数据

我的目标是设计一个能够识别某种类型的对象（比如说，一本书）的应用程序，并且可以判断输入是否是一本书（二进制分类）

为了获得更好的用户体验，我希望输入是视频而不是图片：这样，用户就不必处理锐度、对象居中等问题。。。他只需对物体进行一次“扫描”，而不必考虑单个图像的质量

我的问题来了：因为我打算从头开始创建我的训练数据集（我想要检测的真实对象在现有的数据集（如ImageNet）中不存在）

我想知道视频是否与这种类型的二元分类无关，我是否应该让用户好好拍一张对象的照片

一方面，视频比仅从照片创建的数据集具有更大的优势（尽管我可以通过数据扩充扩展图片的数据集），因为拍摄对象的10s视频比拍摄对象的10x24（或多或少…）图片更容易

但另一方面，我担心结果会不那么精确，因为在一个视频中，许多帧是多余的，平均质量可能不如一个单一的、正确的图像

此外，我不打算使用视频的时间属性（因为在扫描中，时间性是无用的），而是一次处理一帧（如中所述）

构建我的数据集的正确方法是什么？因为我真的希望为了用户的舒适而保留此“扫描”，并且如果在这种分类中图像比视频更精确是否最终可以从“扫描”中自动提取单个图像，并且直接在上面工作？

好问题！答案是：你应该训练你的模型如何使用它。因此，如果您要求用户拍照，请对其进行照片培训。如果您要求用户拍摄对象，请在从视频中提取的帧上进行训练

这些图像对你来说可能看起来很模糊，但它们不会用于计算机。它只需要学会检测“模糊的书”，但没关系，这就是你想要的

当然，情况并非总是如此。图像可能变得如此模糊，以至于帧中是否有书的信息不再存在。线路在哪里？一般的经验法则是：如果你能看到它是一本书，电脑也会看到它。因为我认为模糊的书籍图像仍然可以被识别为书籍，我认为你完全可以做到

从“扫描（更模糊，来自视频的帧）”创建“照片（单幅图像，清晰）”是可以做到的，它被称为超分辨率。但这些型号相当结实，不是你想在移动设备上运行的

一个完全无关的提示：试试谷歌迁移学习！这肯定会让你受益：D