File 图像注释:最好为每个图像创建一个文件,还是为整个数据集创建一个大文件?
我正在开发一个应用程序,为图像数据集中的每个图像提取一些信息,并存储这些数据以备将来使用。我的问题是如何正确地存储这些数据。为数据集中的每个图像创建一个注释文件(我使用JSON文件)还是创建一个包含所有提取数据的大型唯一文件更好 我所提取的信息在不同的图像中是相似的,但并不相同。图像数据集可以是巨大的,超过一百万张图像File 图像注释:最好为每个图像创建一个文件,还是为整个数据集创建一个大文件?,file,architecture,software-design,File,Architecture,Software Design,我正在开发一个应用程序,为图像数据集中的每个图像提取一些信息,并存储这些数据以备将来使用。我的问题是如何正确地存储这些数据。为数据集中的每个图像创建一个注释文件(我使用JSON文件)还是创建一个包含所有提取数据的大型唯一文件更好 我所提取的信息在不同的图像中是相似的,但并不相同。图像数据集可以是巨大的,超过一百万张图像 如果相关的话,我在Linux或MacOS上使用Python。我会在每个数据集中使用单个文档(文件或NoSQL数据库) 如果图像>100万,则每个图像的单个文件将意味着>100万个
如果相关的话,我在Linux或MacOS上使用Python。我会在每个数据集中使用单个文档(文件或NoSQL数据库) 如果图像>100万,则每个图像的单个文件将意味着>100万个文件/文档 这不是一件容易管理或操纵的事情 单个文件/文档更易于管理和搜索
我也会考虑使用NoSQL数据库来存储JSON文档。
编辑: 在考虑了这些评论之后,我不得不说,您可能需要在一定的数据量上切断一个JSON文件,从而导致每个数据集只有几个文件 至于文件损坏,这是一个风险,您运行在任何存储,甚至数据库文件,这就是为什么我们有备份和副本您始终可以在本地运行NoSQL数据库,但这同样需要一些计算资源 处理巨大的文本文件(>1GB)是否有任何副作用?在最坏的情况下,如果文件以某种方式损坏会发生什么?不,只要您有足够的RAM和处理能力。如果它已损坏,您将不得不编写手动程序或手动更正JSON文件。但是,如果您确实使用NoSQL文档存储,那么您有无数的备份/复制选项,因此这类事情不会成为问题。还可以选择将单个JSON文档限制为100000个左右的结果。这意味着每个数据集有多个文件,这比每个图像有一个文件更容易管理。我发现另一个与JSON文件相关的问题,如果我想更新/附加一些新数据到我的文件中,我必须重写整个文件。除非我以非标准方式使用JSON。数据库在这里肯定很有用,但我想创建一个独立的应用程序。你认为你的程序将运行在哪种机器上?