Azure Blob存储的文件计数限制

Azure Blob存储的文件计数限制,azure,azure-storage-blobs,Azure,Azure Storage Blobs,目前,我有一大组文本文件,其中包含来自各种传感器的(历史)原始数据。每天都会接收和处理新文件。我想把它从本地解决方案转移到云上 Azure的Blob存储是否是这一卷小(ish)私人文件的合适机制?还是我应该寻求另一个Azure解决方案 相关数据(无双关语)和要求- 该数据集包含数百万个文件,其中大部分是小文件,总容量接近400gb。平均文件大小约为50kb,但有些文件可能超过40mb 为了子孙后代,我需要维护现有的数据集 新文件将每天上传,然后处理一次。处理将由后台工作人员从队列中读取文件来处

目前,我有一大组文本文件,其中包含来自各种传感器的(历史)原始数据。每天都会接收和处理新文件。我想把它从本地解决方案转移到云上

Azure的Blob存储是否是这一卷小(ish)私人文件的合适机制?还是我应该寻求另一个Azure解决方案

相关数据(无双关语)和要求-

  • 该数据集包含数百万个文件,其中大部分是小文件,总容量接近400gb。平均文件大小约为50kb,但有些文件可能超过40mb

  • 为了子孙后代,我需要维护现有的数据集

  • 新文件将每天上传,然后处理一次。处理将由后台工作人员从队列中读取文件来处理
  • 某些文件将在初始处理后下载/审查/重新处理

    • 让我详细阐述一下戴维的评论

      正如David提到的,您可以在Azure Blob存储中存储的对象(文件)数量没有限制。限制是存储帐户的大小,当前为500TB。只要你保持在这个极限,你就会很好。此外,您可以在Azure订阅中拥有100个存储帐户,因此您可以存储的数据量实际上是无限的

      不过我想再提一件事。上传到blob存储中的文件似乎经过了一次处理,然后进行了某种程度的归档。对于这一点,我建议你看看。它本质上仅用于存储不经常访问的对象,而当您需要这些对象时,它们几乎可以立即访问。使用冷Blob存储的优点是,与热Blob存储帐户相比,写入和存储成本更低,但读取成本更高(考虑到它们的预期用途,这是有道理的)


      因此,一个可能的解决方案是将文件保存在热Blob存储帐户中。一旦文件被处理,它们就会被移动到冷Blob存储中。这个很酷的Blob存储帐户可以在相同或不同的Azure订阅中。

      让我详细介绍一下David的评论

      正如David提到的,您可以在Azure Blob存储中存储的对象(文件)数量没有限制。限制是存储帐户的大小,当前为500TB。只要你保持在这个极限,你就会很好。此外,您可以在Azure订阅中拥有100个存储帐户,因此您可以存储的数据量实际上是无限的

      不过我想再提一件事。上传到blob存储中的文件似乎经过了一次处理,然后进行了某种程度的归档。对于这一点,我建议你看看。它本质上仅用于存储不经常访问的对象,而当您需要这些对象时,它们几乎可以立即访问。使用冷Blob存储的优点是,与热Blob存储帐户相比,写入和存储成本更低,但读取成本更高(考虑到它们的预期用途,这是有道理的)

      因此,一个可能的解决方案是将文件保存在热Blob存储帐户中。一旦文件被处理,它们就会被移动到冷Blob存储中。此酷炫Blob存储帐户可以位于相同或不同的Azure订阅中

      我猜它可以用作文件系统,是完成这项工作的最佳工具

      是的,Azure Blobs存储可以用作云文件系统

      该数据集包含数百万个文件,其中大部分是小文件,总容量接近400gb。平均文件大小约为50kb,但有些文件可能超过40mb

      正如David和Gaurav Mantri提到的,Azure Blob存储可以满足这一要求

      为了子孙后代,我需要维护现有的数据集

      Azure Blob存储中的数据是持久的。你可以参考这本书

      新文件将每天上传,然后处理一次。处理将由后台工作人员从队列中读取文件来处理

      您可以使用Azure函数来完成文件处理工作。因为它每天只运行一次,所以可以添加TimerTrigger函数

      //This function will be executed once a day
      public static void TimerJob([TimerTrigger("0 0 0 * * *")] TimerInfo timerInfo)
      {
          //write the processing job here
      }
      
      某些文件将在初始处理后下载/审查/重新处理

      blob可以随时下载或更新

      此外,如果数据处理工作非常复杂,还可以将数据存储在Azure data Lake store中,并使用Hadoop分析框架(如MapReduce或Hive)执行数据处理工作。可以配置Microsoft Azure HDInsight群集,以便直接访问存储在data Lake Store中的数据

      以下是Azure Data Lake存储和Azure Blob存储之间的区别

      我猜它可以用作文件系统,是完成这项工作的最佳工具

      是的,Azure Blobs存储可以用作云文件系统

      该数据集包含数百万个文件,其中大部分是小文件,总容量接近400gb。平均文件大小约为50kb,但有些文件可能超过40mb

      正如David和Gaurav Mantri提到的,Azure Blob存储可以满足这一要求

      为了子孙后代,我需要维护现有的数据集

      Azure Blob存储中的数据是持久的。你可以参考这本书

      新文件将每天上传,然后处理一次。处理将由后台工作人员从队列中读取文件来处理

      您可以使用Azure函数来完成文件处理工作。因为它每天只运行一次,所以可以添加TimerTrigger函数

      //This function will be executed once a day
      public static void TimerJob([TimerTrigger("0 0 0 * * *")] TimerInfo timerInfo)
      {
          //write the processing job here
      }
      
      某些文件将在初始处理后下载/审查/重新处理

      blob可以下载或更新