是否有Python包来实现在线资源的惰性数据加载?

是否有Python包来实现在线资源的惰性数据加载?,python,data-management,Python,Data Management,考虑以下用例。我提供了一个作为独立应用程序工作的Python包。应用程序可以加载不同的或多或少的lass数据集(假设可能为5到500mb),并对数据进行一些处理/分析。应用程序代码是公开托管的,但我不能在那里提供和托管数据,因为我不是数据的所有者。这些数据存在于许多不同的公共存储库中,可以从那里收集。此外,这有助于限制应用程序的大小,而不会使其与潜在的不必要数据混杂在一起(因为不同的用户可能希望使用非常不同的数据集) 为了实现这一点,我必须提供用户说明,如“如果要使用此数据集,请转到,下载文件并

考虑以下用例。我提供了一个作为独立应用程序工作的Python包。应用程序可以加载不同的或多或少的lass数据集(假设可能为5到500mb),并对数据进行一些处理/分析。应用程序代码是公开托管的,但我不能在那里提供和托管数据,因为我不是数据的所有者。这些数据存在于许多不同的公共存储库中,可以从那里收集。此外,这有助于限制应用程序的大小,而不会使其与潜在的不必要数据混杂在一起(因为不同的用户可能希望使用非常不同的数据集)

为了实现这一点,我必须提供用户说明,如“如果要使用此数据集,请转到,下载文件并将其放入./data”。我想把那个可怕的程序从用户身上去掉。因此,我正在寻找一个包,可以帮助确切地说。内部工作流程如下所示:

  • 开发人员定义项目资源
  • 用户选择执行时应该加载的特定资源(这也只是通过资源应该位于的相对路径完成的,例如“a.wav”)
  • 包验证资源在用户本地系统上是否可用
  • 如果不可用,包将从联机源(由开发人员指定)下载资源

我认为这对很多人来说是一个非常普遍的问题。因此,我希望能够轻松找到帮助我实现此类功能的软件包。但我并不是真的不成功。我是否缺少合适的搜索术语(延迟加载似乎通常用于本地数据访问或动态包导入)

我发现它实现了这种功能,但AFAIK的方式对我来说非常不合适(在托管的AWS实例上提供您自己)

我还发现,这正是我所需要的,但AFAIK仅来自预定义的数据存储库(由他们提供),而不是任意URL