是否有Python包来实现在线资源的惰性数据加载？_Python_Data Management

是否有Python包来实现在线资源的惰性数据加载？

python

是否有Python包来实现在线资源的惰性数据加载？,python,data-management,Python,Data Management,考虑以下用例。我提供了一个作为独立应用程序工作的Python包。应用程序可以加载不同的或多或少的lass数据集（假设可能为5到500mb），并对数据进行一些处理/分析。应用程序代码是公开托管的，但我不能在那里提供和托管数据，因为我不是数据的所有者。这些数据存在于许多不同的公共存储库中，可以从那里收集。此外，这有助于限制应用程序的大小，而不会使其与潜在的不必要数据混杂在一起（因为不同的用户可能希望使用非常不同的数据集）为了实现这一点，我必须提供用户说明，如“如果要使用此数据集，请转到，下载文件并

考虑以下用例。我提供了一个作为独立应用程序工作的Python包。应用程序可以加载不同的或多或少的lass数据集（假设可能为5到500mb），并对数据进行一些处理/分析。应用程序代码是公开托管的，但我不能在那里提供和托管数据，因为我不是数据的所有者。这些数据存在于许多不同的公共存储库中，可以从那里收集。此外，这有助于限制应用程序的大小，而不会使其与潜在的不必要数据混杂在一起（因为不同的用户可能希望使用非常不同的数据集）

为了实现这一点，我必须提供用户说明，如“如果要使用此数据集，请转到，下载文件并将其放入./data”。我想把那个可怕的程序从用户身上去掉。因此，我正在寻找一个包，可以帮助确切地说。内部工作流程如下所示：

开发人员定义项目资源
用户选择执行时应该加载的特定资源（这也只是通过资源应该位于的相对路径完成的，例如“a.wav”）
包验证资源在用户本地系统上是否可用
如果不可用，包将从联机源（由开发人员指定）下载资源

我认为这对很多人来说是一个非常普遍的问题。因此，我希望能够轻松找到帮助我实现此类功能的软件包。但我并不是真的不成功。我是否缺少合适的搜索术语（延迟加载似乎通常用于本地数据访问或动态包导入）

我发现它实现了这种功能，但AFAIK的方式对我来说非常不合适（在托管的AWS实例上提供您自己）

我还发现，这正是我所需要的，但AFAIK仅来自预定义的数据存储库（由他们提供），而不是任意URL