Python 缓存结果的管道

Python 缓存结果的管道,python,python-3.x,pandas,scikit-learn,feature-extraction,Python,Python 3.x,Pandas,Scikit Learn,Feature Extraction,我用熊猫做机器学习的特征提取。 我希望能做到以下几点:考虑我有五个数据处理步骤,顺序执行,我执行一次,结果将被自动保存。下次,如果我更改第四步,库将自动从第三步开始。Pandas或sklearn.pipeline.pipeline或其他数据处理库自然会支持此缓存功能,而不需要显式保存它们吗?具有Dagster中似乎缺少的一些不错的功能(当前git提交的记录、ML度量等)它们还很好地与集成在一起,从而可以轻松部署集群。然而,他们确实缺乏建造复杂管道的能力,而Dagster在这方面做得很出色 有没有

我用熊猫做机器学习的特征提取。 我希望能做到以下几点:考虑我有五个数据处理步骤,顺序执行,我执行一次,结果将被自动保存。下次,如果我更改第四步,库将自动从第三步开始。Pandas或sklearn.pipeline.pipeline或其他数据处理库自然会支持此缓存功能,而不需要显式保存它们吗?

具有Dagster中似乎缺少的一些不错的功能(当前git提交的记录、ML度量等)它们还很好地与集成在一起,从而可以轻松部署集群。然而,他们确实缺乏建造复杂管道的能力,而Dagster在这方面做得很出色

有没有一种方法可以获得“世界上最好的”?也就是说,将Dagster与MLFlow集成,并使其在Databricks上运行

或者有好的替代方案吗?

有一些Dagster中似乎缺少的好特性(当前git提交的记录、ML度量等),它们还与Dagster很好地集成,允许轻松部署集群。然而,他们确实缺乏建造复杂管道的能力,而Dagster在这方面做得很出色

有没有一种方法可以获得“世界上最好的”?也就是说,将Dagster与MLFlow集成,并使其在Databricks上运行


或者有好的替代方案吗?

Moomima,您找到了集成Dagster和MLFlow的方法吗?我还对这两种工具的结合感兴趣。Moomima,你找到了集成Dagster和MLFlow的方法吗?我也有兴趣看到这两种工具的结合。