Python 缓存结果的管道_Python_Python 3.x_Pandas_Scikit Learn_Feature Extraction

Python 缓存结果的管道

python python-3.x pandas scikit-learn

Python 缓存结果的管道,python,python-3.x,pandas,scikit-learn,feature-extraction,Python,Python 3.x,Pandas,Scikit Learn,Feature Extraction,我用熊猫做机器学习的特征提取。我希望能做到以下几点：考虑我有五个数据处理步骤，顺序执行，我执行一次，结果将被自动保存。下次，如果我更改第四步，库将自动从第三步开始。Pandas或sklearn.pipeline.pipeline或其他数据处理库自然会支持此缓存功能，而不需要显式保存它们吗？具有Dagster中似乎缺少的一些不错的功能（当前git提交的记录、ML度量等）它们还很好地与集成在一起，从而可以轻松部署集群。然而，他们确实缺乏建造复杂管道的能力，而Dagster在这方面做得很出色有没有

我用熊猫做机器学习的特征提取。我希望能做到以下几点：考虑我有五个数据处理步骤，顺序执行，我执行一次，结果将被自动保存。下次，如果我更改第四步，库将自动从第三步开始。Pandas或sklearn.pipeline.pipeline或其他数据处理库自然会支持此缓存功能，而不需要显式保存它们吗？

具有Dagster中似乎缺少的一些不错的功能（当前git提交的记录、ML度量等）它们还很好地与集成在一起，从而可以轻松部署集群。然而，他们确实缺乏建造复杂管道的能力，而Dagster在这方面做得很出色

有没有一种方法可以获得“世界上最好的”？也就是说，将Dagster与MLFlow集成，并使其在Databricks上运行

或者有好的替代方案吗？

有一些Dagster中似乎缺少的好特性（当前git提交的记录、ML度量等），它们还与Dagster很好地集成，允许轻松部署集群。然而，他们确实缺乏建造复杂管道的能力，而Dagster在这方面做得很出色

有没有一种方法可以获得“世界上最好的”？也就是说，将Dagster与MLFlow集成，并使其在Databricks上运行

或者有好的替代方案吗？

Moomima，您找到了集成Dagster和MLFlow的方法吗？我还对这两种工具的结合感兴趣。Moomima，你找到了集成Dagster和MLFlow的方法吗？我也有兴趣看到这两种工具的结合。