Python 早期数据科学项目的有用结构(jupyter笔记本)

Python 早期数据科学项目的有用结构(jupyter笔记本),python,architecture,jupyter-notebook,jupyter,data-science,Python,Architecture,Jupyter Notebook,Jupyter,Data Science,我正在启动一个新的数据科学项目。这将是一个早期实验项目,不是为了生产,而是为了概念验证 我想确定好的/有用的体系结构(文件夹结构)指南,以与每个DS概念验证项目保持一致 我通常会设置一个新文件夹,每个项目都有三件事: 几本Jupyter笔记本 输入数据 结果数据 假设我的项目有4台Jupyter笔记本用于处理数据。通常,这些笔记本是为了正常工作而运行的。每个笔记本都有几个功能,这些功能组合在一起(放在笔记本中)。我通常在笔记本的名字前加上数字,以使它们按名字的顺序排列(如示例所示) 每个项目

我正在启动一个新的数据科学项目。这将是一个早期实验项目,不是为了生产,而是为了概念验证

我想确定好的/有用的体系结构(文件夹结构)指南,以与每个DS概念验证项目保持一致

我通常会设置一个新文件夹,每个项目都有三件事:

  • 几本Jupyter笔记本
  • 输入数据
  • 结果数据
假设我的项目有4台Jupyter笔记本用于处理数据。通常,这些笔记本是为了正常工作而运行的。每个笔记本都有几个功能,这些功能组合在一起(放在笔记本中)。我通常在笔记本的名字前加上数字,以使它们按名字的顺序排列(如示例所示)

每个项目都有一些需要分析的数据(输入数据)和一些成为项目结果或部分结果的数据(结果数据)

我可以接受我目前使用的结构,但这是我自己想出来的,我希望在更大的项目中有更具组织性和可扩展性的东西。有点像Jupyter笔记本项目的框架

-**/文件夹**
----**/资料**
--------输入文件\u 1.csv
--------输入文件\u 2.xlsx
----**/结果**
--------部分结果.csv
----1_read_analysis_data.ipynb
----2_clean_data.ipynb
----3_预处理_data.ipynb
----4_random_forrest_model.ipynb

我的一位前同事发现cookiecutter的这个非常有用的项目结构。它解决了我上面描述的许多问题。唯一不好的一面是,我想它(还)没有那么流行,这意味着它需要30分钟来适应结构。