Python 早期数据科学项目的有用结构（jupyter笔记本）_Python_Architecture_Jupyter Notebook_Jupyter_Data Science

Python 早期数据科学项目的有用结构（jupyter笔记本）

python architecture jupyter-notebook

Python 早期数据科学项目的有用结构（jupyter笔记本）,python,architecture,jupyter-notebook,jupyter,data-science,Python,Architecture,Jupyter Notebook,Jupyter,Data Science,我正在启动一个新的数据科学项目。这将是一个早期实验项目，不是为了生产，而是为了概念验证我想确定好的/有用的体系结构（文件夹结构）指南，以与每个DS概念验证项目保持一致我通常会设置一个新文件夹，每个项目都有三件事：几本Jupyter笔记本输入数据结果数据假设我的项目有4台Jupyter笔记本用于处理数据。通常，这些笔记本是为了正常工作而运行的。每个笔记本都有几个功能，这些功能组合在一起（放在笔记本中）。我通常在笔记本的名字前加上数字，以使它们按名字的顺序排列（如示例所示）每个项目

我正在启动一个新的数据科学项目。这将是一个早期实验项目，不是为了生产，而是为了概念验证

我想确定好的/有用的体系结构（文件夹结构）指南，以与每个DS概念验证项目保持一致

我通常会设置一个新文件夹，每个项目都有三件事：

几本Jupyter笔记本
输入数据
结果数据

假设我的项目有4台Jupyter笔记本用于处理数据。通常，这些笔记本是为了正常工作而运行的。每个笔记本都有几个功能，这些功能组合在一起（放在笔记本中）。我通常在笔记本的名字前加上数字，以使它们按名字的顺序排列（如示例所示）

每个项目都有一些需要分析的数据（输入数据）和一些成为项目结果或部分结果的数据（结果数据）

我可以接受我目前使用的结构，但这是我自己想出来的，我希望在更大的项目中有更具组织性和可扩展性的东西。有点像Jupyter笔记本项目的框架

-**/文件夹**
----**/资料**
--------输入文件\u 1.csv
--------输入文件\u 2.xlsx
----**/结果**
--------部分结果.csv
----1_read_analysis_data.ipynb
----2_clean_data.ipynb
----3_预处理_data.ipynb
----4_random_forrest_model.ipynb

我的一位前同事发现cookiecutter的这个非常有用的项目结构。它解决了我上面描述的许多问题。唯一不好的一面是，我想它（还）没有那么流行，这意味着它需要30分钟来适应结构。