Python 早期数据科学项目的有用结构(jupyter笔记本)
我正在启动一个新的数据科学项目。这将是一个早期实验项目,不是为了生产,而是为了概念验证 我想确定好的/有用的体系结构(文件夹结构)指南,以与每个DS概念验证项目保持一致 我通常会设置一个新文件夹,每个项目都有三件事:Python 早期数据科学项目的有用结构(jupyter笔记本),python,architecture,jupyter-notebook,jupyter,data-science,Python,Architecture,Jupyter Notebook,Jupyter,Data Science,我正在启动一个新的数据科学项目。这将是一个早期实验项目,不是为了生产,而是为了概念验证 我想确定好的/有用的体系结构(文件夹结构)指南,以与每个DS概念验证项目保持一致 我通常会设置一个新文件夹,每个项目都有三件事: 几本Jupyter笔记本 输入数据 结果数据 假设我的项目有4台Jupyter笔记本用于处理数据。通常,这些笔记本是为了正常工作而运行的。每个笔记本都有几个功能,这些功能组合在一起(放在笔记本中)。我通常在笔记本的名字前加上数字,以使它们按名字的顺序排列(如示例所示) 每个项目
- 几本Jupyter笔记本
- 输入数据
- 结果数据
-**/文件夹**
----**/资料**
--------输入文件\u 1.csv
--------输入文件\u 2.xlsx
----**/结果**
--------部分结果.csv
----1_read_analysis_data.ipynb
----2_clean_data.ipynb
----3_预处理_data.ipynb
----4_random_forrest_model.ipynb
我的一位前同事发现cookiecutter的这个非常有用的项目结构。它解决了我上面描述的许多问题。唯一不好的一面是,我想它(还)没有那么流行,这意味着它需要30分钟来适应结构。