Python 管理、查询和拆分、合并、应用许多本地csv数据文件?可能使用数据库?
我收集了大量的csv文件,这些文件是在很长一段时间内获得的,我会继续添加新的文件。使用以下逻辑排列数据文件 单个试验研究中的每批文件(约100个单独的文件)保存在一个文件夹中(至少有30个不同的试验)。 每个文件都有一个文件名,该文件名标识了数据收集的位置和样本名(不同类型),可能还有制造商/日期信息。 在每个文件中,我们有许多列(~200)的数据,其中包含有关样本的许多属性。某些列提供定性/定量信息,如组件名称和组件级别(%) 现在,假设我想从几个选定的研究中的几个选定的制造商那里找到包含某些组件的数据集。通过浏览所有文件夹,找到那些csv文件,提取满足查询条件的数据,然后将它们放入新文件中,这将非常耗时 我的问题是:Python 管理、查询和拆分、合并、应用许多本地csv数据文件?可能使用数据库?,python,mysql,matlab,sqlite,csv,Python,Mysql,Matlab,Sqlite,Csv,我收集了大量的csv文件,这些文件是在很长一段时间内获得的,我会继续添加新的文件。使用以下逻辑排列数据文件 单个试验研究中的每批文件(约100个单独的文件)保存在一个文件夹中(至少有30个不同的试验)。 每个文件都有一个文件名,该文件名标识了数据收集的位置和样本名(不同类型),可能还有制造商/日期信息。 在每个文件中,我们有许多列(~200)的数据,其中包含有关样本的许多属性。某些列提供定性/定量信息,如组件名称和组件级别(%) 现在,假设我想从几个选定的研究中的几个选定的制造商那里找到包含某些
多谢各位 如果您的目标是在这些数据之上进行分析和数据科学,您将为这些数据查询或创建建模功能,那么: 1) 您可以用python编写一些查询逻辑,只在需要时获取一些文件,并将它们加载到pandas或转换为批量csv文件,但这不是长期可持续的 2) DB很可能是未来的发展方向。您可以为每个试验或每个试验模式/结构使用不同的表或数据库 3) SQLite3是一个不错的选择,但MySQL的社区版本可能具有更大的灵活性。i、 e.SQLite的局限性:当然,对于开发,您可以在SQLite中这样做来启动,加载文本文件中的所有内容,然后迁移到类似MySQL的东西 如果您从一开始就对流程进行了很好的建模(python->ETL->DB->features for modeling),并且为SQL环境提供了良好的结构,那么无论是在实验室还是在工作场所,它都会持续很长时间