Python 利用excel开发大型数据库
我很习惯使用python/excel/pandas作为数据帧。我不懂sql或数据库语言 我即将开始一个新项目,其中将包括大约4000个不同的excel文件。我会打电话让打开的文件保存为所有4000个文件的数据框,然后对它们进行计算。这将包括许多计算,如总和、线性回归和其他正常统计数据Python 利用excel开发大型数据库,python,pandas,Python,Pandas,我很习惯使用python/excel/pandas作为数据帧。我不懂sql或数据库语言 我即将开始一个新项目,其中将包括大约4000个不同的excel文件。我会打电话让打开的文件保存为所有4000个文件的数据框,然后对它们进行计算。这将包括许多计算,如总和、线性回归和其他正常统计数据 我的问题是我知道如何处理5-10个文件,没问题。我是否会遇到内存问题,或者程序运行需要几个小时?文件大小约为300-600kB。我不在excel中使用任何只保存数据的函数。我最好有4000个单独的文件或4000个标
我的问题是我知道如何处理5-10个文件,没问题。我是否会遇到内存问题,或者程序运行需要几个小时?文件大小约为300-600kB。我不在excel中使用任何只保存数据的函数。我最好有4000个单独的文件或4000个标签。或者这是计算机可以毫无问题地处理的吗?感谢您调查我以前没有处理过很多数据,我想在开始之前知道我是否真的搞砸了 您肯定想使用数据库。在接近2GB的原始数据中,你将无法在不阻塞计算机的情况下对其进行太多操作,即使读取它也需要一段时间 如果您对python和pandas感到满意,我保证您可以非常快地学习SQL。基本语法可以在一个小时内学会,你不会后悔为将来的工作学习它,这是一项非常有用的技能 我建议您在本地安装,然后使用to connect创建到它的数据库连接(或引擎)。然后你会很高兴地听到熊猫确实有,并使它真的很容易推和拉数据,因为你需要它。SQL还可以做任何你想要的基础数学,比如求和、计数等 连接和写入SQL数据库非常简单:
from sqlalchemy import create_engine
my_db = create_engine('postgresql+psycopg2://username:password@localhost:5432/database_name')
df.to_sql('table_name', my_db, if_exists='append')
我添加最后一个if_exists='append',因为您很可能希望将所有4000个表添加到一个表中 感谢您的帮助和指导。