Python 利用excel开发大型数据库_Python_Pandas

Python 利用excel开发大型数据库

python pandas

Python 利用excel开发大型数据库,python,pandas,Python,Pandas,我很习惯使用python/excel/pandas作为数据帧。我不懂sql或数据库语言我即将开始一个新项目，其中将包括大约4000个不同的excel文件。我会打电话让打开的文件保存为所有4000个文件的数据框，然后对它们进行计算。这将包括许多计算，如总和、线性回归和其他正常统计数据我的问题是我知道如何处理5-10个文件，没问题。我是否会遇到内存问题，或者程序运行需要几个小时？文件大小约为300-600kB。我不在excel中使用任何只保存数据的函数。我最好有4000个单独的文件或4000个标

我很习惯使用python/excel/pandas作为数据帧。我不懂sql或数据库语言

我即将开始一个新项目，其中将包括大约4000个不同的excel文件。我会打电话让打开的文件保存为所有4000个文件的数据框，然后对它们进行计算。这将包括许多计算，如总和、线性回归和其他正常统计数据

我的问题是我知道如何处理5-10个文件，没问题。我是否会遇到内存问题，或者程序运行需要几个小时？文件大小约为300-600kB。我不在excel中使用任何只保存数据的函数。我最好有4000个单独的文件或4000个标签。或者这是计算机可以毫无问题地处理的吗？感谢您调查我以前没有处理过很多数据，我想在开始之前知道我是否真的搞砸了

您肯定想使用数据库。在接近2GB的原始数据中，你将无法在不阻塞计算机的情况下对其进行太多操作，即使读取它也需要一段时间

如果您对python和pandas感到满意，我保证您可以非常快地学习SQL。基本语法可以在一个小时内学会，你不会后悔为将来的工作学习它，这是一项非常有用的技能

我建议您在本地安装，然后使用to connect创建到它的数据库连接（或引擎）。然后你会很高兴地听到熊猫确实有，并使它真的很容易推和拉数据，因为你需要它。SQL还可以做任何你想要的基础数学，比如求和、计数等

连接和写入SQL数据库非常简单：

from sqlalchemy import create_engine
my_db = create_engine('postgresql+psycopg2://username:password@localhost:5432/database_name')
df.to_sql('table_name', my_db, if_exists='append')

我添加最后一个if_exists='append'，因为您很可能希望将所有4000个表添加到一个表中

感谢您的帮助和指导。