Python 数据帧空间/内存大小问题
我正在使用Python 数据帧空间/内存大小问题,python,pandas,dataframe,fetchall,read-sql,Python,Pandas,Dataframe,Fetchall,Read Sql,我正在使用pandas处理从Teradata表中提取的40MM记录。我可以检索数据,但在将数据创建为dataframe时遇到问题。我尝试使用fetchall Query=""" SELECT VAR1, VAR2 from Table """ teradata_cursor.execute(Query) Accs=teradata_cursor.fetchall() df=pd.DataFrame
pandas
处理从Teradata表中提取的40MM记录。我可以检索数据,但在将数据创建为dataframe
时遇到问题。我尝试使用fetchall
Query=""" SELECT VAR1, VAR2 from Table """
teradata_cursor.execute(Query)
Accs=teradata_cursor.fetchall()
df=pd.DataFrame.from_records(Accs)
我对100000条记录的样本没有任何问题,但它无法加载所有40MM的记录
然后我试着
df=pd.read_sql(Query,teradata)
这使我的桌面崩溃,不得不重新启动我正在使用的一些应用程序
有没有其他/简单的方法为如此大的数据量创建数据帧?
提前感谢如果分块处理不是一个解决方案,请尝试使用提供熟悉API的dataframe。使用Dask时,数据帧未完全加载到内存中,因此您有机会使用它而不会导致内存崩溃。