使用python保存最大数量的数据

使用python保存最大数量的数据,python,pandas,Python,Pandas,我有一个大数据框架(141733193),由美国股票的历史价格组成 index A AA ... ZZZ 1962-01-01 nan nan ... nan ... 100 3 ... nan 2017-08-01 nan 5 ... 12 正如你在这个df

我有一个大数据框架(141733193),由美国股票的历史价格组成

index             A       AA        ...         ZZZ
1962-01-01        nan     nan       ...         nan
...               100     3         ...         nan
2017-08-01        nan     5         ...         12
正如你在这个df中可以看到很多nan,因为有些股票存在于1962年而不是2010年,有些存在于2017年而不是1962年

正如你所看到的,我有很多NaN,我想删除它们

我使用重采样功能创建了一个带有月价格的newdf,以删除一些nan(例如,没有股票交易所的日子)

我现在有一个df=(6703193)

要删除其他nan,我只选择了数据较多的日期

df = df.iloc[470:,:]
并删除带有NaN的列

dftest = dftest.dropna(axis=1)
我的最终df尺寸是(2001528)


大量数据丢失。是否有一个功能可以最大限度地减少我的数据丢失?我指的是一个函数,它可以知道我们可以拥有的最大数据行数和最大数据列数?

这取决于您想对数据做什么。尝试重现本文背后的想法()。交易策略,协整,一些测试,回报,ssd,。。。从我读到的,基于30秒的扫描,为什么要删除NAN值。只需对现有股票进行分析,并随着新ipo的出现而更新,我认为删除所有NAN进行测试会更容易。我没有太多关于第一批股票的数据(在这段时间内可能有150只没有NAN的股票,这取决于你想用你的数据做什么.交易策略,协整,一些测试,回报,ssd,…从我读到的。基于30秒的扫描,为什么要删除NAN值。只需对现有股票进行分析,并随着新IPO的发生进行更新。我认为删除所有NAN值会更容易进行测试。而且我没有太多关于首批股票的数据(在此期间可能有150只股票没有NAN
dftest = dftest.dropna(axis=1)