使用python保存最大数量的数据_Python_Pandas

使用python保存最大数量的数据

python pandas

使用python保存最大数量的数据,python,pandas,Python,Pandas,我有一个大数据框架（141733193），由美国股票的历史价格组成 index A AA ... ZZZ 1962-01-01 nan nan ... nan ... 100 3 ... nan 2017-08-01 nan 5 ... 12 正如你在这个df

我有一个大数据框架（141733193），由美国股票的历史价格组成

index             A       AA        ...         ZZZ
1962-01-01        nan     nan       ...         nan
...               100     3         ...         nan
2017-08-01        nan     5         ...         12

正如你在这个df中可以看到很多nan，因为有些股票存在于1962年而不是2010年，有些存在于2017年而不是1962年

正如你所看到的，我有很多NaN，我想删除它们

我使用重采样功能创建了一个带有月价格的newdf，以删除一些nan（例如，没有股票交易所的日子）

我现在有一个df=（6703193）

要删除其他nan，我只选择了数据较多的日期

df = df.iloc[470:,:]

并删除带有NaN的列

dftest = dftest.dropna(axis=1)

我的最终df尺寸是（2001528）

大量数据丢失。是否有一个功能可以最大限度地减少我的数据丢失？我指的是一个函数，它可以知道我们可以拥有的最大数据行数和最大数据列数？

这取决于您想对数据做什么。尝试重现本文背后的想法（）。交易策略，协整，一些测试，回报，ssd，。。。从我读到的，基于30秒的扫描，为什么要删除NAN值。只需对现有股票进行分析，并随着新ipo的出现而更新，我认为删除所有NAN进行测试会更容易。我没有太多关于第一批股票的数据（在这段时间内可能有150只没有NAN的股票，这取决于你想用你的数据做什么.交易策略，协整，一些测试，回报，ssd，…从我读到的。基于30秒的扫描，为什么要删除NAN值。只需对现有股票进行分析，并随着新IPO的发生进行更新。我认为删除所有NAN值会更容易进行测试。而且我没有太多关于首批股票的数据（在此期间可能有150只股票没有NAN

dftest = dftest.dropna(axis=1)