Python 熊猫阅读速度加快
我正在阅读一个大型csv,它有大约1000万行和20个不同的列(带有标题名) 我有值,两列带日期和一些字符串 目前,我需要大约1.5分钟来加载数据,如下所示:Python 熊猫阅读速度加快,python,database,pandas,Python,Database,Pandas,我正在阅读一个大型csv,它有大约1000万行和20个不同的列(带有标题名) 我有值,两列带日期和一些字符串 目前,我需要大约1.5分钟来加载数据,如下所示: df = pd.read_csv('data.csv', index_col='date', parse_dates = 'date') 我想问的是,我怎样才能使这个速度大大加快,在读取数据时使用相同的数据帧 我尝试使用HDF5数据库,但速度同样慢 我试图读取的数据子集(我选择了8列,并给出了实际20列和数百万行中的3行): 感谢您的建
df = pd.read_csv('data.csv', index_col='date', parse_dates = 'date')
我想问的是,我怎样才能使这个速度大大加快,在读取数据时使用相同的数据帧
我尝试使用HDF5数据库,但速度同样慢
我试图读取的数据子集(我选择了8列,并给出了实际20列和数百万行中的3行):
感谢您的建议。根据您对数据的使用情况,您可能会从read\u csv中的“chunksize”参数中受益,该参数为 如果您只需要对数据进行分析(只需加载数据一次),而您还没有使用类似IDE的工具,那么一定要尝试一下!您可以加载数据一次,并在尝试不同操作时将其保存在内存中 我想你还能从中找到其他建议吗 让我们来测试一下 数据生成:
sz = 10**3
df = pd.DataFrame(np.random.randint(0, 10**6, (sz, 2)), columns=['i1','i2'])
df['date'] = pd.date_range('2000-01-01', freq='1S', periods=len(df))
df['dt2'] = pd.date_range('1980-01-01', freq='999S', periods=len(df))
df['f1'] = np.random.rand(len(df))
df['f2'] = np.random.rand(len(df))
# generate 10 string columns
for i in range(1, 11):
df['s{}'.format(i)] = pd.util.testing.rands_array(10, len(df))
df = pd.concat([df] * 10**3, ignore_index=True).sample(frac=1)
df = df.set_index(df.pop('date').sort_values())
我们已经生成了以下DF
In [59]: df
Out[59]:
i1 i2 dt2 f1 ... s7 s8 s9 s10
date ...
2000-01-01 00:00:00 216625 4179 1980-01-04 04:35:24 0.679989 ... 7G8rLnoocA E7Ot7oPsJ6 puQamLn0I2 zxHrATQn0m
2000-01-01 00:00:00 374740 967991 1980-01-09 11:07:48 0.202064 ... wLETO2g8uL MhtzNLPXCH PW1uKxY0df wTakdCe6nK
2000-01-01 00:00:00 152181 627451 1980-01-10 11:49:39 0.956117 ... mXOsfUPqOy 6IIst7UFDT nL6XZxrT3r BxPCFNdZTK
2000-01-01 00:00:00 915732 730737 1980-01-06 10:25:30 0.854145 ... Crh94m085p M1tbrorxGT XWSKk3b8Pv M9FWQtPzaa
2000-01-01 00:00:00 590262 248378 1980-01-06 11:48:45 0.307373 ... wRnMPxeopd JF24uTUwJC 2CRrs9yB2N hxYrXFnT1H
2000-01-01 00:00:00 161183 620876 1980-01-08 21:48:36 0.207536 ... cyN0AExPO2 POaldI6Y0l TDc13rPdT0 xgoDOW8Y1L
2000-01-01 00:00:00 589696 784856 1980-01-12 02:07:21 0.909340 ... GIRAAVBRpj xwcnpwFohz wqcoTMjQ4S GTcIWXElo7
... ... ... ... ... ... ... ... ... ...
2000-01-01 00:16:39 773606 205714 1980-01-12 07:40:21 0.895944 ... HEkXfD7pku 1ogy12wBom OT3KmQRFGz Dp1cK5R4Gq
2000-01-01 00:16:39 915732 730737 1980-01-06 10:25:30 0.854145 ... Crh94m085p M1tbrorxGT XWSKk3b8Pv M9FWQtPzaa
2000-01-01 00:16:39 990722 567886 1980-01-03 05:50:06 0.676511 ... gVO3g0I97R yCqOhTVeEi imCCeQa0WG 9tslOJGWDJ
2000-01-01 00:16:39 531778 438944 1980-01-04 20:07:48 0.190714 ... rbLmkbnO5G ATm3BpWLC0 moLkyY2Msc 7A2UJERrBG
2000-01-01 00:16:39 880791 245911 1980-01-02 15:57:36 0.014967 ... bZuKNBvrEF K84u9HyAmG 4yy2bsUVNn WZQ5Vvl9zD
2000-01-01 00:16:39 239866 425516 1980-01-10 05:26:42 0.667183 ... 6xukg6TVah VEUz4d92B8 zHDxty6U3d ItztnI5LmJ
2000-01-01 00:16:39 338368 804695 1980-01-12 05:27:09 0.084818 ... NM4fdjKBuW LXGUbLIuw9 SHdpnttX6q 4oXKMsaOJ5
[1000000 rows x 15 columns]
In [60]: df.shape
Out[60]: (1000000, 15)
In [61]: df.info()
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1000000 entries, 2000-01-01 00:00:00 to 2000-01-01 00:16:39
Data columns (total 15 columns):
i1 1000000 non-null int32
i2 1000000 non-null int32
dt2 1000000 non-null datetime64[ns]
f1 1000000 non-null float64
f2 1000000 non-null float64
s1 1000000 non-null object
s2 1000000 non-null object
s3 1000000 non-null object
s4 1000000 non-null object
s5 1000000 non-null object
s6 1000000 non-null object
s7 1000000 non-null object
s8 1000000 non-null object
s9 1000000 non-null object
s10 1000000 non-null object
dtypes: datetime64[ns](1), float64(2), int32(2), object(10)
memory usage: 114.4+ MB
#print(df.shape)
#print(df.info())
计时:
sz = 10**3
df = pd.DataFrame(np.random.randint(0, 10**6, (sz, 2)), columns=['i1','i2'])
df['date'] = pd.date_range('2000-01-01', freq='1S', periods=len(df))
df['dt2'] = pd.date_range('1980-01-01', freq='999S', periods=len(df))
df['f1'] = np.random.rand(len(df))
df['f2'] = np.random.rand(len(df))
# generate 10 string columns
for i in range(1, 11):
df['s{}'.format(i)] = pd.util.testing.rands_array(10, len(df))
df = pd.concat([df] * 10**3, ignore_index=True).sample(frac=1)
df = df.set_index(df.pop('date').sort_values())
现在我们可以测量磁盘的读取:
In [54]: # CSV
...: %timeit pd.read_csv('c:/tmp/test.csv', parse_dates=['date', 'dt2'], index_col=0)
1 loop, best of 3: 12.3 s per loop # 3rd place
In [55]: # HDF5 fixed format
...: %timeit pd.read_hdf('c:/tmp/test_fix.h5', 'test')
1 loop, best of 3: 1.85 s per loop # 1st place
In [56]: # HDF5 table format
...: %timeit pd.read_hdf('c:/tmp/test.h5', 'test')
1 loop, best of 3: 24.2 s per loop # 4th place
In [57]: # Feather
...: %timeit feather.read_dataframe('c:/tmp/test.feather')
1 loop, best of 3: 3.21 s per loop # 2nd place
如果您不总是需要读取所有数据,那么以HDF5表格格式存储数据(并使用
数据列
参数对这些列进行索引,这将用于筛选)。这是处理大型数据集时常用的方法使用pandas操作(约400-1000万行,15-30列)是为了将数据帧保存到.pkl文件中以备将来操作。它们确实占用了更多的空间(有时高达2倍),但将我在Jupyter笔记本中的加载时间从使用csv的10-50秒减少到使用pkl的1-5秒
In [1]: %%time
dfTest = pd.read_pickle('./testFile.pkl')
print(dfTest.shape)
Out[1]: (10820089, 23)
Wall time: 1.89 s
In [2]: %%time
dfTest = pd.read_csv('./testFile.csv')
print(dfTest.shape)
Out[2]: (10820089, 23)
Wall time: 18.9 s
请参阅此测试中使用的测试文件大小差异
额外提示:在完成对数据集的操作后,我通常只将数据帧输出回csv,以便对我的项目进行较小的存档。从HDF5读取数据应该会快得多。您能提供一个示例数据集吗?HDF5有问题,因为我的df包含大量字符串、日期和数字,而不是w工作速度很快(我使用了设置“fixed”,并得到了一些关于具有字符串表示的列的警告)。可能我缺少了一个技巧。不要像这样解析日期/您有一个不太标准的格式;而是在to_DateTime中使用显式格式解析然后再解析。在文档中更新此基准会很好:(更多格式和更多数据类型)-PRs欢迎!@MaxU Oops:)我将计时块作为另一个书写测试来阅读^^
In [1]: %%time
dfTest = pd.read_pickle('./testFile.pkl')
print(dfTest.shape)
Out[1]: (10820089, 23)
Wall time: 1.89 s
In [2]: %%time
dfTest = pd.read_csv('./testFile.csv')
print(dfTest.shape)
Out[2]: (10820089, 23)
Wall time: 18.9 s