Python 熊猫阅读速度加快_Python_Database_Pandas

Python 熊猫阅读速度加快

python database pandas

Python 熊猫阅读速度加快,python,database,pandas,Python,Database,Pandas,我正在阅读一个大型csv，它有大约1000万行和20个不同的列（带有标题名）我有值，两列带日期和一些字符串目前，我需要大约1.5分钟来加载数据，如下所示： df = pd.read_csv('data.csv', index_col='date', parse_dates = 'date') 我想问的是，我怎样才能使这个速度大大加快，在读取数据时使用相同的数据帧我尝试使用HDF5数据库，但速度同样慢我试图读取的数据子集（我选择了8列，并给出了实际20列和数百万行中的3行）：感谢您的建

我正在阅读一个大型csv，它有大约1000万行和20个不同的列（带有标题名）

我有值，两列带日期和一些字符串

目前，我需要大约1.5分钟来加载数据，如下所示：

df = pd.read_csv('data.csv', index_col='date', parse_dates = 'date')

我想问的是，我怎样才能使这个速度大大加快，在读取数据时使用相同的数据帧

我尝试使用HDF5数据库，但速度同样慢

我试图读取的数据子集（我选择了8列，并给出了实际20列和数百万行中的3行）：

感谢您的建议。

根据您对数据的使用情况，您可能会从read\u csv中的“chunksize”参数中受益，该参数为

如果您只需要对数据进行分析（只需加载数据一次），而您还没有使用类似IDE的工具，那么一定要尝试一下！您可以加载数据一次，并在尝试不同操作时将其保存在内存中

我想你还能从中找到其他建议吗

让我们来测试一下

数据生成：

sz = 10**3

df = pd.DataFrame(np.random.randint(0, 10**6, (sz, 2)), columns=['i1','i2'])
df['date'] = pd.date_range('2000-01-01', freq='1S', periods=len(df))
df['dt2'] = pd.date_range('1980-01-01', freq='999S', periods=len(df))
df['f1'] = np.random.rand(len(df))
df['f2'] = np.random.rand(len(df))
# generate 10 string columns 
for i in range(1, 11):
    df['s{}'.format(i)] =  pd.util.testing.rands_array(10, len(df))

df = pd.concat([df] * 10**3, ignore_index=True).sample(frac=1)
df = df.set_index(df.pop('date').sort_values())

我们已经生成了以下DF

In [59]: df
Out[59]:
                         i1      i2                 dt2        f1     ...              s7          s8          s9         s10
date                                                                  ...
2000-01-01 00:00:00  216625    4179 1980-01-04 04:35:24  0.679989     ...      7G8rLnoocA  E7Ot7oPsJ6  puQamLn0I2  zxHrATQn0m
2000-01-01 00:00:00  374740  967991 1980-01-09 11:07:48  0.202064     ...      wLETO2g8uL  MhtzNLPXCH  PW1uKxY0df  wTakdCe6nK
2000-01-01 00:00:00  152181  627451 1980-01-10 11:49:39  0.956117     ...      mXOsfUPqOy  6IIst7UFDT  nL6XZxrT3r  BxPCFNdZTK
2000-01-01 00:00:00  915732  730737 1980-01-06 10:25:30  0.854145     ...      Crh94m085p  M1tbrorxGT  XWSKk3b8Pv  M9FWQtPzaa
2000-01-01 00:00:00  590262  248378 1980-01-06 11:48:45  0.307373     ...      wRnMPxeopd  JF24uTUwJC  2CRrs9yB2N  hxYrXFnT1H
2000-01-01 00:00:00  161183  620876 1980-01-08 21:48:36  0.207536     ...      cyN0AExPO2  POaldI6Y0l  TDc13rPdT0  xgoDOW8Y1L
2000-01-01 00:00:00  589696  784856 1980-01-12 02:07:21  0.909340     ...      GIRAAVBRpj  xwcnpwFohz  wqcoTMjQ4S  GTcIWXElo7
...                     ...     ...                 ...       ...     ...             ...         ...         ...         ...
2000-01-01 00:16:39  773606  205714 1980-01-12 07:40:21  0.895944     ...      HEkXfD7pku  1ogy12wBom  OT3KmQRFGz  Dp1cK5R4Gq
2000-01-01 00:16:39  915732  730737 1980-01-06 10:25:30  0.854145     ...      Crh94m085p  M1tbrorxGT  XWSKk3b8Pv  M9FWQtPzaa
2000-01-01 00:16:39  990722  567886 1980-01-03 05:50:06  0.676511     ...      gVO3g0I97R  yCqOhTVeEi  imCCeQa0WG  9tslOJGWDJ
2000-01-01 00:16:39  531778  438944 1980-01-04 20:07:48  0.190714     ...      rbLmkbnO5G  ATm3BpWLC0  moLkyY2Msc  7A2UJERrBG
2000-01-01 00:16:39  880791  245911 1980-01-02 15:57:36  0.014967     ...      bZuKNBvrEF  K84u9HyAmG  4yy2bsUVNn  WZQ5Vvl9zD
2000-01-01 00:16:39  239866  425516 1980-01-10 05:26:42  0.667183     ...      6xukg6TVah  VEUz4d92B8  zHDxty6U3d  ItztnI5LmJ
2000-01-01 00:16:39  338368  804695 1980-01-12 05:27:09  0.084818     ...      NM4fdjKBuW  LXGUbLIuw9  SHdpnttX6q  4oXKMsaOJ5

[1000000 rows x 15 columns]

In [60]: df.shape
Out[60]: (1000000, 15)

In [61]: df.info()
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1000000 entries, 2000-01-01 00:00:00 to 2000-01-01 00:16:39
Data columns (total 15 columns):
i1     1000000 non-null int32
i2     1000000 non-null int32
dt2    1000000 non-null datetime64[ns]
f1     1000000 non-null float64
f2     1000000 non-null float64
s1     1000000 non-null object
s2     1000000 non-null object
s3     1000000 non-null object
s4     1000000 non-null object
s5     1000000 non-null object
s6     1000000 non-null object
s7     1000000 non-null object
s8     1000000 non-null object
s9     1000000 non-null object
s10    1000000 non-null object
dtypes: datetime64[ns](1), float64(2), int32(2), object(10)
memory usage: 114.4+ MB

#print(df.shape)
#print(df.info())

计时：

sz = 10**3

df = pd.DataFrame(np.random.randint(0, 10**6, (sz, 2)), columns=['i1','i2'])
df['date'] = pd.date_range('2000-01-01', freq='1S', periods=len(df))
df['dt2'] = pd.date_range('1980-01-01', freq='999S', periods=len(df))
df['f1'] = np.random.rand(len(df))
df['f2'] = np.random.rand(len(df))
# generate 10 string columns 
for i in range(1, 11):
    df['s{}'.format(i)] =  pd.util.testing.rands_array(10, len(df))

df = pd.concat([df] * 10**3, ignore_index=True).sample(frac=1)
df = df.set_index(df.pop('date').sort_values())

现在我们可以测量磁盘的读取：

In [54]: # CSV
    ...: %timeit pd.read_csv('c:/tmp/test.csv', parse_dates=['date', 'dt2'], index_col=0)
1 loop, best of 3: 12.3 s per loop   # 3rd place

In [55]: # HDF5 fixed format
    ...: %timeit pd.read_hdf('c:/tmp/test_fix.h5', 'test')
1 loop, best of 3: 1.85 s per loop   # 1st place

In [56]: # HDF5 table format
    ...: %timeit pd.read_hdf('c:/tmp/test.h5', 'test')
1 loop, best of 3: 24.2 s per loop   # 4th place

In [57]: # Feather
    ...: %timeit feather.read_dataframe('c:/tmp/test.feather')
1 loop, best of 3: 3.21 s per loop   # 2nd place

如果您不总是需要读取所有数据，那么以HDF5表格格式存储数据（并使用

数据列

参数对这些列进行索引，这将用于筛选）。

这是处理大型数据集时常用的方法使用pandas操作（约400-1000万行，15-30列）是为了将数据帧保存到.pkl文件中以备将来操作。它们确实占用了更多的空间（有时高达2倍），但将我在Jupyter笔记本中的加载时间从使用csv的10-50秒减少到使用pkl的1-5秒

In [1]: %%time
        dfTest = pd.read_pickle('./testFile.pkl')
        print(dfTest.shape)
Out[1]: (10820089, 23)
        Wall time: 1.89 s

In [2]: %%time
        dfTest = pd.read_csv('./testFile.csv')
        print(dfTest.shape)
Out[2]: (10820089, 23)
        Wall time: 18.9 s

请参阅此测试中使用的测试文件大小差异

额外提示：在完成对数据集的操作后，我通常只将数据帧输出回csv，以便对我的项目进行较小的存档。

从HDF5读取数据应该会快得多。您能提供一个示例数据集吗？HDF5有问题，因为我的df包含大量字符串、日期和数字，而不是w工作速度很快（我使用了设置“fixed”，并得到了一些关于具有字符串表示的列的警告）。可能我缺少了一个技巧。不要像这样解析日期/您有一个不太标准的格式；而是在to_DateTime中使用显式格式解析然后再解析。在文档中更新此基准会很好：（更多格式和更多数据类型）-PRs欢迎！@MaxU Oops:）我将计时块作为另一个书写测试来阅读^^

In [1]: %%time
        dfTest = pd.read_pickle('./testFile.pkl')
        print(dfTest.shape)
Out[1]: (10820089, 23)
        Wall time: 1.89 s

In [2]: %%time
        dfTest = pd.read_csv('./testFile.csv')
        print(dfTest.shape)
Out[2]: (10820089, 23)
        Wall time: 18.9 s