Python 从数据帧值更新pickle文件

Python 从数据帧值更新pickle文件,python,pandas,dataframe,pickle,Python,Pandas,Dataframe,Pickle,我有一个巨大的pickle文件,需要从dailydata文件(csv文件)每隔3小时更新一次 有两个名为TRX_DATE和TIME_STAMP的字段,每个字段的值分别为24/11/2015和24/11/2015 10:19:02。(还有50个附加字段) 所以我要做的是首先将这个巨大的pickle读入一个数据帧。然后通过与TRX_date字段进行比较,删除今天日期的任何值 然后将该csv文件读取到另一个数据帧。然后附加两个数据帧并再次创建新的pickle 我的脚本看起来像 import panda

我有一个巨大的pickle文件,需要从dailydata文件(csv文件)每隔3小时更新一次

有两个名为TRX_DATE和TIME_STAMP的字段,每个字段的值分别为24/11/2015和24/11/2015 10:19:02。(还有50个附加字段)

所以我要做的是首先将这个巨大的pickle读入一个数据帧。然后通过与TRX_date字段进行比较,删除今天日期的任何值

然后将该csv文件读取到另一个数据帧。然后附加两个数据帧并再次创建新的pickle

我的脚本看起来像

import pandas as pd
import datetime as dt
import pickle

df = pd.read_pickle('hugedata pickle')
Today = dt.datetime.today()
df = df[(df.TRX_DATE > Today)]  #delete any entries for today in main pickle

df1 = pd.read_csv(daily data csv file)

df = df.append(df1,ignore_index=True)

df.to_pickle('same huge data pickle')
问题如下

1.阅读这本书不仅要花费大量的时间,而且要花费大量的内存

2.我需要将df1追加到df中,并且只有df中的列应该只保留,并且如果追加了df1中的任何新列,它应该排除。但我得到的新列值在很多地方都有NUN值

所以在这些事情上需要帮助

1.有没有办法只读取小尺寸的csv并附加到pickle文件…(或者读取pickle是必需的)

2.可以将csv转换为pickle并合并两个pickle。按加载、转储方法(实际上从未使用过该方法)

3.如何从time_STAMP字段读取时间并获取两个时间戳之间的数据(按time_STAMP过滤)。并将其添加到主pickle。以前我是按TRX_日期值过滤


有更好的方法吗?请建议。

HDF5是为您正在尝试的工作而设计的

import tables
import numpy as np
from pandas import HDFStore,DataFrame

df.to_hdf('test.h5',key='test1') # create an hdf5 file

pd.read_hdf('test.h5',key='test1') # read an hdf5 file

to_hdf()默认为附加模式

为什么使用
read\u pickle
而不使用
read\u csv
?当我从pickle读取数据时,我使用read\u pickle,而从csv读取数据时,我使用read\u csv