Python 从数据帧值更新pickle文件_Python_Pandas_Dataframe_Pickle

Python 从数据帧值更新pickle文件

python pandas dataframe

Python 从数据帧值更新pickle文件,python,pandas,dataframe,pickle,Python,Pandas,Dataframe,Pickle,我有一个巨大的pickle文件，需要从dailydata文件（csv文件）每隔3小时更新一次有两个名为TRX_DATE和TIME_STAMP的字段，每个字段的值分别为24/11/2015和24/11/2015 10:19:02。（还有50个附加字段）所以我要做的是首先将这个巨大的pickle读入一个数据帧。然后通过与TRX_date字段进行比较，删除今天日期的任何值然后将该csv文件读取到另一个数据帧。然后附加两个数据帧并再次创建新的pickle 我的脚本看起来像 import panda

我有一个巨大的pickle文件，需要从dailydata文件（csv文件）每隔3小时更新一次

有两个名为TRX_DATE和TIME_STAMP的字段，每个字段的值分别为24/11/2015和24/11/2015 10:19:02。（还有50个附加字段）

所以我要做的是首先将这个巨大的pickle读入一个数据帧。然后通过与TRX_date字段进行比较，删除今天日期的任何值

然后将该csv文件读取到另一个数据帧。然后附加两个数据帧并再次创建新的pickle

我的脚本看起来像

import pandas as pd
import datetime as dt
import pickle

df = pd.read_pickle('hugedata pickle')
Today = dt.datetime.today()
df = df[(df.TRX_DATE > Today)]  #delete any entries for today in main pickle

df1 = pd.read_csv(daily data csv file)

df = df.append(df1,ignore_index=True)

df.to_pickle('same huge data pickle')

问题如下

1.阅读这本书不仅要花费大量的时间，而且要花费大量的内存

2.我需要将df1追加到df中，并且只有df中的列应该只保留，并且如果追加了df1中的任何新列，它应该排除。但我得到的新列值在很多地方都有NUN值

所以在这些事情上需要帮助

1.有没有办法只读取小尺寸的csv并附加到pickle文件…（或者读取pickle是必需的）

2.可以将csv转换为pickle并合并两个pickle。按加载、转储方法（实际上从未使用过该方法）

3.如何从time_STAMP字段读取时间并获取两个时间戳之间的数据（按time_STAMP过滤）。并将其添加到主pickle。以前我是按TRX_日期值过滤

有更好的方法吗？请建议。

HDF5是为您正在尝试的工作而设计的

import tables
import numpy as np
from pandas import HDFStore,DataFrame

df.to_hdf('test.h5',key='test1') # create an hdf5 file

pd.read_hdf('test.h5',key='test1') # read an hdf5 file

to_hdf（）默认为附加模式

为什么使用

read\u pickle

而不使用

read\u csv

？当我从pickle读取数据时，我使用read\u pickle，而从csv读取数据时，我使用read\u csv