Python 熊猫:根据抽样政策,从大CSV读取一个小的随机样本

Python 熊猫:根据抽样政策,从大CSV读取一个小的随机样本,python,csv,pandas,random,Python,Csv,Pandas,Random,非常相关 我有一个非常大的csv,有患者id,访问数据列。我想从中读取一个小样本,但如果我对一名患者进行采样,我想对他的所有记录进行采样 如果要继续使用.csv,可以分块读取文件,选择并沿以下行连接每个块中的相关行: 但是,我建议您看看viapandas,因为这允许您通过对索引数据的查询进行选择,而不是通过文件进行迭代。当然还有各种基于sql的选项 patient_id = id patient = pd.DataFrame() for chunk in pd.read_csv(filename

非常相关


我有一个非常大的csv,有
患者id,访问数据
列。我想从中读取一个小样本,但如果我对一名患者进行采样,我想对他的所有记录进行采样

如果要继续使用
.csv
,可以分块读取文件,选择并沿以下行连接每个块中的相关行:

但是,我建议您看看via
pandas
,因为这允许您通过对索引数据的查询进行选择,而不是通过文件进行迭代。当然还有各种基于
sql
的选项

patient_id = id
patient = pd.DataFrame()
for chunk in pd.read_csv(filename, chunksize=chunksize):
    patient = pd.concat([patient, chunk[chunk.patient_id==id])