Python 根据标准选择随机数据
假设我有一个包含4个字段的表Python 根据标准选择随机数据,python,dataframe,dask,Python,Dataframe,Dask,假设我有一个包含4个字段的表 table (id, alpha, beta, delta, gamma) 然后我想根据以下条件选择行 所有4个字段(alpha、beta、delta、gamma)均不为空 对于每个字段组合(alpha、beta、delta、gamma),它至少有7行 SELECT alpha, beta, delta, gamma FROM table GROUP BY alpha, beta, delta, gamma HAVING COUNT(*) >= 7 从每
table (id, alpha, beta, delta, gamma)
然后我想根据以下条件选择行
alpha
、beta
、delta
、gamma
)均不为空alpha
、beta
、delta
、gamma
),它至少有7行
SELECT alpha, beta, delta, gamma
FROM table
GROUP BY alpha, beta, delta, gamma
HAVING COUNT(*) >= 7
dask.bag
,显然效率不高
bag = (db.read_text('/path/to/the/jsonlines')
.map(ujson.loads)
.filter(lambda x: x['alpha'] and x['beta'] and x['delta'] and x['gamma'])
.groupby(lambda x: (x['alpha'], x['beta'], x['delta'], x['gamma']))
.filter(lambda x: len(x[1]) > 7))
编辑:数据库预计会随着时间的推移不断增长。jsonlines文件的集合是我需要为任务包含的数据的当前快照(即,我不想要新添加的数据)
有更好的办法吗