Python 3.x 提取标准化样本python
我需要从10亿个数据库中提取1%的样本。这1%应平均分布在数值变量上。例如,如果数据集有1000行,数值变量的值为1-10,则输出样本有一个数据集,数据集的每行都有每个值。是的,可以使用随机模块在Python中编程任何标准采样方案 您最后的评论描述了一个问题。再想一想,我相信你之前的评论描述了这一点。分层抽样是不是一个好主意取决于你的问题和数据。统计分析应与抽样方法相匹配。但是,这些问题不属于stackoverflow的范围Python 3.x 提取标准化样本python,python-3.x,dataset,extraction,Python 3.x,Dataset,Extraction,我需要从10亿个数据库中提取1%的样本。这1%应平均分布在数值变量上。例如,如果数据集有1000行,数值变量的值为1-10,则输出样本有一个数据集,数据集的每行都有每个值。是的,可以使用随机模块在Python中编程任何标准采样方案 您最后的评论描述了一个问题。再想一想,我相信你之前的评论描述了这一点。分层抽样是不是一个好主意取决于你的问题和数据。统计分析应与抽样方法相匹配。但是,这些问题不属于stackoverflow的范围 如果您试图编写一个特定的方法,并且遇到了一个特定的编程问题,那么在这里
如果您试图编写一个特定的方法,并且遇到了一个特定的编程问题,那么在这里询问它将是一个主题。这似乎更像是一个统计抽样问题,而不是一个编程问题。然而,尽管我做了十年的统计学家,我还是不明白你的问题。我建议改写成多个句子,更加详细。希望现在更清楚:还不够,对不起。你有10亿美元吗?你想要什么样的样品?什么样的“数据库”?文本文件?关系数据库管理系统?我仍然不理解“平均分布在一个数值变量上”和“数据集具有每个值的每一行”。我们似乎已经学会了不同的表达方式。好吧,让我们简单一点。假设我只需要1%的数据子集,这样它就是整个数据集的真实表示。有什么办法可以用python实现吗?我希望现在更好: