Python 3.x 提取标准化样本python_Python 3.x_Dataset_Extraction

Python 3.x 提取标准化样本python

python-3.x

Python 3.x 提取标准化样本python,python-3.x,dataset,extraction,Python 3.x,Dataset,Extraction,我需要从10亿个数据库中提取1%的样本。这1%应平均分布在数值变量上。例如，如果数据集有1000行，数值变量的值为1-10，则输出样本有一个数据集，数据集的每行都有每个值。是的，可以使用随机模块在Python中编程任何标准采样方案您最后的评论描述了一个问题。再想一想，我相信你之前的评论描述了这一点。分层抽样是不是一个好主意取决于你的问题和数据。统计分析应与抽样方法相匹配。但是，这些问题不属于stackoverflow的范围如果您试图编写一个特定的方法，并且遇到了一个特定的编程问题，那么在这里

我需要从10亿个数据库中提取1%的样本。这1%应平均分布在数值变量上。例如，如果数据集有1000行，数值变量的值为1-10，则输出样本有一个数据集，数据集的每行都有每个值。

是的，可以使用随机模块在Python中编程任何标准采样方案

您最后的评论描述了一个问题。再想一想，我相信你之前的评论描述了这一点。分层抽样是不是一个好主意取决于你的问题和数据。统计分析应与抽样方法相匹配。但是，这些问题不属于stackoverflow的范围

如果您试图编写一个特定的方法，并且遇到了一个特定的编程问题，那么在这里询问它将是一个主题。

这似乎更像是一个统计抽样问题，而不是一个编程问题。然而，尽管我做了十年的统计学家，我还是不明白你的问题。我建议改写成多个句子，更加详细。希望现在更清楚：还不够，对不起。你有10亿美元吗？你想要什么样的样品？什么样的“数据库”？文本文件？关系数据库管理系统？我仍然不理解“平均分布在一个数值变量上”和“数据集具有每个值的每一行”。我们似乎已经学会了不同的表达方式。好吧，让我们简单一点。假设我只需要1%的数据子集，这样它就是整个数据集的真实表示。有什么办法可以用python实现吗？我希望现在更好：