Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ssis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 提取标准化样本python_Python 3.x_Dataset_Extraction - Fatal编程技术网

Python 3.x 提取标准化样本python

Python 3.x 提取标准化样本python,python-3.x,dataset,extraction,Python 3.x,Dataset,Extraction,我需要从10亿个数据库中提取1%的样本。这1%应平均分布在数值变量上。例如,如果数据集有1000行,数值变量的值为1-10,则输出样本有一个数据集,数据集的每行都有每个值。是的,可以使用随机模块在Python中编程任何标准采样方案 您最后的评论描述了一个问题。再想一想,我相信你之前的评论描述了这一点。分层抽样是不是一个好主意取决于你的问题和数据。统计分析应与抽样方法相匹配。但是,这些问题不属于stackoverflow的范围 如果您试图编写一个特定的方法,并且遇到了一个特定的编程问题,那么在这里

我需要从10亿个数据库中提取1%的样本。这1%应平均分布在数值变量上。例如,如果数据集有1000行,数值变量的值为1-10,则输出样本有一个数据集,数据集的每行都有每个值。

是的,可以使用随机模块在Python中编程任何标准采样方案

您最后的评论描述了一个问题。再想一想,我相信你之前的评论描述了这一点。分层抽样是不是一个好主意取决于你的问题和数据。统计分析应与抽样方法相匹配。但是,这些问题不属于stackoverflow的范围


如果您试图编写一个特定的方法,并且遇到了一个特定的编程问题,那么在这里询问它将是一个主题。

这似乎更像是一个统计抽样问题,而不是一个编程问题。然而,尽管我做了十年的统计学家,我还是不明白你的问题。我建议改写成多个句子,更加详细。希望现在更清楚:还不够,对不起。你有10亿美元吗?你想要什么样的样品?什么样的“数据库”?文本文件?关系数据库管理系统?我仍然不理解“平均分布在一个数值变量上”和“数据集具有每个值的每一行”。我们似乎已经学会了不同的表达方式。好吧,让我们简单一点。假设我只需要1%的数据子集,这样它就是整个数据集的真实表示。有什么办法可以用python实现吗?我希望现在更好: