Statistics 如何在数据集中找到值的分布并基于此分布生成随机值?

Statistics 如何在数据集中找到值的分布并基于此分布生成随机值?,statistics,distribution,Statistics,Distribution,我有100个案例的数据集。每种情况都有一个类{I、II、III、IV、V}和一个值a和V,每个类在数据集中正好出现20次: Class A V 5 2 3 1 3 5 3 2 3 2 3 5 3 2 3 1 2 4 1 2 4 1 4 4 2 3 3 2 3 4 我想在此基础上再生成100个案例。我认为我应该这样做对吗 找到每类

我有100个案例的数据集。每种情况都有一个类{I、II、III、IV、V}和一个值a和V,每个类在数据集中正好出现20次:

Class   A   V
5       2   3
1       3   5
3       2   3
2       3   5
3       2   3
1       2   4
1       2   4
1       4   4
2       3   3
2       3   4
我想在此基础上再生成100个案例。我认为我应该这样做对吗

  • 找到每类A和V的分布
  • 计算每类A&V的联合分布
  • 基于此联合分布获取随机数

  • 如果是这样的话,任何指向java或python中的应用程序或库的指针都是值得赞赏的

    当我想在dataset中查找值的分布时,我使用R中的包rriskDistributions。这个包为用户提供了一个GUI,允许用户在不了解R语法的情况下选择最合适的分布


    “找到”一个发行版确实很有挑战性,尤其是记录太少的情况下——您是否了解生成这些数据的过程?关于类如何影响A和V,以及A和V如何关联的想法?我想那将是一个很大的帮助。您还可以考虑从现有样本中重新采样(替换)。更多的上下文将是有益的!A和V的分布几乎是正态的(从直方图判断),所以我从中生成了随机值。