每个变量具有不同级别数的r-拉丁超立方体采样_R_Simulation_Categorical Data_Hypercube

每个变量具有不同级别数的r-拉丁超立方体采样

每个变量具有不同级别数的r-拉丁超立方体采样,r,simulation,categorical-data,hypercube,R,Simulation,Categorical Data,Hypercube,我做了一些挖掘，但我对拉丁超立方体采样的概念还是很陌生。我发现它使用了lhspacakge： set.seed(1) randomLHS(5,2) [,1] [,2] [1,] 0.84119491 0.89953985 [2,] 0.03531135 0.74352370 [3,] 0.33740457 0.59838122 [4,] 0.47682074 0.07600704 [5,] 0.75396828 0.35548904 据我所知，结果矩阵中的条

我做了一些挖掘，但我对拉丁超立方体采样的概念还是很陌生。我发现它使用了

lhs

pacakge：

set.seed(1)
randomLHS(5,2)

           [,1]       [,2]
[1,] 0.84119491 0.89953985
[2,] 0.03531135 0.74352370
[3,] 0.33740457 0.59838122
[4,] 0.47682074 0.07600704
[5,] 0.75396828 0.35548904

据我所知，结果矩阵中的条目是5个点的坐标，用于确定两个连续变量的组合

我试图用5个分类变量做一个模拟。每个变量的级别数范围为2到5。这将导致2 x 3 x 4 x 2 x 5=240个场景。我想尽量减少它，所以我想使用拉丁超立方体，但我不知道如何继续。任何想法都将不胜感激

另外，您知道有什么好的资源可以解释如何分析拉丁超立方体采样的结果吗

出于以下原因，我建议使用240个设计点的全因子

见鬼，这就是计算机用来自动化单调乏味的工作的原因计算任务。240个设计点算不了什么，你在做什么这是电脑上的！您可以使用嵌套的循环遍历级别，每个因子一个循环。不要忘记复制的最内层循环。如果每次模拟都需要超过一两分钟，在多个内核或多个机器。我的一个学生最近为他的硕士论文做了这个并且能够运行超过一百万个模拟实验一个周末

对于连续因子，您通常会假定响应面，并推断/投影相邻设计之间的响应基于回归的点。有了分类数据，推理就不那么简单了对排除的因素组合和相互作用有效很可能是主导效应。除非你尽全力从阶乘上看，忽略的组合可能是最重要的，也可能不是重要的，但关键是你永远不会知道你没有在那里取样

一般来说，您使用的分析工具与您在进行任何其他类型的抽样回归、逻辑回归、方差分析、划分树等时使用的分析工具相同，。。。对于分类因子，我非常喜欢分区树。

我建议使用240个设计点的完整因子，原因如下

对于连续因子，您通常会假定响应面，并推断/投影相邻设计之间的响应基于回归的点。有了分类数据，推理就不那么简单了对排除的因素组合和相互作用有效很可能