通过匹配相似的行来解构R中的列?

通过匹配相似的行来解构R中的列?,r,data-manipulation,confidence-interval,bigdata,R,Data Manipulation,Confidence Interval,Bigdata,我目前正在做一个项目,我有一个巨大的数据帧,16196个obs,包含25个变量。目标是消除每个特定处理的数据帧中可能存在的任何异常值。问题是,带有处理的列中有每个处理,每个处理的持续时间不同。让我给你举个例子 val_lvl2:chr“颈椎融合(脊柱融合)”“非手术治疗”“非手术治疗”“非手术治疗”… 珠三角的天数:16746 46 16746 46 16746… 输出来自str(z_组合成本\u dtrmnt) 我们可以看到val_lvl2具有所有治疗方法(100+未显示)。而prd_num_

我目前正在做一个项目,我有一个巨大的数据帧,16196个obs,包含25个变量。目标是消除每个特定处理的数据帧中可能存在的任何异常值。问题是,带有处理的列中有每个处理,每个处理的持续时间不同。让我给你举个例子

val_lvl2:chr“颈椎融合(脊柱融合)”“非手术治疗”“非手术治疗”“非手术治疗”…

珠三角的天数:16746 46 16746 46 16746…

输出来自str(z_组合成本\u dtrmnt)

我们可以看到val_lvl2具有所有治疗方法(100+未显示)。而prd_num_of_days_num具有特定治疗的长度。现在我想做的是将所有(还有更多)的“颈椎融合”数据和“非手术治疗”数据合并到它们自己的小数据帧中。在此之后,我希望对治疗的长度建立95%的置信度,然后删除不属于该CI的任何数据行。然后带回数据帧,这样我们又有了一个大的数据帧,但是每个处理中的异常值都消失了

我将非常感谢任何帮助,因为我真的不知道从哪里开始,因为似乎没有简单的方法可以按照我想要的方式分解数据帧

目前正在考虑使用聚合函数

阿格

基于val_lvl2中唯一值的较小数据帧,请记住存在相似的唯一值,即“颈椎融合”的多个实例应位于同一个小数据帧-->

根据每个小数据帧的prd天数创建95%CI-->

如果prd_num_of_days_num在CI-->

将没有异常值的小数据帧再次合并到一个大数据帧中。

因此,您有一个数据帧(df),包含25个变量,您希望将其分解为X个较小的数据帧,X是唯一处理的数量,每个处理包含剩余的24个变量,但仅包含一种处理类型。对吗

treatment1 <- df[df$val_lvl2 == "Cervical Fusion (Spinal Fusion)"]
treatment2 <- df[ds$val_lvl2 =="Non-Surgical Treatment"]
# etc...

treatment1欢迎来到StackOverflow。请提供一个Hey@stevenbaupré!我目前的想法是尽可能地进行汇总。这是我到目前为止所拥有的。没错!我真的想过要做你刚才做的事。但由于val_lvl2大约有150种治疗方法,我希望能找到更有效、更全面的治疗方法。这是一种沿着这条路走的东西。大数据帧-->基于唯一值的较小数据帧-->基于每个小数据帧的prd_num_of u days_num创建95个CI-->如果CI之外的prd_num of u days_num-->将没有异常值的小数据帧再次合并到一个大数据帧中,则删除整行。我也不知道为什么文本没有按我想要的方式隔开…对不起,但是我有点难以理解你到底想要完成什么。我建议你删除这篇文章,用一个小规模的示例代码制作一个新的,可以很容易地复制。要对您的所有病例快速执行上述操作,请尝试以下操作:
治疗谢谢!如果我不能从发布的内容中挤出一个解决方案,我会看看这个小片段能让我得到什么,然后回到这个黑板上。这有点复杂,所以我感谢你的努力!