R-选择案例,使变量的平均值为某个给定的数字

R-选择案例,使变量的平均值为某个给定的数字,r,R,我以前在一个项目中工作,我们检查了一些社会学数据。我做了描述性统计,几个月后,我被要求根据统计数据制作一些图表 我做了一些图表,但有些奇怪,当我将图表与报告中的数字进行比较时,我注意到它们是不同的。在进一步调查后,我注意到我的清理代码(删除了具有重复ID的参与者)现在会产生更多的行,例如比以前更多具有唯一ID的参与者。我现在有730名参与者,而之前有702名参与者,我不知道这是否是由于一些软件包的更新,不幸的是,我无法在这里发布实际数据,因为它是机密的,但我试图找出这28名参与者是谁以及数据中发

我以前在一个项目中工作,我们检查了一些社会学数据。我做了描述性统计,几个月后,我被要求根据统计数据制作一些图表

我做了一些图表,但有些奇怪,当我将图表与报告中的数字进行比较时,我注意到它们是不同的。在进一步调查后,我注意到我的清理代码(删除了具有重复ID的参与者)现在会产生更多的行,例如比以前更多具有唯一ID的参与者。我现在有730名参与者,而之前有702名参与者,我不知道这是否是由于一些软件包的更新,不幸的是,我无法在这里发布实际数据,因为它是机密的,但我试图找出这28名参与者是谁以及数据中发生了什么

因此,我想知道是否有一种方法允许用户过滤案例,以便某些变量的平均值是一个设定值。理想情况下是这样的,但我当然知道它不会以这种形式工作:

iris %>% 
  filter_if(mean(.$Petal.Length) == 1.3) 

我知道这是一次不正确的尝试,但我不知道还有什么其他方法可以尝试,因此我正在寻求帮助和建议。

我不认为这是一个可处理的问题,但您可以通过执行以下操作来达到目的

首先,计算出原始分析中变量的总和,以及现在的总和:

old_sum <- 702 * old_mean
new_sum <- 730 * new_mean

old_sum No.假设您有3例
c(1,2,3)
,并过滤为平均值2。它怎么知道是所有的情况,只有1和3,还是只有2?@Caldwellest它不知道,但我知道确切的样本大小,所以如果你的例子的样本大小是2,它只能是
c(1,3)
。其他组合会产生1.5或2.5的平均值。听起来好像你想找出730名参与者中哪702人的平均值与你之前发现的相同。换句话说,702名参与者的总和为(702*旧平均值)。因为有2.8*10^50种方法可以从一组730个元素中选择702个元素,所以不能通过穷举搜索来完成。你没有其他线索吗?@AllanCameron说得对!我以前尝试过为
编写一个
循环,该循环将遍历所有可能的参与者组合,但这将需要数万亿年的时间来计算。不幸的是,我没有任何其他线索,只有20个变量的描述性统计数据。有没有其他方法可以解决这个问题?@J.Doe请看下面我的答案
extra_sum <- new_sum - old_sum