Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/69.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 创建子集数组_R - Fatal编程技术网

R 创建子集数组

R 创建子集数组,r,R,全部 长话短说: 我有一个超过60000条目的数据集 一个变量是基于个人来自何处(位置),大约有10个不同的类别。另一个是总体满意度,从1分到10分 然而,所有类别都包含单词Rural或单词Urban 我想做的是比较位置变量中包含单词Rural的所有案例和位置变量中包含单词Urban的所有案例的总体平均值 我使用了一种变通方法,它只是在Excel的初始数据集中创建一个附加列,在位置列中查找单词Rural或Urban,并根据找到的内容返回Rural或Urban,但我相信一定有一种方法可以严格使用R

全部

长话短说:

我有一个超过60000条目的数据集

一个变量是基于个人来自何处(位置),大约有10个不同的类别。另一个是总体满意度,从1分到10分

然而,所有类别都包含单词Rural或单词Urban

我想做的是比较位置变量中包含单词Rural的所有案例和位置变量中包含单词Urban的所有案例的总体平均值

我使用了一种变通方法,它只是在Excel的初始数据集中创建一个附加列,在位置列中查找单词Rural或Urban,并根据找到的内容返回Rural或Urban,但我相信一定有一种方法可以严格使用R


这可能吗?谢谢大家!

创建一些虚拟数据:

set.seed(1)
foo <- data.frame(
  loc=sample(c(paste0("Rural",LETTERS[1:5]),paste0(LETTERS[10:14],"Urban")),
    100,replace=TRUE),
  xx=rnorm(100))
或者你真的想要做一个t检验:

> with(foo,t.test(xx~grepl("Urban",loc)))

        Welch Two Sample t-test

data:  xx by grepl("Urban", loc)
t = -0.60245, df = 97.076, p-value = 0.5483
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.4886860  0.2610932
sample estimates:
mean in group FALSE  mean in group TRUE 
        -0.07220176          0.04159463

请提供一个可复制的例子
> with(foo,t.test(xx~grepl("Urban",loc)))

        Welch Two Sample t-test

data:  xx by grepl("Urban", loc)
t = -0.60245, df = 97.076, p-value = 0.5483
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.4886860  0.2610932
sample estimates:
mean in group FALSE  mean in group TRUE 
        -0.07220176          0.04159463