R规划均值
嗨,我是R的新手,遇到了一个大问题。 我处理的数据要大得多,但要解释起来却要小得多。 这是我的数据示例 Data.file的名称为:data1R规划均值,r,mean,R,Mean,嗨,我是R的新手,遇到了一个大问题。 我处理的数据要大得多,但要解释起来却要小得多。 这是我的数据示例 Data.file的名称为:data1 1. Product price 2. egd 132 3. egd 195 4. apd 185 5. apd 132 6. xys 153 因此,首先我想知道如何获得前10个最常用的产品,并执行以下命令:sort(table(data1$product),discreating=TRUE)[
1. Product price
2. egd 132
3. egd 195
4. apd 185
5. apd 132
6. xys 153
因此,首先我想知道如何获得前10个最常用的产品,并执行以下命令:sort(table(data1$product),discreating=TRUE)[1:10]
而且效果很好
现在,我想从前10名产品中的每种产品中获得平均价格(我想这就是所谓的平均价格?)
1. EGD APD
2. 132 321
and so on...
在那之后,我想要相同的,但除了前10名以外的所有产品
这可能吗?如果是这样的话,我将非常感谢您的帮助
致以最良好的祝愿,
Surken首先将产品转换为因子列:
test <- data.frame(product=c('egd', 'egd', 'apd', 'apd', 'xys'),
price=c(132, 195, 185, 132, 153))
test$product <- factor(test$product)
product price
1 egd 132
2 egd 195
3 apd 185
4 apd 132
5 xys 153
然后,您可以像以前一样使用
sort
和discreating=T
对向量进行排序,并对前十个[1:10]
和其他所有[11:length(results)]
进行索引。这里唯一的问题是,我有大约30000个产品线,它们都有价格,因此,手动添加它们将很困难:/那么您有需要读取的文件吗?我建议先看一下关于将文件读入R的?read.table
文档。我有一个保存为.CSV的excel文件,我已经添加了该文件,并且删除了所有NA,并设法从中获得了前10个产品。我也可以计算单个产品的平均价格,但因为产品太多,所以需要花费很长时间。data
tapply(test$price, test$product, mean)
apd egd xys
158.5 163.5 153.0