R规划均值

R规划均值,r,mean,R,Mean,嗨,我是R的新手,遇到了一个大问题。 我处理的数据要大得多,但要解释起来却要小得多。 这是我的数据示例 Data.file的名称为:data1 1. Product price 2. egd 132 3. egd 195 4. apd 185 5. apd 132 6. xys 153 因此,首先我想知道如何获得前10个最常用的产品,并执行以下命令:sort(table(data1$product),discreating=TRUE)[

嗨,我是R的新手,遇到了一个大问题。 我处理的数据要大得多,但要解释起来却要小得多。 这是我的数据示例

Data.file的名称为:data1

1. Product  price
2.   egd    132   
3.   egd    195
4.   apd    185
5.   apd    132
6.   xys    153
因此,首先我想知道如何获得前10个最常用的产品,并执行以下命令:
sort(table(data1$product),discreating=TRUE)[1:10]
而且效果很好

现在,我想从前10名产品中的每种产品中获得平均价格(我想这就是所谓的平均价格?)

1. EGD  APD 
2. 132  321  
and so on...
在那之后,我想要相同的,但除了前10名以外的所有产品

这可能吗?如果是这样的话,我将非常感谢您的帮助

致以最良好的祝愿,
Surken首先将产品转换为因子列:

test <- data.frame(product=c('egd', 'egd', 'apd', 'apd', 'xys'),
    price=c(132, 195, 185, 132, 153))

test$product <- factor(test$product)

  product price
1     egd   132
2     egd   195
3     apd   185
4     apd   132
5     xys   153

然后,您可以像以前一样使用
sort
discreating=T
对向量进行排序,并对前十个
[1:10]
和其他所有
[11:length(results)]

进行索引。这里唯一的问题是,我有大约30000个产品线,它们都有价格,因此,手动添加它们将很困难:/那么您有需要读取的文件吗?我建议先看一下关于将文件读入R的
?read.table
文档。我有一个保存为.CSV的excel文件,我已经添加了该文件,并且删除了所有NA,并设法从中获得了前10个产品。我也可以计算单个产品的平均价格,但因为产品太多,所以需要花费很长时间。
data
tapply(test$price, test$product, mean)

apd   egd   xys 
158.5 163.5 153.0