有没有办法让R中的density()函数使用计数与概率?

有没有办法让R中的density()函数使用计数与概率?,r,histogram,kernel-density,density-plot,frequency-distribution,R,Histogram,Kernel Density,Density Plot,Frequency Distribution,有没有办法使R中的density()函数使用计数vs.概率? 例如,当使用直方图函数hist检查密度分布时,我有两个选项: hist(x,freq=F) #"graphic is a representation of frequencies, the counts component of the result" hist(x,freq=T) #"probability densities, component density, are plotted (so that the histo

有没有办法使R中的density()函数使用计数vs.概率?

例如,当使用直方图函数
hist
检查密度分布时,我有两个选项:

hist(x,freq=F)  #"graphic is a representation of frequencies, the counts component of the result"
hist(x,freq=T)  #"probability densities, component density, are plotted (so that the histogram has a total area of one)"
我想知道是否有一种方法可以使用
density
函数做类似的事情

在我的具体示例中,我有不同直径的树的计数。(我要注意的是,我将数据保持为连续的大小比例,而不是将它们集中到离散的大小类中)。当我对这些数据使用
density
函数时(即
plot(density(dat$D,na.rm=T,from=0))
,它给出了每个大小概率的密度估计(当然是平滑的)。我更感兴趣的是将这些数据报告为茎/面积vs.概率,所以我更喜欢密度估计而不是使用计数

想法


更新:

以下是一些真实的示例数据:

 dat <- c(6.6, 7.1, 8.4, 27.4, 11.9, 18.8, 8.9, 25.4, 8.9, 8.6, 11.4, 19.3, 7.6, 42.2, 20.8, 25.1, 38.1, 42.2, 5.2, 34.3, 42.7, 34, 37.3, 45.5, 39.4, 25.1, 30.7, 23.1, 43.4, 19.6, 30.5, 23.9, 10.7, 18.3, 30, 35.8, 8.1, 11.9, 28.4, 30.5, 34.3, 10.4, 45, 38.9, 8.9, 11.7, 9.7, 7.4, 3.8, 20.6, 48.8, 6.6, 40.4, 13, 16, 8.6, 16, 13, 12.2, 11.4, 10.2, 22.6, 17.3, 12.4, 9.7, 17.3, 10.9, 27.2, 9.1, 13, 10.9, 15, 10.4, 27.2, 21.6, 18.8, 12.7, 15.5, 17, 16.3, 18, 26.9, 10.2, 21.3, 19, 11.7, 10.7, 18, 9.9, 16.5, 19.6, 22.1, 9.9, 18.3, 17, 6.9, 7.6, 12.7, 13.2, 9.7, 13.5, 18.3, 19.3, 30, 20.1, 18.5, 12.2, 16, 17, 14.2, 5.6, 12.2, 7.6, 17, 14, 16.5, 13.7, 11.9, 14.2, 15, 13.7, 13.2, 9.1, 6.9, 9.9, 11.4, 12.7, 10.2, 12.4, 15, 20.1, 6.9, 8.1, 11.4, 10.7, 10.9, 18.3, 9.1, 6.3, 17.3, 20.1, 9.4, 7.1, 16, 15, 10.9, 14.7, 18.8, 14.5, 10.7, 14, 10.4, 14.5, 15.7, 10.9, 14.7, 19.3, 12.4, 7.1, 14, 15.5, 36.8, 23.1, 7.9, 9.9, 8.1, 14.7, 13.7, 18, 10.7, 11.9, 12.7, 12.4, 17.8, 7.9, 12.2, 10.4, 13, 14.7, 12.7, 8.1, 14.2, 10.2, 11.9, 5.6, 8.4, 6.1, 7.6, 7.9, 19.8, 7.4, 12.7, 10.2, 12.4, 10.4, 12.4, 26.9, 12.7, 16.8, 22.9, 15.7, 10.4, 13.7, 8.1, 13.7, 14.2, 21.6, 20.8, 12.4, 10.9, 10.2, 29.5, 19.3, 8.9, 6.1, 11.2, 7.1, 28.7, 15.7, 10.4, 8.6, 10.4, 9.1, 14.5, 25.7, 11.4, 15.5, 8.1, 13.2, 16.8, 5.8, 20.8, 10.2, 9.1, 5.6, 14.5, 14.5, 17.5, 29.2, 13, 14, 12.4, 9.9, 21.1, 18.8, 14, 15.5, 9.7, 24.1, 20.1, 20.3, 12.4, 15.2, 15.7, 8.6, 8.6, 10.4, 12.4, 16.8, 4.1, 8.1, 6.6, 11.7, 7.9, 17.5, 9.1, 4.6, 7.1, 7.6, 9.4, 20.8, 11.4, 15.5, 7.1, 18.5, 7.9, 16.5, 6.3, 6.1, 16.5, 15.5, 17.3, 20.3, 12.7, 20.3, 13.7, 8.4, 16.8, 14, 18, 10.9, 19.8, 10.7, 27.2, 11.4, 7.9, 11.2, 14.5, 14.2, 11.2, 13.5, 18.5, 4.3, 7.9, 6.1, 9.9, 14.7, 8.4, 14, 12.4, 15, 14.2, 11.4, 7.6, 12.7, 5.8, 16, 7.9, 3.3, 5.8, 4.8, 4.8, 7.4, 9.1, 8.4, 3.8, 9.1, 9.4, 8.4, 9.9, 7.9, 13.2, 20.8, 18.3, 16.8, 13.5, 12.4, 8.1, 6.3, 7.6, 18.5, 14, 10.2, 9.4, 11.9, 11.4, 13, 14.5, 17, 7.9, 10.2, 7.4, 5.3, 6.9, 17.8, 5.6, 10.9, 9.9, 9.9, 16.5, 8.9, 24.1, 22.9, 13.5, 10.7, 23.4, 10.9, 28.2, 5.6, 19.6, 15.2, 6.3, 23.1, 19.3, 26.7, 30.5, 13.7, 7.9, 20.8, 19.8, 21.6, 21.6, 9.9, 30.5, 16.3, 11.9, 5.1, 15.2, 13.2, 7.1, 5.8, 9.9, 19.3, 15.5, 25.7, 14, 29.7, 11.9, 12.7, 25.9, 16.3, 25.9, 6.1, 26.7, 7.9, 9.7, 22.1, 20.1, 24.4, 17.3, 13.2, 16.5, 16.8, 21.8, 15.2, 9.9, 19.6, 23.6, 23.4, 17.8, 15.5, 11.4, 20.8, 22.1, 26.4, 12.4, 14.2, 6.9, 22.1, 22.6, 34.5, 15, 13.2, 19.6, 18.3, 15.5, 13.5, 14, 19.8, 21.1, 16.3, 19.8, 13.7, 12.2, 11.7, 31.7, 12.7, 13.2, 7.6, 12.2, 13.2, 31.7, 9.9, 10.2, 9.1, 9.1, 21.6, 8.6, 12.7, 13.5, 9.7, 8.9, 11.7, 8.4, 19.6, 7.6, 13.2, 18.3, 11.2, 22.4, 10.9, 14.7, 12.7, 16.8, 18.8, 15, 8.1, 20.8, 22.1, 7.6, 16.3, 10.9, 8.9, 11.7, 24.4, 29, 29.2, 27.4, 25.1, 6.6, 11.7, 16.5)

dat通过将密度值标准化为样本中的数值,可以将其转换为计数。例如:

# Fake data
k=1000
set.seed(104)
val = rnorm(k)
dens = density(val, n=512)

# Convert to counts
dens$y = k/sum(dens$y) * dens$y

plot(dens)
但请记住,最终的计数取决于x轴的细分程度(这取决于
n
参数到
密度
)。您可以使用
平均值(diff(dens$x))
确定delta-x(间隔实际上没有变化,但由于舍入误差,它们并不完全相同)

更新:根据您的评论,下面的代码应该解释发生了什么。但首先,请注意,在对实际数据进行装箱时得到的计数(通常)与从内核密度估计中得到的计数不匹配,除非实际数据的装箱间隔与用于内核密度估计的间隔相同。(由于核密度估计中的平滑,计数在任何情况下都不可能精确匹配,但为了获得紧密的对应关系,装箱间隔需要相同。)

创建3个内核密度估计值:前两个分别使用20和100个点。第三个使用100点,但默认带宽的十分之一

# Convert density to counts
ctc = function(data, nPoints, numValues, adj=1) {
  dens = density(data$diameter, n=nPoints, adjust=adj)
  dens$y = numValues/sum(dens$y) * dens$y
  return(dens)
}

dens20 = ctc(dat, 20, k)
dens100 = ctc(dat, 100, k)
dens100adj = ctc(dat, 100, k, 0.1)
使用实际计数和根据内核密度估计估计的计数创建数据帧。我们将使用
cut
函数来确保实际计数使用与内核密度估计相同的间隔

dd = function(data, dens) {
  data = data.frame(table(cut(data$diameter, 
                              breaks=c(dens$x - 0.5*mean(diff(dens$x)),Inf))),
                    DensityCounts=round(dens$y,1))  # Rounding is just for easier comparison by eye if you display the data frame
  names(data)[1:2] = c("DiameterRange","ActualCounts")
  return(data)
}

dat20 = dd(dat, dens20)
dat100 = dd(dat, dens100)
dat100adj = dd(dat, dens100adj)
现在,我们创建了将每个核密度估计值与实际计数进行比较的图。请注意实际计数何时与密度估计值中创建的计数匹配,以及带宽和我们使用的间隔的精细程度如何影响计数

pf = function(data, title) {
  ggplot(data %>% melt(id.var="DiameterRange"), 
         aes(DiameterRange, value, colour=variable, group=variable)) +
    geom_line() +
    theme(axis.text.x=element_text(angle=-90, vjust=0.5, hjust=0)) +
    ggtitle(title)
}

gridExtra::grid.arrange(pf(dat20, "n=20"), 
                        pf(dat100, "n=100"), 
                        pf(dat100adj, "n=100; 1/10th default bandwidth"))

除非您特别需要
density
功能,否则您可以使用
表中的

Counts<-table(factor(dat$D,levels=0:n)) # n=number of size levels

plot(Counts,type="l")

counts如果将它们分解为离散类,那么您所要做的就是对每个类的曲线进行积分。这是一个非常接近的匹配:
plot(x=as.numeric(name(table(dat))),y=table(dat),type='l');行(dens$x,dens$y*sum(dens$y)/diff(dens$x)[1],col=2)
@BenBolker感谢您的替代方法。然而,我无法让它与其他数据集保持一致。总之,最终,我不希望这两张图看起来相似。我希望能够将
density()
输出的概率值转换为实际计数。这可能吗?我实际上是在用表(dat)来通知我的图表。然而,我确实希望这条线变得平滑。这似乎不起作用。当我的计数为7时,x值的dens$y是0.2865707498,但当我使用你的等式时,结果是2.544275344。我希望结果是7。我只是在错误地处理这个问题吗?如果你发布一个数据样本,也许会有所帮助。当你说你有一个“计数7”,在什么间隔内(在你的情况下直径的范围)?间隔是否与密度估计中的间隔相同?如果不是,则计数可能不同。实际上,由于核密度估计的平滑,计数在任何情况下都会有所不同。记住,密度估计不是X值(在本例中X是直径)恰好等于某个值(在本例中为0.2865)的概率。这是在席席和西+ 1之间的概率,在这个范围内(在内核密度估计的情况下)<代码>平均(差异(dun $ x))< /> >。当我们转换为计数时,我们得到给定数量的计数落在席席和Xi+1以内的概率(给定样本中的数据点的数量和它们的特定值)。(我们还没有讨论带宽,但也影响结果。R通过默认方法确定,但可以改变它。)嘿@我终于决定重新审视这一点。我已经对我的问题进行了更新,包括提供示例数据和演示如何解决问题;我不能用你的方法处理我的数据。如果您能提供任何额外的帮助,我们将不胜感激!
pf = function(data, title) {
  ggplot(data %>% melt(id.var="DiameterRange"), 
         aes(DiameterRange, value, colour=variable, group=variable)) +
    geom_line() +
    theme(axis.text.x=element_text(angle=-90, vjust=0.5, hjust=0)) +
    ggtitle(title)
}

gridExtra::grid.arrange(pf(dat20, "n=20"), 
                        pf(dat100, "n=100"), 
                        pf(dat100adj, "n=100; 1/10th default bandwidth"))
Counts<-table(factor(dat$D,levels=0:n)) # n=number of size levels

plot(Counts,type="l")