R 在多个不同的切片上应用聚合函数

我有一个数据数组,其中包含有关人员和项目的一些信息,例如: person_id | project_id | action | time -------------------------------------- 1 | 1 | w | 1 1 | 2 | w | 2 1 | 3 | w | 2 1 | 3 |

R 如何使这个循环更有效?

我有一个如下所示的数据框: user1,product1,0 user1,product2,2 user1,product3,1 user1,product4,2 user2,product3,0 user2,product2,2 user3,product4,0 user3,product5,3 数据帧有数百万行。我需要遍历每一行,如果最后一列中的值为0,则保留该产品编号,否则将产品编号附加到值为0的前一个产品编号,然后写入新的数据框 例如,生成的矩阵应为 user1,product1 us

R数学注释

我在数学注释中插入垂直线时遇到问题。我已经在注释符号中搜索过了,但运气不好 我想在绘图的x标签中添加一个包含条件概率符号(|)的数学注释。我想要的是表达式p(x|j | o|I),其中“j”和“I”是下标 我有以下结构 plot(1:10, xlab = expression( paste("Likelihood, p" * (y[i] %up% o[j])) )) 我想用垂直线代替箭头。 非常感谢您的任何帮助或指导。这会让您达到“那里”(对于“那里”的一些定义): 这并不是OP的答案。似乎很

R 统计同一个月和不同月份的不同ID

我有这样一个数据框: FisherID Year Month VesselID 1 2000 1 56 1 2000 1 81 1 2000 2 81 1 2000 3 81 1 2000 4 81 1 2000 5 81 1 2000 6 81 1 2000 7 81 1 2000 8 81 1 2000 9 81 1 2000

线图在R中,图没有意义

我有一个名为“降雨”的数据集,上面几行是 Year Month Date cuftsec lsec log10lsec 1 1997 January 1/15/1997 57.100 3.360907e-02 -1.473544 2 1997 February 2/15/1997 13.800 8.122686e-03 -2.090300 3 1997 March 3/15/1997 5.100 3.001866e-03 -2.522609 4

按R部分比较两个帧

我想按部分比较两个数据帧。以下是我的数据帧示例: a1 <- data.frame(a = 1:5, b=letters[1:5]) a2 <- data.frame(a = c(1,6,3,4), b=letters[1:4]) a1dual.matches dual.matches <- match(a1$a, a2$a) == match(a1$b, a2$b) sequential.dual.matches <- with(rle(dual.matches),

R:通过某一列获取data.frame组中的列之和

我有一个示例data.frame,如下所示,我想创建另一个data.frame,它包含该表的某一列的统计信息,我如何才能做到这一点 例如,在下面的data.frame中,我希望通过图表获得每列的总和 示例data.frame: Chart Sum Sum_Squares Count Average Chart1 2 4 4 1 Chart1 3 9 3

如何在R中保持浮点精度?

我给R中的一个变量赋值一个浮点数 e、 g 如何保持k的精度 我在这里读过一些帖子,但是,我没有找到解决办法。首先,为了确保您确实丢失了精度,请使用sprintf()打印它,或者使用print()将digits参数设置为较高的值(但不大于22)来查看更多的数字: k <- 1200.0000002161584854 k # [1] 1200 sprintf("%4.20f", k) # [1] "1200.00000021615846890199" 我们看到这些值实际上是不同的: spr

在R程序中将NA替换为0

我试图将数据帧中的NA替换为0 data[is.nan(data)] <- 0 Error en is.nan(data) : default method not implemented for type 'list' data[is.nan(data)]data使用is.nanot is.nan:data[is.na(data)]你不应该这样做NA与零不同。 data <- replace(data, is.na(data), 0)

R 用ID计算时差

我有这样的数据: Incident.ID.. = c(rep("INCFI0000029582",4), rep("INCFI0000029587",4)) date = c("2014-09-25 08:39:45", "2014-09-25 08:39:48", "2014-09-25 08:40:44", "2014-10-10 23:04:00", "2014-09-25 08:33:32", "2014-09-25 08:34:41", "2014-09-25 08:35:24", "

R 利用条件提取分组子集

我有以下数据结构: Group Count Value 1 1 1000 1 10 2000 2 6 1000 2 7 2000 某些组具有计数值和数据值。现在我只想要那些count>0.25*sum(组计数)的行。 例如,组1具有sum(count)=11,因此第一行不应包含在结果中 结果应该如下所示: Group Count Value 1 10 2000 2 6 1000 2 7

基于R的文本挖掘

我需要帮助在文本挖掘使用R Title Date Content Boy May 13 2015 "She is pretty", Tom said. Tom is handsome. Animal June 14 2015 The penguin is cute, lion added. Human March 09 2015 Mr Koh predicted that every human is sm

R 从树状图中剪出一个簇

我正在使用这个链接绘制一个漂亮的树状图,根据类别使用彩色标签。 第二个答案是我在这个链接()中看到的,它使用下面的代码: d <- dist(t(mat[,3:ncol(mat)]), method = "euclidean") H.fit <- hclust(d, method="ward") groups <- cutree(H.fit, k=16) # cut tree into clusters hcdata<- dendro_data(H.fit, type

R 在绘图中对轴进行排序

我有以下代码,其中日期表示X的值,数字表示Y的值。出于某种原因,Y轴的顺序是随机顺序,我似乎无法以任何方式影响这一点。附加Y轴外观的图像 似乎您的值可能是因子。将其转换为数字,并应正确绘制: dataToPlot = data.frame( Date = as.POSIXct(JMFINNTradingData$Transact.Time, format = "%Y/%m/%d %H:%M:%OS"), RollingPositionValues = JMFINNTradingData$

R 彩色侧栏树状图

最初,我试图使用Dendestend的彩色条将水平彩色侧栏添加到树状图(而不是整个热图) 下面的代码(感谢您的帮助!)运行得非常好。剩下的唯一问题是如何控制条与叶子标签的距离和条的宽度 下面是一个示例,数据和代码 数据(4个变量,5个案例) df这可以通过使用来实现 首先要安装您可以使用的最新Dendestend版本: install.packages(dendextend) 以下是使用mtcars的示例: ## mtcars example # Create the dend: dend

R 从一个文件导入的数据与从许多文件导入的数据的差异

我建立了一个函数,允许我逐个处理.csv文件。这涉及使用read.csv函数导入数据,为其中一列指定名称,并基于该列进行一系列计算。但是,我在如何将此功能应用于整个文件夹的文件方面遇到了问题。生成文件列表后,我是否需要从我的函数中读取每个文件的数据,还是在应用它之前?这是我之前导入数据的步骤: AllData <- read.csv("filename.csv", header=TRUE, skip=7) DataForCalcs <- Data[5] AllData您是否考虑过在

R 如何读取数据集,其中变量存储为行,并且一些变量名称包含#&引用;

我有一个相当大的数据集(大约1200个变量,每个变量有14个观察值),存储在一个文本文件中,有一个非常奇怪而且绝对不整洁的结构。实际上,每个变量都存储为一行,而不是一列,第一行和第二行分别是变量名和该变量的度量单位。以下是一个示例数据集: Date --- 1/19/2016 1/19/2016 1/19/2016 1/19/2016 1/19/2016 1/19/2016 1/19/2016 1/19/2016 1/19/2016 1/19/2016

R 要替换的项目数不是替换长度的倍数

我试图用这段代码生成一个日期/小时序列,但我一直得到错误 “所有_日期[cycle,1]中出现错误,您的for循环中有一个向量项 替换 all_dates[cycle, 1] <- paste(c_dates[a], "-", c_hours[b], "h") months?和i。您的代码在第一行失败。另外,所有日期的值是多少??抱歉,忘记了几行代码。所有相关的代码现在都存在:) all_dates[cycle, 1] <- paste(c_dates[a], "-",

在R中绘制一系列数据

我有一个包含以下行的CSV文件: 10,130,A,100,1000 10,130,B,200,-200 10,130,C,300,1200 20,140,A,120,1050 20,140,B,220,-300 20,140,C,320,1250 30,120,A,145,1130 30,120,B,255,1000 30,120,C,355,1110 ... 依此类推,在第一列中,按10的增量每增加三行。对于第3列(A、B和C)中的每种类型,每行在第4列和第5列中包含两个值。第1列和第2列

R 按给定日期段求和值

我想对同一时间范围内的值段求和。在6小时后出现的任何值,我希望在新的段中。我还想计算每个区段的小时数,以及每个区段的最大值和平均值 以下是示例数据: Date <- c("1954-10-07", "1954-10-07", "1954-10-07", "1954-10-07", "1954-10-07", "1954-10-07", "1954-10-11", "1954-10-11", "1954-10-11", "1954-10-12", "1954-10-13") Time <

使用dplyr将多个列合并在一起

我正在尝试使用一个大约有100列和100000行的数据帧,并将类似命名的列组合成一列,例如C1、C2、C3和C。我一直在尝试使用dplyr聚集函数,但我似乎无法获得所需的输出。如果更简单,我很乐意使用另一个包。我在下面提供了一个简化的示例。我肯定我错过了一些简单的东西,任何帮助都将非常感谢 id = c(222, 222, 222, 333, 333, 333, 444, 444, 444) timepoint = c("aa", "aa", "bb", "aa", "aa", "bb", "

R 为循环中创建的GGPLOT列表添加图例

我正在使用ggplot2中的循环创建一个绘图列表(没有图例)。然后我分别创建了一个图例,并尝试使用grid.arrange和grobs函数打印一个组合图。它创建了组合图,但没有图例。谁能帮忙解决这个问题 我在此附上我的代码: df1<-data.frame(x=1:10,y1=rnorm(10),y2=rnorm(10),y3=rnorm(10),y4=rnorm(10),y5=rnorm(10)) df2 <- melt(df1,id.vars="x") plot.list =

函数,库(tidyverse)

我一直在使用库(tidyverse)中的函数separate()将值分隔为不同的列: 45 (10, 89) 34 而代码: dd %>% separate(a, c("x","y","z"), extra="drop") 我得到了我想要的: 45 10 89 34 但现在,我的变量的格式不同,无法工作: 45% (10,89) 34% 为什么在使用符号“%”时不起作用 ******编辑: 好的,我知道为什么不起作用,因为我的数据中有十进制符号: 4.5% (10/89) 3.

获取R中定义的集合中的所有元素

假设我有一个集合S,它实际上是由更小集合上的笛卡尔积构成的。例如,A={0,1,2},S=A^3。是否有一种函数或有效的方法可以获取S中的所有元素,而不必定义3^3个元素中的每一个元素?您可以使用expand.grid它接受多个列表并对其进行笛卡尔积 S <- list(0,1,2) expand.grid(S,S,S) 谢谢有没有一种简单的方法可以使用参数告诉R一个集合重复多少次?我在考虑类似于函数(S,n)的东西,在n=3时给出相同的输出,但是expand.grid似乎不能适应这种情

R 标识同一行中重复的分组数据列

首先,我查看了其他的问题和答案,我没有找到一个唯一能解决这个问题的答案。如果我错了,请告诉我答案 我有以下资料: df <- data.frame(key=c('1', '2', '3', '4', '5'), name1=c('black','black','black','red','red'), type1=c('chair','chair','sofa','sofa','plate'), num1=c(4,5,12,4,3), nam

R 有些酒吧没有';t在ggplot中重新排序

我的数据帧: data <- data.frame(commodity = c("A", "A", "B", "C", "C", "D"), cost = c(1809065, 348456, 203686, 5966690, 172805, 3176424)) data commodity cost 1 A 1809065 2 A 348456 3 B 203686 4 C 5966690

tikz在R循环中生成空文件

我正在使用R中的tikzDevice库生成latex中的tikzpicture图。当一个接一个地绘制绘图时,它就起作用了。但是,当我想在循环中生成绘图时,我会得到空文件。以下示例说明了此问题: library(ggplot2) library(tikzDevice) df <- data.frame( x = c(1, 2), y = c(1, 2) ) path <- 'some path here' for (j in 1:25){ filenam

R GGGEOM_点和geom_线的绘图顺序不同

当使用手动设置因子级别的顺序时,我无法让geom_point和geom_line以相同的顺序绘制数据 df <- data.frame(A=c(rep(c(5, 10, 15, 20, 25), 2)), B=c(81, 86, 89, 94, 99, 81, 86, 89, 94, 100), C=c(rep(0, 5), rep(1, 5))) df$C <- factor(df$C, levels=c(1,0)

尝试使用网状结构安装Tensorflow Probability-如何指定用户?

为了安装greta包,我需要首先安装tensorflow。Tensorflow和Python 3.7 Anaconda已经安装 当我尝试在R:networkite::conda_install(“R-tensorflow”,“tensorflow probability”,pip=TRUE)中执行以下命令时,我得到以下结果: Could not install packages due to an EnvironmentError: [WinError 5] Access is denied:

R 从字符串中删除括号

我有一个带括号的字符串,我想把它去掉。 我试过: L0我们可以使用单个gsub拆下支架。将其放在方括号中,以逐字计算 gsub("[()]", "", L0) #[1] "ABC" "DEF" "GHI" "JK" 还有一个选项fixed=TRUE。那么 gsub("(", "", L0, fixed = TRUE) # remove the `(` gsub(")", "", L0, fixed = TRUE) # remove the `)` 两者都有 gsub("(", "", gs

roadoi中的UseMethod错误(“http”U错误)

我正在尝试使用roadoi从R访问Unpaywall,但无论我尝试查询什么,我都会得到以下响应: UseMethod中的错误(“http\U错误”):没有适用于 “http_错误”应用于类“c”的对象(“simpleError”、“error”, “条件”) 运行方法(http\U错误)可以提供以下信息: [1] http_error.character* http_error.integer* http_error.response* 这可能是因为我躲在机构防火墙后面吗?(即便如此,这似

使用R模拟“;点击&x201D;网页上的下载文件按钮

在本练习中,我探索了两种方法,其中有两个部分是我的问题,但是我一个都没有成功。如果有人能帮助我,我将不胜感激 [第1部分: 我试图从新加坡证券交易所的网页上抓取数据,该网页包含存储在表中的数据。我有一些使用(rvest)刮取数据的基本知识。然而,在chrome上使用Inspector,html层次结构比我预期的要复杂得多。我可以看到我想要的数据隐藏在下,下面是我所绑定的内容: library(rvest) library(httr) library(XML) SGXurl <- "http

在Rcpp中从列表中提取元素似乎有点慢

我刚刚用三个大小相同的输入向量编写了一个Rcpp函数,x(数字)y(数字)和类别(字符)。然后我想返回一个列表,列表大小等于唯一类别值的长度。此列表中的每个元素都是基于具有相应类别的x和y的相同大小矩阵(相等的行和列) 然而,当n的大小很大时,我发现我的代码速度不够快。我想原因是我需要从列表中提取一些东西,做一些计算,然后每次都把它插回去。有没有人对如何加快这一进程提出建议 Rcpp代码 #include <Rcpp.h> using namespace Rcpp; //[[Rcp

不规则时间序列的R插值

在R中搜索时间序列数据的线性插值时,我经常从zoo包中找到使用na.approx()的建议 但是,对于不规则的时间序列,我遇到了一些问题,因为插值均匀地分布在间隙的数量上,而没有考虑值的相关时间戳 我找到了一个使用approxfun()的解决方案,但我想知道是否有更干净的解决方案,最好是基于tsibble对象和tidyverts包族的函数 以前的答案依赖于通过填补空白将不规则日期网格扩展为规则网格。但是,当插值过程中应考虑白天时,这会导致问题 下面是一个(修订版)带有POSIXct时间戳而非仅日

如何在R中查找data.frame中匹配值的索引

假设我有 dat <- as.data.frame(matrix(LETTERS, 10, 5), stringsAsFactors = F) 下面的方法不起作用 dat[dat %in% vowels] <- "vowel" dat[dat%在%元音中]在%中的%与向量s/矩阵一起工作。根据?%in%“ x-vector或NULL:要匹配的值。支持长向量 table-vector或NULL:要匹配的值。不支持长向量 而不是在data.frame dat[] <- lapp

R 如何将数据帧行分组到列表中?

我有一个数据帧df: a b A 1 A 2 A 5 B 5 B 4 C 6 我想按第一列进行分组,并将第二列作为行中的列表: a b A [1,2,5] B [5,4] C [6] 使用groupby在R中可以这样做吗?如果我们想创建一个列表列,请在聚合中按“a”分组后使用I aggregate(b ~ a, df, FUN = I) 如果是字符串,则粘贴“b”的元素 aggregate(b ~ a, df, FUN = toString) 如果需要粘贴d,使用特定格式,即[1,2,5

R 将表格类型对象导出到电子表格中

我有如下数据: require(tables) varList <- 2:4 lapply(varList,function(x,df,byVar){ tabular((Factor(df[[x]],paste(colnames(df)[x])) + 1) ~ ((Factor(df[[byVar]],paste(byVar)))*((n=1) + Percent("col"))), data= df) },mtcar

R 合并形状文件和数据帧

我在R中使用一个常规数据帧(df)和一个shapefile(map2),共享一个名为CD116FP的公共列df有103552行,而map2有444行。我以以下方式加载shapefile: map2我对你的数据结构有点困惑。您的df有超过100000行,因此我猜测相同的CD116FP在df中多次出现,并且npscore可能会在这些实例中有所不同。如果要将它们合并到map2中,需要先将它们聚合起来 让我们尝试重新创建一个类似的设置: 库(sf) #>链接到GEOS 3.8.0、GDAL 3.0.4、

找出是否有';s在R中的列中的列表中的相等元素

我有这样一个专栏: > example [,1] Col.1 "a,b,c,d,e" Col.2 "a,e,d" Col.3 "b,e,f,a" Col.4 "a,e" 这里,a和e是相等的,因为每当a出现时,e也会出现。我怎么能找到这个?我尝试使用duplicate(),但它只找到了“duplicate”,而不是真正的“equal”元素 > dput(example)

我如何将数据分组到R中,以得出每个团队的总数?

在R中,我有一个数据集表a,我想让它看起来像表B。我如何操作它,以便我可以这样做?这里的新手。。。很抱歉,如果事情这么简单的话 TABLE A Team Points Raptors 101 Lakers 99 Raptors 104 Raptors 88 Celtics 89 Lakers 100 Celtics 112 TABLE B Team Total_Points Raptors

为什么'parameters::model_parameters'为负二项式'rstanarm'模型抛出错误

我试图为stan\u glmer.nb(rstanarm)输出创建一个表,但是来自包parameters的model\u parameters抛出了一个奇怪的错误,我不确定如何解决。也许这是一个错误 缩短的sessionInfo()版本信息输出: R version 4.0.2 (2020-06-22) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 7 x64 (build 7601) Service Pack

导入函数和变量R

我正在使用一个来自github的包,其中的函数不是。。。有联系的。 主文件有一个函数,但要使该函数工作,我需要运行4个不同的文件(3个文件中有很多函数,1个有类)。 我们是否可以在主文件上导入整个脚本(包括所有函数、类、变量),以便它们出现在我的环境中 对于文件“foo.R”中的exmaple,我有一个函数“food=function(…)”,所以我喜欢它 from foo.R import food result <- 2*food(a,b,c) 来自foo.R进口食品 结果使用命令

R 只有在ggplot中将y轴下限设置为0时,图形栏才会出现

我正在尝试创建一个条形图。当我将限制设置为(0,7)时,将显示条。但是,我希望下限为1,而不是0。当我将下限设置为1时,条形图不会出现。我收到以下错误消息: Removed 8 rows containing missing values (geom_bar). 我如何设置限制并不重要。我使用了以下两个选项: ylim(1, 7) scale_y_continuous(limits = c(1, 7)) 有人知道我怎么解决这个问题吗 我想要一个看起来像这样的图,但是以1作为下y轴标签,这意

R ggplot2函数-检查用户输入变量是否应为映射变量

我编写了一个函数来制作散点图,允许用户输入点的大小作为数值(保留在aes()调用之外)或作为要映射的数据帧中的变量(需要进入aes()调用)。我远不是NSE方面的专家,虽然我已经让它工作了,但我觉得一定有更好的方法来做到这一点 该函数的简化版本如下所示: 库(tidyverse) 数据你说得对。NSE可能有点麻烦。但是如果你使用is.object(),处理NSE,然后在你的geom\u点调用中使用show.legend,可能会有点作弊 test_func <- function(data,

获取R中除NAs之外的每列中的累计行数

我有一个数据框架,其结构如下: structure(list(CT_CW.QA.RWL.H1A1Y = c(NA_real_, NA_real_, NA_real_, NA_real_, NA_real_, NA_real_, NA_real_, NA_real_, NA_real_, NA_real_ ), CT_CW.QA.RWL.H1A1Z = c(NA_real_, NA_real_, NA_real_, NA_real_, NA_real_, NA_real_, NA_real_,