将列和添加到dataframe行中，并在伪值上设置条件_R_Dataframe_Apply - Fatal编程技术网

将列和添加到dataframe行中，并在伪值上设置条件

r dataframe

将列和添加到dataframe行中，并在伪值上设置条件,r,dataframe,apply,R,Dataframe,Apply,我希望将数据帧中的列的总和一次添加一行，条件是另一列有一个二进制变量因此，对于每一行，我想计算它上面的整个列的总和，对于对应行中二进制变量具有相同值的所有行以下是一个例子： dummy var1 var2 1 x1 y1 0 x2 y2 0 x3 y3 1 x4 y4 我的目标是实现这一点： dummy var1 var2 1 x1 y1 0 x2 y2 0 x3+x2

我希望将数据帧中的列的总和一次添加一行，条件是另一列有一个二进制变量

因此，对于每一行，我想计算它上面的整个列的总和，对于对应行中二进制变量具有相同值的所有行

以下是一个例子：

dummy var1  var2
1     x1     y1
0     x2     y2
0     x3     y3
1     x4     y4

我的目标是实现这一点：

dummy var1     var2
1     x1       y1
0     x2       y2
0     x3+x2    y3+y2
1     x4+x1    y4+y1

我之前问过一个简化版本（）的问题，在这个版本中，我只添加了上面所有的值，没有条件。是否有方法合并此条件？

数据。table:：rleid

将为您提供所需的分组。如果将数据帧转换为data.table，则如下所示：

setDT(your_data)
your_data[, c("var1", "var2") := .(cumsum(var1), cumsum(var2)), by = dummy]

（注意：这假设您的文本是准确的，而您的示例是不正确的：它在

dummy

列中按连续相等的值分组。）

如果需要对一组列执行此操作，请如上所述设置

id

，定义列向量，然后：

cols = c("var1", "var2", "var3", ...)
your_data[, (cols) := lapply(.SD, cumsum), by = id, .SD = cols]

如果您只想按虚拟列分组，忽略连续性，那么您的问题，您可以这样做：

setDT(your_data)
your_data[, c("var1", "var2") := .(cumsum(var1), cumsum(var2)), by = dummy]

data.table:：rleid

将为您提供所需的分组。如果将数据帧转换为data.table，则如下所示：

setDT(your_data)
your_data[, c("var1", "var2") := .(cumsum(var1), cumsum(var2)), by = dummy]

（注意：这假设您的文本是准确的，而您的示例是不正确的：它在

dummy

列中按连续相等的值分组。）

如果需要对一组列执行此操作，请如上所述设置

id

，定义列向量，然后：

cols = c("var1", "var2", "var3", ...)
your_data[, (cols) := lapply(.SD, cumsum), by = id, .SD = cols]

如果您只想按虚拟列分组，忽略连续性，那么您的问题，您可以这样做：

setDT(your_data)
your_data[, c("var1", "var2") := .(cumsum(var1), cumsum(var2)), by = dummy]

我不认为用一个简单的函数就可以做到这一点，至少根据我的经验是不行的。因此，我建议编写如下函数：

sum_new_df  <- function(df){
    new_df <- df[,-1]
    for (i in 1:nrow(df)){
        for (j in (i+1):nrow(df)){
            if (df$dummy[i] == df$dummy[j]){
                new_df[j,] <- df[,-1][j,] + df[,-1][j,]
            }    
        }
    }
}

sum_new_df我不认为用一个简单的函数就可以做到这一点，至少根据我的经验是不行的。因此，我建议编写如下函数：
sum_new_df  <- function(df){
    new_df <- df[,-1]
    for (i in 1:nrow(df)){
        for (j in (i+1):nrow(df)){
            if (df$dummy[i] == df$dummy[j]){
                new_df[j,] <- df[,-1][j,] + df[,-1][j,]
            }    
        }
    }
}

sum\u new\u df您可以使用Reduce
：
fun=function(x)Reduce(function(x,y)paste0(y,"+",x),x,accumulate = T)
sapply(dat[-1],function(x)ave(x,dat[,1],FUN = fun))
     var1    var2   
[1,] "x1"    "y1"   
[2,] "x2"    "y2"   
[3,] "x3+x2" "y3+y2"
[4,] "x4+x1" "y4+y1"

如果这些只是值，那么您可以：
#Example data
dat2=data.frame(dummy=dat[,1],var1=c(1,2,10,20),var2=c(10,20,50,3))

使用什么：
您可以使用Reduce
：
fun=function(x)Reduce(function(x,y)paste0(y,"+",x),x,accumulate = T)
sapply(dat[-1],function(x)ave(x,dat[,1],FUN = fun))
     var1    var2   
[1,] "x1"    "y1"   
[2,] "x2"    "y2"   
[3,] "x3+x2" "y3+y2"
[4,] "x4+x1" "y4+y1"

如果这些只是值，那么您可以：
#Example data
dat2=data.frame(dummy=dat[,1],var1=c(1,2,10,20),var2=c(10,20,50,3))

使用什么：
这里已经有一些很好的答案了。这是一个使用dplyr的解决方案：
data.frame(dummy = c(1L,0L,0L,1L), var1 = c(1L,2L,4L,6L), var2 = c(100L,20L,30L,400L)) %>%
    group_by(dummy) %>%
    mutate_all(funs(cumsum))

# A tibble: 4 x 3
# Groups:   dummy [2]
  dummy  var1  var2
  <dbl> <dbl> <dbl>
1  1.00  1.00 100  
2  0     2.00  20.0
3  0     6.00  50.0
4  1.00  7.00 500  

数据帧（虚拟=c（1L，0L，0L，1L），var1=c（1L，2L，4L，6L），var2=c（100L，20L，30L，400L））%>%
分组依据（虚拟）%>%
突变_all（funs（cumsum））
#一个tibble:4x3
#分组：假人[2]
虚拟var1 var2
1  1.00  1.00 100  
2  0     2.00  20.0
3  0     6.00  50.0
4  1.00  7.00 500  
这里已经有一些不错的答案了。这是一个使用dplyr的解决方案：
data.frame(dummy = c(1L,0L,0L,1L), var1 = c(1L,2L,4L,6L), var2 = c(100L,20L,30L,400L)) %>%
    group_by(dummy) %>%
    mutate_all(funs(cumsum))

# A tibble: 4 x 3
# Groups:   dummy [2]
  dummy  var1  var2
  <dbl> <dbl> <dbl>
1  1.00  1.00 100  
2  0     2.00  20.0
3  0     6.00  50.0
4  1.00  7.00 500  

数据帧（虚拟=c（1L，0L，0L，1L），var1=c（1L，2L，4L，6L），var2=c（100L，20L，30L，400L））%>%
分组依据（虚拟）%>%
突变_all（funs（cumsum））
#一个tibble:4x3
#分组：假人[2]
虚拟var1 var2
1  1.00  1.00 100  
2  0     2.00  20.0
3  0     6.00  50.0
4  1.00  7.00 500  
您可以使用此处提到的有效的ave
功能。是否有一种优雅的方法将其应用于整个数据帧。有了ave，我走到了这一步：df$newVar我可以在apply中使用它作为我选择的函数吗？相应的行具有相同的值？你的意思是如果第5行中的虚拟对象是1，那么var1将是x4+x1+x5，var2是y4+y5+y1？或者具有相同值的dummy的所有行都具有相同的对应值？它们是两种不同的算法。你的ave
答案看起来很完美。您想如何应用它？您是否担心扩展到两个以上的列而不将它们全部写出来？您可以使用这里提到的ave
函数，这是有效的。是否有一种优雅的方法将其应用于整个数据帧。有了ave，我走到了这一步：df$newVar我可以在apply中使用它作为我选择的函数吗？相应的行具有相同的值？你的意思是如果第5行中的虚拟对象是1，那么var1将是x4+x1+x5，var2是y4+y5+y1？或者具有相同值的dummy的所有行都具有相同的对应值？它们是两种不同的算法。你的ave
答案看起来很完美。您想如何应用它？您是否担心在不将数据全部写出的情况下扩展到两列以上？请参阅我对两行数据的回答。表版本请参阅我对两行数据的回答。表版本好的回答，我很少使用数据。表，图我应该熟悉这一点。是否可以在不写所有列名的情况下使用下面的group by伪列（我有50多列）。因此，您的下面的替代方案（group by伪列）工作得很好，但我在传递列向量时无法实现这一点。例如，如果我定义：cols=c（“var1”，“var2”），然后运行您的_数据[，cols:=（cumsum（var1），cumsum（var2）），by=dummy]，数据将保持不变。哦，我刚刚在您的帖子中看到我忘记了括号。没关系。回答得好，我很少使用data.table，图我应该熟悉它。是否可以在不写所有列名的情况下（我有50多列）按伪列使用较低的分组。因此，您的较低备选方案（按伪列分组）工作得很好，但在传递列向量时，我无法实现这一点。例如，如果我定义：cols=c（“var1”，“var2”），然后运行您的_数据[，cols:=（cumsum（var1），cumsum（var2）），by=dummy]，数据将保持不变。哦，我刚刚在您的帖子中看到我忘记了括号。没有关系。




[dataframe]相关文章推荐



                                                        
Dataframe 如何删除数据帧中在特定列中具有NA的所有行？
dataframejulia 
Dataframe 如何在Julia的Jupyter中查看整个数据帧
dataframejulia 
Dataframe Writetable正在使用“导出数据”；可为空的{Type}（数据）"；而不仅仅是Julia中的数据
dataframejulia 
Dataframe 从pyspark数据帧筛选负值
dataframefilterpyspark 
Dataframe 了解PySpark数据帧中列是否具有常量值的最快方法
dataframepyspark 
Dataframe 如何根据月份的周数将日期截断为星期五？
我有一个包含年份、月份和星期的下面数据文件，我需要创建一个列日期，如下面的年份、月份和星期列，并考虑周末结束，星期五。
Year    Month   Weeks   date
2018    April   01 W    2018-04-06
2018    April   02 W    2018-04-13
2018    April   03 W    2018-04-20
2018    April   04 W    2018-04-27
dataframeapache-sparkdatetimepyspark 
Dataframe 使用spark将Hbase表转储到CSV会导致数据丢失
dataframeapache-sparkhbase 
Dataframe 我想在pyspark数据框中按日期查找MapType中的单词频率？
dataframeapache-sparkdictionarypyspark 
Dataframe 获取具有StringType的所有列的名称
dataframeapache-sparkpyspark 
Dataframe 创建具有长ColumnName的Julia数据帧
dataframejulia 
Dataframe 从数据帧中的字符串提取整数
dataframejulia 
Dataframe 如何对照另一个数据帧检查pyspark数据帧值
dataframepyspark 
                                       





随机文章推荐



                                                        
Delphi 正在寻找进程间通信中使用的windows消息的替代方案
delphiwinapi 
Delphi Findfirst，findnext列出文件但不列出目录。。。？
delphi 
Delphi 在父窗体和子控件之间分发按键
delphi 
Delphi FastMM和动态加载DLL
delphidll 
Delphi 通过扩展组件的类来设置组件的样式
delphiobject 
Delphi或BDS IDE是否能够保存源代码断点？
delphiide 
Delphi 如何在TPanel上画画
delphiimage 
Delphi 停止当前应用程序并运行更新应用程序
delphi 
Delphi 使用字符串+形成变量名；整数与调用函数
delphi 
Delphi FireMonkey未声明标识符“TEdit”；未声明的标识符“TLabel”；
delphi 
Delphi 使用Rtti设置方法字段
delphi 
Delphi属性堆栈溢出错误
delphi 
Kinect v2-Delphi中的SDK 2.0深度流
delphi 
使用Windows 10 home edition的平板电脑中的Delphi Metro应用程序
delphi 
在不同的Delphi版本之间发送TStringList
delphidll 
Delphi格式字符串-宽度和精度值的限制？
delphiformatting 
Delphi 什么'；请求Dropbox有什么问题吗？
delphi 
如何将Delphic Overage与Jenkins集成？
delphijenkins 
Delphi 检查字符串是否为正则表达式的其他方法
delphi 
Delphi-更改活动页面'；s选项卡颜色，并在单击另一个选项卡后将其重置
delphitabs


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
R 如何循环浏览一个文件夹中的多个文件？
									R
							 									Vector
							 
R 将表示四分位数的线添加到散点图
									R
							 
R 用布尔表达式理解'sum'函数行为
									R
							 
如何从R中的数据帧创建不同格式的矩阵？
									R
							 									Matrix
							 
在R中处理大量csv文件
									R
							 									Csv
							 									Parallel Processing
							 
R 预测模型决策树
									R
							 
R 路径上的标准偏差
									R
							 
R 按出现频率对数据帧列进行排序
									R
							 									Sorting
							 									Dataframe
							 
R错误：（abline）无法强制类型'；关闭'；到类型为'的向量；双倍'；
									R
							 									Graphics
							 
如何在r中的for循环中动态生成列
									R
							 
更改R中“outer”中使用的“dnorm”的“sd”？
									R
							 									Function
							 									Matrix
							 
根据survreg预测绘制生存曲线
									R
							 
R 在子列表中选取元素并使其成为数据框中的列
									R
							 									List
							 
r中（iframe）搜索结果的Web抓取
									R
							 									Iframe
							 									Web Scraping
							 
R 如何用数据帧中的值10替换第1行中小于或等于10的所有值？
									R
							 									Dataframe
							 
R-计算/评估特定日期的时间序列模型
									R
							 
在R中求和
									R
							 
在r中选择每日文件
									R
							 									File
							 									Select
							 
比较R中不同行的列
									R
							 
RStudio与R3.5.0和Dropbox冲突错误
									R
							 
如何在sas中实现r中的子集？
									R
							 									Sas
							 
使用带有ggplot的stat_summary时更改条形图顺序
									R
							 
如何在R中重新编码netcdf文件的非标准日期维度？
									R
							 
R 如何计算有多少条道路与多边形相交？
									R
							 
如何在Windows上从R运行.sh脚本？
									R
							 									Bash
							 									Shell
							 
使用R中1到21之间的k的所有奇数值执行knn分类
									R
							 									Machine Learning
							 
R 参考通道变量在一个%>；%&引用；链条
									R
							 
R 检测是否在间隔时间内给药
									R
							 
R 如何在两个日期栏中计算特定站点的访问次数？
									R
							 
如何选择以特定数字开头的数值？R程序设计
									R
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Report
Ibm Midrange
Gwt
Db2
Google Maps
Grid
Flask
Gradle
Alfresco
Asp.net Core
Drupal 6
Ruby On Rails 3
Sprite Kit
Exception Handling
Pascal
Browser
Virtual Machine
Amazon Redshift
Amp Html
.net
Leaflet
Utf 8
Amazon Cloudformation
Ruby On Rails
Nativescript
Spring Security
Computer Vision
Ibm Mq
Angularjs
Xpages
Drop Down Menu
Ssrs 2008
Visual Studio
Binary
Algorithm
Tfs
Jsf 2
Libgdx
Windows Services
Kotlin
Bootstrap 4
Facebook Graph Api
Servlets
Ant
Sockets
Laravel 4
Github
Cocoa
Cookies
Oracle
Reflection
Asp.net Mvc 2
Webstorm
Visual Studio 2008
If Statement
Coq
Json
Jaxb
Neo4j
Version Control
Jasper Reports
Session
Vhdl
Sublimetext2
Colors
Maven 2
Nunit
Testng
Couchbase
Sharepoint
Yaml
Ruby On Rails 3.2
Syntax
Replace
Websocket
Dynamic
Next.js
.net 4.0
Cmd
Firebase
Ionic Framework
Asp.net Web Api
Jquery Mobile
Soap
Titanium
Dictionary
Jboss
Push Notification
Axapta
Sonarqube
Vb6
Reporting Services
Lucene
Internet Explorer
Discord.py
Rest
Codenameone
Boost
Openssl
Fortran
Web Scraping
Apache Nifi
Snmp
File Upload
3d
Gruntjs
Permissions
Date
Sbt
Hyperledger Fabric
Terraform
Protocol Buffers
Documentation
Python 2.7
Reactjs
Windows Runtime
Directx
Tkinter
Random
Xcode4
Less
Visual Studio 2013
Twig
Apache2
Log4j
Z3
Nuget
Caching
Ssh
Pycharm
Sql
Autocomplete
Web Applications
File
Navigation
Processing
Sublimetext3
Internationalization
Install4j
Ocaml
Error Handling
Cmake
Stored Procedures
Blackberry
Knockout.js
Hadoop
Orientdb
Data Structures
Ember.js
Cordova
Sitecore
Interface
Extjs
Hybris
Tcl
Scheme
Paypal
Google Visualization
Doxygen
Serial Port
Ios5
Openlayers 3
Ios8
Docker Compose
Email
Autohotkey
Formatting
Robotframework
Visual Studio 2012
Racket
Swing
Rally
Amazon Web Services
Jquery Plugins
Opencart
Core Data
Ubuntu
Pointers
C++ Cli
Bots
Windows 7
Safari
Objective C
Orchardcms
Activerecord
Postgresql
Cuda
Model
Select
Types
Functional Programming
Azure
Antlr4
Text
Gmail
Docker
Wxpython
Rx Java
Yii2
Kdb
Google App Engine


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网