R 最大客户敞口-按报告月份拆分报告余额并动态分配_R_Strsplit - Fatal编程技术网

R 最大客户敞口-按报告月份拆分报告余额并动态分配

r

R 最大客户敞口-按报告月份拆分报告余额并动态分配,r,strsplit,R,Strsplit,我有一系列报告的余额和信用信息局报告的月份。我想按报告的月份计算消费者的风险敞口。我有大约200万条记录要处理，我正在寻找R中的解决方案 I/p数据： df <- data.frame("id" = c(1,1) ,"reported_date_hist" = c("20170830,20170728,20170630", "20170730,20170620,20170525") ,"cur_bal_hist" = c("12455,

我有一系列报告的余额和信用信息局报告的月份。我想按报告的月份计算消费者的风险敞口。我有大约200万条记录要处理，我正在寻找R中的解决方案

I/p数据：

df <- data.frame("id" = c(1,1)
,"reported_date_hist" = c("20170830,20170728,20170630",
                          "20170730,20170620,20170525")

,"cur_bal_hist" = c("12455,14085,16940",
                "0,1260,2467"))

我想要一个o/p，如下所示：

df <- data.frame("id" = c(1,1)
            ,"c201708"=c(12455,0)
            ,"c201707"=c(14085,0)
            ,"c201706"=c(16940,1260)
            ,"c201505"=c(0,2467))

后来我打算将他的余额分为几个月，并取最大值

任何帮助都将不胜感激

下面是一个使用

tidyverse

的想法。我们将字符串和

unest

数据帧拆分为长格式。我们转换为datetime（

as.POSIXct

），并使用

格式

仅获取年/月。我们将其分组，创建一个新变量，使用每组长度的

seq

（以避免重复标识符），并使用

spread

转换为宽格式，即

library(tidyverse)

df %>% 
 mutate(reported_date_hist = strsplit(as.character(reported_date_hist), ','), 
        cur_bal_hist = strsplit(as.character(cur_bal_hist), ',')) %>% 
 unnest() %>% 
 mutate(reported_date_hist = format(as.POSIXct(reported_date_hist, format = '%Y%m%d'), 
                                                                     format = '%Y%m')) %>% 
 group_by(reported_date_hist) %>% 
 mutate(new = seq(n())) %>% 
 spread(reported_date_hist, cur_bal_hist)

这就给了,

#一个tible:2 x 6
id新'201705``201706``201707``201708`
*                  
1     1     1     2467    16940    14085    12455
2     1     2          1260        0

注意：您可以添加

…%>%在末尾选择（-new）

以删除变量

new

。如果需要，还可以使用

rename

更改列名。

这里有一个使用

tidyverse

的主意。我们将字符串和

unest

数据帧拆分为长格式。我们转换为datetime（

as.POSIXct

），并使用

格式

仅获取年/月。我们将其分组，创建一个新变量，使用每组长度的

seq

（以避免重复标识符），并使用

spread

转换为宽格式，即

library(tidyverse)

df %>% 
 mutate(reported_date_hist = strsplit(as.character(reported_date_hist), ','), 
        cur_bal_hist = strsplit(as.character(cur_bal_hist), ',')) %>% 
 unnest() %>% 
 mutate(reported_date_hist = format(as.POSIXct(reported_date_hist, format = '%Y%m%d'), 
                                                                     format = '%Y%m')) %>% 
 group_by(reported_date_hist) %>% 
 mutate(new = seq(n())) %>% 
 spread(reported_date_hist, cur_bal_hist)

这就给了,

#一个tible:2 x 6
id新'201705``201706``201707``201708`
*                  
1     1     1     2467    16940    14085    12455
2     1     2          1260        0

注意：您可以添加

…%>%在末尾选择（-new）

以删除变量

new

。如果需要，

rename

也可以用来更改列名。

这对我来说很有效（已经用los\u app\u id替换了id）。'“数据”是保存原始数据的数据帧。通过拆分和取消列出结果创建DFlong df。使用过去36个月的列表筛选出较旧的报告余额。使用重塑2包的dcast获取每个los_应用程序id的总余额的月度视图（使用总和获取总余额）。现在获得这些列的最大值很容易

DFlong<- data.frame(los_app_id = rep.int(data$los_app_id, sapply(strsplit(as.character(data$reported_date_hist), ','), length)), 
                yearMM = unlist(strsplit(as.character(data$reported_date_hist), ',')),
                bal    = unlist(strsplit(as.character(data$cur_bal_hist), ',')))

DFlong$yearMM  <-  gsub("","",DFlong$yearMM)

DFlong$yearMM <- format(as.POSIXct(DFlong$yearMM, format = '%Y%m%d'), format = '%Y%m')

last36months <- seq(as.Date(Sys.Date()), length=36, by="-1 month")
last36months <- format(as.POSIXct(last36months, format = '%Y-%m-%d'), format = '%Y%m')

DFlong$bal  <-  gsub("","",DFlong$bal)
DFlong$bal <- as.numeric(DFlong$bal)
require(reshape2)
DFwide <- dcast(DFlong, los_app_id~yearMM, sum, na.rm=TRUE)
DFwide$Maximum_Indebtedness <- apply(DFwide[2:ncol(DFwide)],1,max, is.na= FALSE, na.rm = TRUE)

result <- DFwide[,c('los_app_id','Maximum_Indebtedness')]

DFlong这对我来说很有效（已经用los\u app\u id代替了id）。'“数据”是保存原始数据的数据帧。通过拆分和取消列出结果创建DFlong df。使用过去36个月的列表筛选出较旧的报告余额。使用重塑2包的dcast获取每个los_应用程序id的总余额的月度视图（使用总和获取总余额）。现在获得这些列的最大值很容易
DFlong<- data.frame(los_app_id = rep.int(data$los_app_id, sapply(strsplit(as.character(data$reported_date_hist), ','), length)), 
                yearMM = unlist(strsplit(as.character(data$reported_date_hist), ',')),
                bal    = unlist(strsplit(as.character(data$cur_bal_hist), ',')))

DFlong$yearMM  <-  gsub("","",DFlong$yearMM)

DFlong$yearMM <- format(as.POSIXct(DFlong$yearMM, format = '%Y%m%d'), format = '%Y%m')

last36months <- seq(as.Date(Sys.Date()), length=36, by="-1 month")
last36months <- format(as.POSIXct(last36months, format = '%Y-%m-%d'), format = '%Y%m')

DFlong$bal  <-  gsub("","",DFlong$bal)
DFlong$bal <- as.numeric(DFlong$bal)
require(reshape2)
DFwide <- dcast(DFlong, los_app_id~yearMM, sum, na.rm=TRUE)
DFwide$Maximum_Indebtedness <- apply(DFwide[2:ncol(DFwide)],1,max, is.na= FALSE, na.rm = TRUE)

result <- DFwide[,c('los_app_id','Maximum_Indebtedness')]

DFlongis报告的日期和余额总是作为三条记录一起出现。或者它也可以大于或小于3？2017年6月没有31日余额可以在该月的任何一天报告过去36个月的余额。我的想法是，先得到客户每个月的余额，然后再得到他在过去36个月内的最大风险敞口。报告日期和余额总是作为三个记录一起出现。或者它也可以大于或小于3？2017年6月没有31日余额可以在该月的任何一天报告过去36个月的余额。我的想法是获得客户每月的余额，然后获得他在过去36个月内的最大敞口。我没有尝试过上述方法，但我注意到5月17日第二次观察的余额已转移到第一次观察。我想当我有多个客户并且需要在客户级别（在上面的案例id中）对余额进行分组时，这将是一个问题。你是什么意思？17年5月只有一个观察结果我试图在我的办公室笔记本电脑上安装“tidyverse”，但安装失败（可能是因为R版本，我的版本是3.3.1），因此我无法使用上述解决方案。有没有别的办法呢。它在BaseR中可行吗？我一直在使用“重塑2”软件包。拆分字符串后，我取消了它们的列表，然后使用dcast将它们转换为宽格式。虽然这在较小的数据集上运行良好，但我不确定当它必须将约200万行从宽格式转换为长格式，从而产生约500-600万行时，它将如何运行。今天我将通过在服务器上运行它来尝试一下。希望这样行。哦，200万行不是那么大。我不知道为什么你不能安装tidyverse
。我将尝试添加一个包含数据的解决方案。table
比tidyverse
方法更快。我还没有尝试过上述方法，但我注意到2017年5月第二次观察的平衡已转移到第一次观察。我想当我有多个客户并且需要在客户级别（在上面的案例id中）对余额进行分组时，这将是一个问题。你是什么意思？17年5月只有一个观察结果我试图在我的办公室笔记本电脑上安装“tidyverse”，但安装失败（可能是因为R版本，我的版本是3.3.1），因此我无法使用上述解决方案。有没有别的办法呢。它在BaseR中可行吗？我一直在使用“重塑2”软件包。拆分字符串后，我取消了它们的列表，然后使用dcast将它们转换为宽格式。虽然这在较小的数据集上运行良好，但我不确定当它必须将约200万行从宽格式转换为长格式，从而产生约500-600万行时，它将如何运行。今天我将通过在服务器上运行它来尝试一下。希望这样行。哦，200万行不是那么大。我不知道为什么你不能安装tidyverse。我会的
DFlong<- data.frame(los_app_id = rep.int(data$los_app_id, sapply(strsplit(as.character(data$reported_date_hist), ','), length)), 
                yearMM = unlist(strsplit(as.character(data$reported_date_hist), ',')),
                bal    = unlist(strsplit(as.character(data$cur_bal_hist), ',')))

DFlong$yearMM  <-  gsub("","",DFlong$yearMM)

DFlong$yearMM <- format(as.POSIXct(DFlong$yearMM, format = '%Y%m%d'), format = '%Y%m')

last36months <- seq(as.Date(Sys.Date()), length=36, by="-1 month")
last36months <- format(as.POSIXct(last36months, format = '%Y-%m-%d'), format = '%Y%m')

DFlong$bal  <-  gsub("","",DFlong$bal)
DFlong$bal <- as.numeric(DFlong$bal)
require(reshape2)
DFwide <- dcast(DFlong, los_app_id~yearMM, sum, na.rm=TRUE)
DFwide$Maximum_Indebtedness <- apply(DFwide[2:ncol(DFwide)],1,max, is.na= FALSE, na.rm = TRUE)

result <- DFwide[,c('los_app_id','Maximum_Indebtedness')]




[adobe]相关文章推荐



                                                        
Adobe 用于Day CQ的组件库
adobeaem 
Adobe 如何使CQ5使用.htm扩展名而不是.html？
adobeaem 
Adobe 编辑后只能刷新组件字段，而不能刷新整个页面？
adobeaem 
如何在幻灯片中显示adobe的后期效果？
adobe 
Adobe 如何将Psd转换为psf？
adobe 
从adobe analytics原始数据中的用户代理检测设备类型
adobe 
                                       





随机文章推荐



                                                        
Openstack devstack安装未通过tempest测试要求
openstack 
与虚拟ip关联的OpenStack浮动ip
openstack


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
R 逻辑向量的条件
									R
							 
R 生成每月摘要和单个箱线图
									R
							 
R 如何在计算前用NA替换多个光栅中的某些值？
									R
							 
R：计算无闭合等高线内的面积
									R
							 
R 梯形图代码修改
									R
							 									Plot
							 
R 在随机生存森林中，袋外累积危险函数的维度是什么？
									R
							 
R 如何跨ggplot2函数传递数据和美学
									R
							 
R 如何检查列表是否存在？
									R
							 
R 在ggplot中进行月份缩放时，条宽不一致
									R
							 									Date
							 
R 闪亮：数据框仅显示10行
									R
							 									Shiny
							 
R 如何制作ggplot以排序堆叠条形图
									R
							 
R 替换.txt值中的值
									R
							 
在R中的数据帧上循环
									R
							 									Loops
							 
R Plotly时间序列中的垂直范围滑块？
									R
							 
R在文本中查找值
									R
							 
在R中的web抓取中未显示完整链接URL
									R
							 
R 条件输出图
									R
							 									Shiny
							 
R：使用Rvest循环遍历列表
									R
							 									Web Scraping
							 
R 按组填写缺少的日期行
									R
							 									Date
							 
R 基于参数将列表元素名称设置为`pmap`
									R
							 
R 合并多个data.tables中的唯一行并添加属性详细信息
									R
							 
将#替换为NA，并将值转换为R中的数字
									R
							 									Replace
							 
R ggplot如何绘制独立的图例？如何只记录某些事情？
									R
							 
R zoo或xts如何处理二维表格？
									R
							 
R 字符串拆分、合并和堆栈多列
									R
							 
如何在basic R中勾勒出堆叠条形图的特定区域
									R
							 
R如何使用我正在创建的列中以前的值
									R
							 
R 条形图ggplot2问题
									R
							 									Graphics
							 									Statistics
							 
R woebin_情节副标题或文本或标题
									R
							 
R 解释；条件具有长度>；1“；来自'if'函数的警告
									R
							 									If Statement
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Graphics
Apache Flink
Geometry
Concurrency
Unicode
Twilio
Hash
Log4j
Jasmine
Amazon Redshift
Artificial Intelligence
Python
Jasper Reports
Indexing
Centos
Spring
Shiny
Jpa
Keras
Nlp
Zend Framework2
Makefile
Blockchain
Sdk
Tree
Angular6
Jmeter
Mfc
System Verilog
Ipython
Magento2
Hybris
Ios7
Dns
Django Rest Framework
Matplotlib
Biztalk
Karate
Node.js
Tcl
Processing
Parse Platform
Cocoa Touch
Google Calendar Api
Typo3
Google Api
Titanium
Oracle Apex
Arduino
Testng
Playframework 2.0
Highcharts
Certificate
Data Binding
Python Sphinx
Oracle10g
Sql Server
Database Design
Ibm Mq
Oauth 2.0
Google Sheets
Kibana
Sorting
Filter
Windows Phone 8.1
Kotlin
Parameters
Doctrine Orm
Jquery
Swing
Stored Procedures
Linux Kernel
.net 4.0
Download
Netbeans
Acumatica
Github
Aframe
Wcf
Ruby On Rails
Selenium
Ionic2
Dart
Sockets
Servlets
Dask
Javascript
Email
Spotify
Io
Hyperlink
Wxpython
Orchardcms
Ruby On Rails 3
Jakarta Ee
Asp.net Core Mvc
Here Api
Logstash
Curl
Xamarin.ios
Iis 7
Android Fragments
Mongoose
Continuous Integration
Perforce
Statistics
Gmail
Rxjs
Batch File
Sails.js
List
Jsf 2
Javafx
Input
Random
Webrtc
Types
Filesystems
Localization
Mpi
Tensorflow
C++11
Openlayers
Video
Windows Phone 8
Identityserver4
Discord.js
Uiview
Office Js
Iis
Verilog
Marklogic
Sapui5
Serialization
Jboss
Opencv
Mips
Flutter
Notepad++
Debugging
Knockout.js
Excel Formula
Clang
Gtk
Binary
Audio
Qt
Requirejs
Gradle
Arrays
Visual Studio 2017
Google Cloud Platform
Laravel 4
Openssl
Sencha Touch
Multithreading
Networking
Cmd
Sql
Rdf
Flask
User Interface
Automation
Coq
Symfony1
Serial Port
Validation
Selenium Webdriver
Jms
Workflow
Apache Spark
Smalltalk
Coldfusion
Neo4j
Https
Http
Graphviz
Jaxb
Post
Sublimetext3
Json
Pointers
Ajax
Python 3.x
Visual Studio 2015
Office365
Charts
Markdown
Csv
Web Crawler
Amazon Web Services
Datetime
Pentaho
Modelica
Corda
Macros
Sas
Robotframework
Scheme
Ecmascript 6
Discord.py


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网