凌乱csv文件的R-data.table组索引方法_R_Indexing_Data.table - Fatal编程技术网

凌乱csv文件的R-data.table组索引方法

r indexing

凌乱csv文件的R-data.table组索引方法,r,indexing,data.table,R,Indexing,Data.table,我正在努力学习数据。然而，我看到它的速度是指数级的。因此，我在这里要求您使用data.table方法来解决我的问题我希望通过data.table完成的任务如下：假设我有一个1200万的.csv文件，其结构与此类似：注意：在真实的文件中，每个组都有几百条记录 1; 0.00;0.01;0.00 2; -0.00;0.01;-0.02 -0.00;0.01;-0.01 0.00;0.00;0.01 3; 0.00;0.01;0.00 0.01;0.01;-0.0

我正在努力学习数据。然而，我看到它的速度是指数级的。因此，我在这里要求您使用data.table方法来解决我的问题

我希望通过data.table完成的任务如下：假设我有一个1200万的.csv文件，其结构与此类似：
注意：在真实的文件中，每个组都有几百条记录

1;  
0.00;0.01;0.00  
2;  
-0.00;0.01;-0.02  
-0.00;0.01;-0.01  
0.00;0.00;0.01  
3;  
0.00;0.01;0.00  
0.01;0.01;-0.00   
4;  
0.00;0.01;0.00   
-0.00;0.01;-0.02    
5;  
0.00;0.01;0.00  
0.01;0.01;-0.00

整数表示ID，而记录是属于该索引的观察值。答案是生成以下内容的解决方案：

Var_A <- c(0.00, -0.00, -0.00, 0.00,0.01,0.00,0.01,-0.00,0.00,0.01) 
Var_B <- c(0.01, 0.01, 0.01, 0.01,0.01,0.01,0.01,0.01,0.01,0.01)  
Var_C <- c(0.00, -0.02, -0.01,0.00,-0.00,0.00,-0.00,-0.02,0.00,-0.00)   
ID <- c(1, 2, 2, 2, 3, 3,4,4,5,5) 
solution_df <- data.frame(Var_A, Var_B, Var_C, ID)

Var_A我们可以使用readLines
读取数据集，然后使用str_count
根据的数量创建一个逻辑向量，然后通过逻辑向量的累积和创建“ID”。然后用逻辑向量将数据子集，用read.table
读取，用'ID'读取cbind

library(stringr)
i1 <- str_count(lines, ";")==1
cbind(ID = cumsum(i1)[!i1], read.table(text=lines[!i1], sep=";"))

库（stringr）
i1谢谢你的快速回复，非常酷！然而，我可能没有正确地解释我自己，因为这不是我解决实际问题所需要的方法
lines <- readLines(textConnection(
"1;
0.00;0.01;0.00
2;
-0.00;0.01;-0.02
-0.00;0.01;-0.01
0.00;0.00;0.01
3;
0.00;0.01;0.00
0.01;0.01;-0.00
4;
0.00;0.01;0.00
0.01;0.01;-0.00
-0.00;0.01;-0.02
5;
0.00;0.01;0.00
0.01;0.01;-0.00")) 

#Or read from the file
lines <- readLines('file.csv')




[indexing]相关文章推荐



                                                        
Indexing 覆盖指数或个别指数
indexing 
Indexing Field.Index.NOT\u ANALYZED\u NO\u规范是什么意思
indexinglucene 
Indexing Lucene.net-如何查询包含数字部分的路径文件？
indexing 
Indexing googlebot是否在html注释中索引链接？
indexing 
Indexing Lua中表的返回索引
indexinglua 
Indexing Neo4j唯一标记节点
indexingneo4j 
Indexing 如何在Lucene索引中重新创建已删除的段文件？
indexinglucene 
Indexing blast数据库索引错误
indexing 
Indexing 在SSDT for Visual Studio 2013中创建聚集的列存储索引
indexingvisual-studio-2013 
Indexing HBase块索引项中有什么？
indexinghbase 
Indexing Spark SQL是否使用Cassandra二级索引？
indexingapache-sparkcassandra 
Indexing 在Apache Solr中用新数据替换旧索引数据，零停机时间
indexingsolr 
Indexing 需要一个脚本来删除较大的索引，并在postgresql中备份完成后重新创建这些索引
indexing 
Indexing Neo4j Cypher手动关系索引、APOC触发器和数据复制2
indexingneo4jtriggers 
Indexing 为什么VoltDB选择红黑树作为索引结构？
indexing 
Indexing 在Solr 7中为文档编制索引时，我收到了一个我不知道的响应'；我不明白
indexingsolr 
Indexing 获取com.emc.documentum.core.fulltext.client.index.FtFeederException:在documentum index Agent中
indexing 
Indexing 公式-Concat公式中的单元格值匹配结果
indexingexcel-formula 
Indexing 在Javascript中，index参数如何在reduce.method中工作
indexing 
                                       





随机文章推荐



                                                        
Bash 意外的操作员错误
bashjar 
Bash 如何使用变量作为文件名创建文件？
bash 
将$更改为%登录bash脚本
bashcmd 
如何在变量中获取bash命令的输出
bashshellubuntucommand-line 
如何在bash脚本中搜索以~结尾的*~
bash 
bash ls菜单选项循环回第一个菜单
bashshellunix 
如何在bash中按列读取文本文件中的表
bash 
Bash脚本中参数的双重扩展
bash 
Bash 跟踪通过shell脚本运行的配置单元查询的成功或失败
bashshellhive 
Bash 如何编译Xilinx Vivado'；s的模拟库，例如QuestaSim？
bash 
Windows10Bash（Ubuntu）-如何向上滚动？
bashwindows-10 
将.bashrc函数从Python2.7移植到Python3
bashpython-2.7python-3.x 
Bash 从服务器远程在mac上运行.sh
bashssh 
Bash 从文本文件中删除空文件夹或包含.gitignore文件的文件夹
bash 
Bash脚本，发送电子邮件的域过期日期
bash 
Bash 将输出截短到恰好一页
bash 
Bash 如何组合两个多行输出命令？
bash 
在bash中，逐行读取并打印文件以及行号和每行中的总行数
bash 
Bash 使用read-p命令保存响应并覆盖脚本中的配置文件
bashsed 
具有控件可能性的后台Bash脚本
bashfunctionsockets


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
R 平台中立的新绘图要求
									R
							 
如何将R输出应用为LaTex部分？
									R
							 									Latex
							 
导出为PDF时，更改Rmd脚本中输出的代码的背景颜色
									R
							 
R：将2从长改宽，用1到3之间的整数替换实值
									R
							 
如何在R中有效地从单个数据集绘制多个半变异函数？
									R
							 									Loops
							 
R-Logistic回归缺失系数
									R
							 
R ggplot2：将文本添加到geom_平铺
									R
							 
R中的数据帧分组
									R
							 
R 查找数据帧中包含特定对的组数
									R
							 
在Rmarkdown中使用getSymbols时出错
									R
							 
R 带有点和误差条的ggplot范围内的颜色渐变
									R
							 
R ggplot2：如何指定渐变颜色图例并将着色浮雕背景添加到地图
									R
							 									Maps
							 
R 分类变量的双向散点图
									R
							 									Plot
							 
如何在R数据帧中添加长度可变的前导零
									R
							 									Dataframe
							 
R 根据特定规则更改矩阵中的字符
									R
							 									Matrix
							 
点3DRGL不显示
									R
							 									Plot
							 									3d
							 
R中RWeka的替代方案
									R
							 									Text
							 
R 三因素变量转换为一因素变量
									R
							 
R mgcv：如何获得样条曲线方程
									R
							 
R 闪亮-文件输入和显示延迟
									R
							 									Shiny
							 
R 使用Lappy解析生成CSV的数据帧
									R
							 									Csv
							 
R gcc可以'；t在LinuxMint:can'；找不到stdlib.h
									R
							 									Compiler Errors
							 									Installation
							 
从R中的特定列开始替换数据框中的NA
									R
							 									Dataframe
							 
R 替换一组文件中的所有文本
									R
							 
与all（）组合时，Rcpp中是否为_NA（）
									R
							 
如何使用NAs-R简单地计算行数
									R
							 									Dataframe
							 
R 移动平均值3个月与前n个月相比，不包括前3个月？
									R
							 
未知或未初始化列：'；rc.f'；。在R
									R
							 
R 具有不同主题的多个传奇
									R
							 
如何在R中绑定多个数据帧
									R
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Vaadin
Visual Studio 2012
Heroku
Magento2
Openstack
Websocket
Excel Formula
Youtube Api
Matlab
Mips
Akka
Linux
Fortran
Linq To Sql
Primefaces
Verilog
Amazon Web Services
Aframe
Opengl
Cuda
Operating System
Windows Store Apps
Jestjs
Jdbc
Raspberry Pi
Object
Bison
Mfc
Jsf 2
Mdx
Itext
Mpi
C
Linq
Symfony
Logstash
Menu
Vagrant
Sql Server 2008 R2
Autodesk Forge
Dynamics Crm 2011
Coffeescript
Cookies
Git
Angular6
Soap
Django
Sql
Leaflet
Tags
Smalltalk
Web Services
Umbraco
Eclipse Rcp
Sails.js
Pointers
Python
Build
Triggers
Swift3
Jhipster
Ip
Spring Mvc
Antlr4
Gridview
Function
Mule
Navigation
Dynamic
Makefile
Node.js
Unit Testing
Swift2
Binding
Push Notification
Lambda
Geometry
Plsql
Asp.net Web Api
Ssl
Boost
Eclipse
Compression
Gitlab
Xpages
Templates
Gruntjs
Protocol Buffers
Emacs
Kotlin
Checkbox
Time
Imagemagick
Caching
Sorting
Datetime
Pdf
Assembly
Google Analytics
Plugins
Wix
Vim
Xquery
Chef Infra
Sharepoint 2010
Recursion
Visual Studio Code
Serialization
Tcl
Rdf
Wcf
Youtube
Twitter
Acumatica
Windows Mobile
Asp Classic
Arangodb
Perforce
Passwords
Delphi
Oauth
Uitableview
C++ Cli
Prestashop
Ios7
Rest
Prolog
Coldfusion
Ssis
Actionscript 3
Pagination
Project Management
Windows 10
Z3
Amazon Dynamodb
Artifactory
Logging
Jqgrid
File Io
Database
Uwp
Colors
Selenium Webdriver
Apache Pig
Common Lisp
Paypal
Cmd
Gis
Shiny
Amp Html
Discord.js
Spotify
Maven 2
Haskell
Azure Sql Database
Solr
Salesforce
Jasmine
C# 3.0
Openid
Wxpython
Azure Data Factory
Kentico
Scala
Actionscript
Cloud
Plone
Amazon Cloudformation
Monitoring
Datatables
Cakephp
Codeigniter
Windows Services
Doxygen
Kdb
Jquery Plugins
Mercurial
Gmail
Openshift
Exception Handling
Ipad
Android Ndk
Google Maps Api 3
Jsp
Sbt
Search
Kendo Ui
Ibm Mobilefirst
Http
Nunit
Aurelia
Cocoa
Microsoft Graph Api
Map
Clearcase
Rxjs
Xaml
Neo4j
Vmware
Vb6
Sed


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网