R：检查一组变量是否形成唯一索引_R_Data.table - Fatal编程技术网

R：检查一组变量是否形成唯一索引

r

R：检查一组变量是否形成唯一索引,r,data.table,R,Data.table,我有一个大的数据帧，我想检查一组（因子）变量的值是否唯一地标识数据的每一行我目前的策略是通过我认为是指数变量的变量进行聚合 dfAgg = aggregate(dfTemp$var1, by = list(dfTemp$var1, dfTemp$var2, dfTemp$var3), FUN = length) stopifnot(sum(dfAgg$x > 1) == 0) 但这一战略需要永远的时间。如能采用更有效的方法，将不胜感激谢谢。那么： length(unique(past

我有一个大的数据帧，我想检查一组（因子）变量的值是否唯一地标识数据的每一行

我目前的策略是通过我认为是指数变量的变量进行聚合

dfAgg = aggregate(dfTemp$var1, by = list(dfTemp$var1, dfTemp$var2, dfTemp$var3), FUN = length)
stopifnot(sum(dfAgg$x > 1) == 0)

但这一战略需要永远的时间。如能采用更有效的方法，将不胜感激

谢谢。

那么：

length(unique(paste(dfTemp$var1, dfTemp$var2, dfTemp$var3)))==nrow(dfTemp)

将变量粘贴到一个字符串中，获得唯一值，并将此向量的长度与数据帧中的行数进行比较。

可能

任何重复的

：

anyDuplicated( dfTemp[, c("Var1", "Var2", "Var3") ] )

或使用dplyr：

dfTemp %.% select(Var1, Var2, Var3) %.% anyDuplicated()

这仍然是浪费，因为

anyDuplicated

将首先将列粘贴到字符向量中

data.table包为

数据提供了非常快速的复制方法和独特方法。它还有一个by=
参数，您可以在其中提供计算重复/唯一结果的列
下面是一个大型data.frame的示例：
require(data.table)
set.seed(45L)
## use setDT(dat) if your data is a data.frame, 
## to convert it to a data.table by reference
dat <- data.table(var1=sample(100, 1e7, TRUE), 
                 var2=sample(letters, 1e7, TRUE), 
                 var3=sample(as.numeric(sample(c(-100:100, NA), 1e7,TRUE))))

system.time(any(duplicated(dat)))
#  user  system elapsed
# 1.632   0.007   1.671

使用anyDuplicated.data.frame
多大，行数和列数？添加data.table标记，需要7.4秒的时间快多了，谢谢。
# if you want to calculate based on just var1 and var2
system.time(any(duplicated(dat, by=c("var1", "var2"))))
#  user  system elapsed
# 0.492   0.001   0.495




[layout]相关文章推荐



                                                        
Layout 如何让AdMob广告出现在我的屏幕顶部？
layout 
Layout Blackberry-屏幕底部的加载条
layoutblackberryuser-interface 
Layout JQuery mobile-内容导航折叠在纵向按钮上
layoutjquery-mobile 
Layout 在chrome中的显示表元素内定位绝对值时的1px间隙
layoutcss 
Layout 直线中的div-与底部对齐
layouthtml 
Layout 自定义Logback Appender-预先设置文件头并使其滚动
layout 
Layout 将图像从右侧浮动到其他div上
layouthtml 
Layout iOS 7全屏布局
layoutios7 
Layout ZK：带按钮的菜单栏
layout 
Layout 带布局的主干句柄索引页
layoutbackbone.jsmodel-view-controller 
Layout 拉威尔4号+；将变量传递给主布局
layoutlaravel-4 
Layout 使用Polymer应用程序网格布局创建断点
layoutpolymer 
Layout xcode 9更新后的布局问题
layout 
Layout PyQt5对话框窗口将打开，但不显示布局
layout 
Layout 如何创建复杂的引导4布局
layoutbootstrap-4 
Layout Bootstrap 4.0网格系统布局不工作
layoutgridbootstrap-4 
                                       





随机文章推荐



                                                        
Cloud PVM在添加主机后终止
cloud 
Cloud 网格和云计算中作业调度的区别
cloud 
Cloud 将Google应用程序用作域控制器
cloud 
Cloud 为什么在尝试安装python客户端时找不到某个包？
cloudopenstack 
Cloud 云服务的比较
cloud 
使用jclouds模板的HP块存储
cloud 
Cloud 网站在线/云视频编码
cloud 
Cloud 什么是私有云？
cloud 
Cloud amazon云驱动器rest api遇到https 400错误代码
cloud 
Cloud 微服务上的蓝绿色部署-如何将10%的流量路由到一个实例，将剩余90%的流量路由到另一个实例
cloudibm-cloudcloud-foundrymicroservices 
Cloud Bluemix cf推送现在要求在更新之前删除应用程序
cloudibm-cloudcloud-foundry 
如何在jelastic云上安装elasticsearch？
cloud


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
为R中的新类创建新方法时出错
									R
							 
R 我如何有效地构造一个只有很少级别的很长的因子？
									R
							 									Performance
							 
R 你可以缩写列表名吗？为什么？
									R
							 									List
							 
如何动态索引多维R数组？
									R
							 
RStudio（windows）的knitr编译问题
									R
							 
R：关于内存管理的澄清
									R
							 									Memory
							 
R 在同一地区进行克里格法的最佳抽样设计
									R
							 									Statistics
							 
R 在逐步回归中加入交叉验证
									R
							 
R 在ggplot中调整几何图形栏（位置=“道奇”）
									R
							 
R 仅为选定的打断添加标签
									R
							 
plyr并行错误处理和警告
									R
							 									Error Handling
							 									Parallel Processing
							 
停止函数中的R.call参数
									R
							 
R-Shining Package-二进制运算符的非数值参数
									R
							 									Shiny
							 
R闪亮-cex值不正确-上传文本文件，wordcloud软件包
									R
							 									Shiny
							 
R 在图形上手工绘制
									R
							 									Plot
							 
R 基于外部数据表更新指定列中的值
									R
							 
R 基因表达中病例与对照的相关性
									R
							 
为R3.3安装udunits2软件包
									R
							 
如何在R中使用计算字段创建透视表？
									R
							 
R、 闪亮：用于选择输入的下一个/上一个按钮
									R
							 									Shiny
							 
R 重组geom_瓷砖ggplot2
									R
							 
R 获取id的最后两个事件并进行安排
									R
							 
使用R进行网页抓取时如何处理captcha
									R
							 									Web Scraping
							 									Web Crawler
							 
R 为什么as_tible（）舍入会浮动到最接近的整数？
									R
							 
在igraph中使用closness（）时的警告消息
									R
							 									Graph
							 
R 如何根据NA与字母表对值进行分组
									R
							 
R 匹配两个大括号之间的所有括号
									R
							 									Regex
							 
在R的igraph中，有没有一种简单的方法可以按度给网络节点着色？
									R
							 									Network Programming
							 
R：在for循环中一次子集多个数据帧
									R
							 									Dataframe
							 									For Loop
							 
存储azuremlsdk的azure凭据最佳做法
									R
							 									Azure
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Dynamic
Cordova
Google Colaboratory
Parse Platform
Url
Python 2.7
Xmpp
Pytorch
Editor
Entity Framework Core
Sublimetext3
Omnet++
Botframework
Gruntjs
Properties
Macros
C#
Couchdb
Oracle10g
Tree
Sphinx
Soap
Tkinter
Processing
Puppet
Sqlalchemy
Statistics
Octave
Numpy
Networking
Google Analytics
Server
Oracle Apex
Localization
Join
Anaconda
Google Compute Engine
Windows Installer
Compression
Web Scraping
Wicket
Latex
Jupyter Notebook
Input
Yaml
Maven 2
Browser
Solr
Database
Kibana
Mod Rewrite
Next.js
List
System Verilog
Pentaho
Ssas
Qt
Openssl
Actionscript 3
Hyperlink
Asp.net Mvc 4
Smtp
Sequelize.js
Sublimetext2
Embedded
Elixir
String
Ethereum
Ada
Stata
Drop Down Menu
Talend
Azure Service Fabric
Seo
D3.js
Airflow
Webgl
Cocos2d X
Computer Vision
.htaccess
Gremlin
Msbuild
Batch File
Math
Playframework 2.0
Ravendb
Google Drive Api
Azure Active Directory
Proxy
Android
Gmail
Webpack
Influxdb
Sdk
Time
Sonarqube
Boost
Encryption
Tinymce
Rss
Doctrine
Openid
Tabs
Sails.js
Install4j
Inno Setup
Coffeescript
Vba
Windows Phone
Hazelcast
Model View Controller
Sml
Search
Swing
Ruby On Rails 3
Computer Science
Asp.net Mvc 3
Vmware
Geometry
Sas
Indexing
Nunit
Outlook
Snmp
Mongodb
Reflection
Ssl
Lotus Notes
Typescript
Mobile
Plone
Playframework
Aws Lambda
Asp.net Mvc 2
Ssh
Zsh
Stripe Payments
Jsf
Amazon Ec2
Django Rest Framework
Akka
Select
Kendo Ui
Continuous Integration
Postgresql
Animation
Opencv
Spring Integration
Error Handling
Openlayers 3
Firefox
Clearcase
F#
Session
Kentico
Google Chrome Extension
Data Structures
Audio
Chef Infra
Windows 10
Docusignapi
Sed
Uwp
Clang
Discord.py
Windbg
Jvm
.net Core
Ipython
Oop
Ibm Mq
Ibm Mobilefirst
Xamarin.ios
Redux
Visual Studio 2010
Keycloak
Dynamics Crm 2011
Mariadb
Jekyll
Graph
Filter
Flutter
Internet Explorer 8
Facebook Graph Api
Database Design
Twitter
Dependencies
Prometheus
Rust
Apache Flink
Templates
Cobol
Kubernetes
Vector
Amazon Redshift
Google Maps
Xslt
Polymer
Operating System
Command Line
Orientdb


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网