R-ff包：查找ffdf中最频繁的元素并删除位于其中的行_R_Dataframe_Ff_Ffbase - Fatal编程技术网

R-ff包：查找ffdf中最频繁的元素并删除位于其中的行

r dataframe

R-ff包：查找ffdf中最频繁的元素并删除位于其中的行,r,dataframe,ff,ffbase,R,Dataframe,Ff,Ffbase,我需要一个建议来查找ffdf中最频繁的元素，然后删除位于其中的行。我决定尝试ff软件包，因为我正在处理非常大的数据，而base R的内存正在耗尽下面是一个小例子： # create a base R Matrix > z<-matrix(c("a", "b", "a", "c", "b", "b", "c", "c", "b", "a"),nrow=5,ncol=2,byrow = TRUE) > z [,1] [,2] [1,] "a" "b"

我需要一个建议来查找ffdf中最频繁的元素，然后删除位于其中的行。我决定尝试ff软件包，因为我正在处理非常大的数据，而base R的内存正在耗尽

下面是一个小例子：

 # create a base R Matrix

 > z<-matrix(c("a", "b", "a", "c", "b", "b", "c", "c", "b", "a"),nrow=5,ncol=2,byrow = TRUE)
 > z


     [,1] [,2]
 [1,] "a"  "b" 
 [2,] "a"  "c" 
 [3,] "b"  "b" 
 [4,] "c"  "c" 
 [5,] "b"  "a" 


 # convert z to ffdf

 > u=as.data.frame(z, stringsAsFactors=TRUE)
 > u=as.ffdf(u)
 > u

  ffdf data
   V1 V2
1  a  b
2  a  c
3  b  b
4  c  c
5  b  a

在BaseR中，我找到了使用“table”函数的方法

temprequire（ff）
Z
   V1 V2
1  a  c
2  c  c

  temp <- table(as.vector(z))  
  t1<-names(temp)[temp == max(temp)] 
  z1<- z[rowSums(z== t1[1]) == 0, ]    

require(ff)
z <- matrix(c("a","b","f","c","f","b","e","c","b","e"),nrow=5,ncol=2,byrow = TRUE)
u <- as.data.frame(z, stringsAsFactors=TRUE)
u <- as.ffdf(u)
u

require(ffbase)
require(plyr)
## Detect most frequent item (assuming the levels of all columns can be different)
columnfreqs <- lapply(colnames(u), FUN=function(column) table(u[[column]]))
columnfreqs <- lapply(columnfreqs, FUN=function(x) as.data.frame(t(as.matrix(x))))
itemfreqs <- colSums(do.call(rbind.fill, columnfreqs), na.rm=TRUE)
mostfrequent <- names(sort(itemfreqs, decreasing = TRUE))[1]

## Identify the lines where the most frequent item occurs in each row of the ffdf 
idx <- ffrowapply(
  EXPR = apply(u[i1:i2,], MARGIN=1, FUN=function(row) any(row %in% mostfrequent)), 
  X=u, 
  RETURN = TRUE, FF_RETURN = TRUE, RETCOL = NULL, VMODE = "logical")
idx <- ffwhich(idx, idx != TRUE) # remove it is in there + convert logicals to integers

## Remove them
u[idx, ]




[dataframe]相关文章推荐



                                                        
Dataframe 如何在MagicMock obj上设置值。所以被测试的函数不会'；t返回MagicMock对象
dataframe 
Julia:Dataframes包在转换同时包含int和float的列时遇到问题
dataframejulia 
Dataframe 如何在pyspark数据帧上执行联接操作？
dataframepyspark 
Dataframe 使用单个函数执行多个操作
dataframeapache-spark 
Julia-dataframe-在具有by（）的多输入函数中的同一列
dataframejulia 
Dataframe 将数据帧拆分为特定列的四分位数
dataframe 
朱莉娅：如何在DataFrames.jl中通过使用“transform”或“transform”添加两列来创建新列？
dataframejulia 
                                       





随机文章推荐



                                                        
Docusignapi 是否有可能拥有多个具有相同电子邮件地址的DocuSign帐户（演示）？
docusignapi 
Docusignapi Docusign显示/隐藏按钮
docusignapi 
Docusignapi 收件人选项卡x/Y位置不匹配
docusignapi 
Docusignapi Docusign文档发送空白或黑色页面
docusignapi 
Docusignapi 通过docusign api在我的服务器上下载签名文档副本时出现问题
docusignapi 
Docusignapi Docusign要发布到的连接URL
docusignapi 
在DocuSignApi调用中自动使用开发人员帐户签名签署文档
docusignapi 
Docusignapi createEnvelope调用中的DocuSign Connect vs EventNotification属性
docusignapi 
Docusignapi 将现有私人帐户用作公司帐户中的用户成员
docusignapi 
Docusignapi 如何使用；任何签字人“；方案五&#x；a API
docusignapi 
Docusignapi 在Docusign签名过程中，设置要作为附件发送给每个收件人的完成证书
docusignapi 
Docusignapi DocuSign API在特定文件夹中创建信封
docusignapi 
Docusignapi Docusign:docusignrestapi服务的IP地址
docusignapi 
Docusignapi 从一个专用用户发送信封
docusignapi 
Docusignapi 有没有办法以只读模式加载文档？
docusignapi 
Docusignapi 向现有用户的“/users”发布请求会导致重新发送激活电子邮件
docusignapi 
Docusignapi Web应用中的嵌入式签名
docusignapi 
Docusignapi 收件人视图过期时更正流
docusignapi 
Docusignapi 如何以自定义方式设置签名区域
docusignapi 
Docusignapi 单击“我没有收到付款提示”；“完成”；签字后。使用RESTAPI创建付款选项卡的要求是什么？
docusignapi


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
R 如何为图例生成函数的返回值
									R
							 									Function
							 
R 提取元素名称相似的嵌套列表元素
									R
							 									List
							 
R 当行数发生变化时，如何绑定向量和矩阵
									R
							 
本福德'；R中的s定律
									R
							 
R 在每个独特的日子中查找值的范围
									R
							 
R ggplot2:geom_条形堆叠条形图，指定条形图轮廓颜色
									R
							 
R 将字符串转换为日期时间
									R
							 									Date
							 									Datetime
							 
使用R改变给定位置和条件的向量中的值
									R
							 									Vector
							 
R ggplot2-如何在离散比例轴值中绘制连续值？
									R
							 									Plot
							 
在R中导入和分析非矩形.csv文件
									R
							 									Import
							 
从mfuzz包在R中保存地物文件
									R
							 
如何从kernlab提取训练错误？
									R
							 
r系统不'；尝试7zip时无法工作
									R
							 									Shell
							 
R 将图例移动到ggplot2的底部
									R
							 
按组列出的模式值（最频繁）的简明R data.table语法
									R
							 
dplyr排列不按组排列
									R
							 
R 图形错误：Don'；我不知道如何自动选择比例
									R
							 
R 如何通过聚合行在数据框中创建新列？
									R
							 									Dataframe
							 
在R中使用apply从数据帧中提取行
									R
							 
如何从R中的函数中获得吐出最小/最大值的坐标？
									R
							 									Optimization
							 
在R中的xts对象中查找紧靠特定时间之前的数据
									R
							 									Time
							 
将data.frame中的列表转换为Longdata格式
									R
							 									List
							 									Dataframe
							 
R 如何为导入csv创建自己的函数？
									R
							 									Csv
							 
R 使用YahooQF下载股票目标价格
									R
							 
R 您如何比较两个大（cca 2 mil行x 60 cols）数据帧/数据表？
									R
							 									Dataframe
							 									Db2
							 
用R中的conclust包定义MPC K-均值约束
									R
							 
R 查找数据帧间隔内的最大值
									R
							 									Dataframe
							 
R 在所有三个嵌套线性模型中均分为训练/测试样本
									R
							 
R 将PMCID表行解析为列形式
									R
							 									Parsing
							 
R 如何将combn（）函数应用于列表类型的列？
									R
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Monitoring
Matplotlib
Camera
Mercurial
Asp.net Web Api
Twilio
Rss
Perl
Liferay
Deep Learning
Jquery Plugins
Charts
Cmd
React Native
Intellij Idea
Datatables
Postman
Inno Setup
Pointers
Mips
Combobox
Winforms
Erlang
Nsis
Cron
Woocommerce
Asp.net Mvc 3
Sharepoint 2013
Encryption
Phpmyadmin
Gstreamer
Pine Script
Svn
Web Services
Hash
Install4j
Ruby On Rails 3.2
Spotify
Docker Compose
Ocaml
Sparql
Floating Point
Vuejs2
Bootstrap 4
Stripe Payments
Asp.net Mvc 2
Apache2
Ms Word
Mpi
Ip
Uml
Mono
Osgi
Next.js
Speech Recognition
Vbscript
Acumatica
Google App Engine
Flash
Prometheus
Language Agnostic
Sap
Oauth 2.0
Mongoose
Oop
Gwt
Visual Studio 2012
Class
Visual Studio 2010
Automated Tests
Dotnetnuke
Sharepoint 2007
Struts2
Vaadin
Maps
Jsf 2
Java Me
Java
Azure Devops
Gitlab
Wordpress
Soap
Push Notification
Network Programming
Gdb
Cobol
Activerecord
Html
Azure Cosmosdb
Angular6
Xamarin.android
Spring Integration
Listview
Heroku
E Commerce
Json
Amazon S3
Build
Grails
Jersey
Nlp
Less
Omnet++
Apache
Usb
Ldap
Google Drive Api
.net Core
Compiler Construction
Opencl
Bash
Visual C++
Google Plus
Jetty
Assembly
Methods
Excel
Kibana
Ibm Midrange
Windows
Chart.js
Menu
Apache Spark
Actions On Google
Asp Classic
String
Scripting
Azure Data Factory
Linux
Design Patterns
Navigation
Audio
Plot
Continuous Integration
Air
Jira
Verilog
Css
Ubuntu
Openlayers 3
Weblogic
Ibm Cloud
Lotus Notes
Keyboard
Puppet
Latex
Ionic Framework
C# 3.0
Scroll
Events
Swift3
Linq To Sql
Youtube Api
Jvm
Documentation
Sql Server 2008
Mongodb
Database Design
Google Chrome Extension
Qt4
Timer
Generics
Haskell
Pentaho
C#
Office365
Notifications
Office Js
Applescript
Google App Maker
Virtual Machine
Laravel 5
Raspberry Pi
Wxpython
Nestjs
C# 4.0
Seo
Computer Science
Moodle
Visual Studio 2017
Windows Store Apps
Actionscript 3
F#
Nunit
Windows Services
Lambda
Gmail
Vim
Flutter
Xcode
Ios5
Pytorch
Sip
Extjs
Postgresql
Influxdb
Asp.net Mvc 5
Apache Camel
Express
Types
Snowflake Cloud Data Platform


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网