Apache spark SparkR-为数据挖掘创建测试和训练数据帧_Apache Spark_Spark Dataframe_Sparkr - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/c/63.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark SparkR-为数据挖掘创建测试和训练数据帧_Apache Spark_Spark Dataframe_Sparkr - Fatal编程技术网

Apache spark SparkR-为数据挖掘创建测试和训练数据帧

apache-spark

Apache spark SparkR-为数据挖掘创建测试和训练数据帧,apache-spark,spark-dataframe,sparkr,Apache Spark,Spark Dataframe,Sparkr,我希望将SparkR数据帧划分为两个子集，一个用于培训，另一个用于测试glim 在R中执行此操作的常规方法是创建行的数组索引，将数组采样到新数组中，然后根据子集中的行或不在子集中的行对数据进行子集化。e、 g seed=42 # of course index <- 1:nrow(df) # sample works on vectors trainindex <- sample(index, trunc(length(index)/2)) # split data set into

我希望将SparkR数据帧划分为两个子集，一个用于培训，另一个用于测试glim

在R中执行此操作的常规方法是创建行的数组索引，将数组采样到新数组中，然后根据子集中的行或不在子集中的行对数据进行子集化。e、 g

seed=42 # of course
index <- 1:nrow(df) # sample works on vectors
trainindex <- sample(index, trunc(length(index)/2)) # split data set into two
train <- df[trainindex, ] # training data set
test <- df[-trainindex, ] # all the records not in the training data set

seed=42当然
index我找到了问题第一部分的答案（第二部分的时间稍长）。对于那些跟随的人
sdfData关于您的第一个问题：自Spark 2.0.0以来，您可以使用randomspilt
：
sdfData <- createDataFrame(sqlContext, index)
trainTest <-randomSplit(rfData,c(0.7,0.3), seed)
train = trainTest[[1]]
test = trainTest[[2]]

sdfData




[c]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
Https 如何下载安全网页
https 
如果网站没有'；t使用HTTPS进行用户登录，用户密码是否完全不受保护？
httpspasswordssecurity 
Spring安全：如何使用标志强制https？
httpsspring-security 
DNN将站点设置为HTTPS时出错
httpsdotnetnuke 
使用https的Windows Azure CDN-连接重置
httpsazure 
需要了解Https吗
httpscertificate 
Https 不支持将.pfx或.p12文件导入远程证书存储
https 
pyramid pserve服务器作为https
httpsserver 
转发的域不使用https
httpsdns 
Https 使Pinterest配置文件小部件安全
https 
Https在Fiddler和.NET中提供错误连接重置
https 
443的Https替代端口
https 
Https 为什么SSL链接会出现混合内容错误？
https 
无法重定向到辅助页的HTTPS。
https 
HTTPS合规性标准
https 
Https Web包开发服务器不断断开连接
httpswebpack 
Mule 3.6.1 HTTPS绑定获取/发布
httpsmule 
Https 电报机器人SSL错误
httpstelegram 
向同一主机但不同的主机IP发送HTTPS get请求
httpserlangelixir 
如何解读Cloudflare'；s SVCB/HTTPS DNS记录类型？
httpsdns


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Flask
Azure Sql Database
Jpa
Drools
For Loop
Sockets
Notepad++
Telerik
Matrix
Imagemagick
Iphone
Laravel 5
Geolocation
Docker Compose
Blazor
Eclipse Rcp
System Verilog
Discord.js
Clojure
Opencart
Docusignapi
Alfresco
Iframe
Terminal
Webview
Parse Platform
Gridview
Rx Java
Django Models
Content Management System
Coldfusion
E Commerce
Android Fragments
Netsuite
Hive
Rss
Jsf
Python 2.7
Io
Internet Explorer 8
Marklogic
Vb6
Xampp
C
Hibernate
Axapta
Pagination
Playframework 2.0
Grails
Ruby On Rails 3.2
Google Plus
Sharepoint
Passwords
Loops
Mobile
Cmd
Objective C
Exception
Mule
Smalltalk
Mono
Tags
Embedded
Ios5
Asp.net
Fortran
Eclipse
Webpack
Timer
Google Cloud Platform
Apache Zookeeper
Xml
Ember.js
Windows 7
Macos
Dart
C++11
Yocto
Julia
Oracle11g
Influxdb
Netlogo
Model View Controller
Pandas
Azure Cosmosdb
Random
Verilog
Ssh
Filter
Nhibernate
Firefox
Amazon S3
Windows Installer
Ms Access
Sublimetext2
Vim
Z3
Ubuntu
Excel
Jms
Cassandra
Memory Management
Loopbackjs
Jdbc
Google Colaboratory
Nest
Autocomplete
Ag Grid
Couchdb
Intellij Idea
Windows Store Apps
Core Data
3d
Concurrency
Mysql
Redis
Isabelle
Wxpython
Rspec
Here Api
Artifactory
Swift3
Sed
Windows Phone
Colors
Configuration
Protractor
Wso2
Yaml
Gcc
Character Encoding
Internationalization
Pytorch
Sprite Kit
Ffmpeg
Search
Twitter Bootstrap 3
Silverlight
Linq
Scheme
Maven
Amazon Redshift
Twig
Sml
Safari
Netbeans
Wordpress
Requirejs
Javascript
Url
Select
Sql Server
Tinymce
Odoo
Linkedin
Talend
Ms Office
Sqlalchemy
Svn
Ios6
X86
Sdk
Spring Cloud
Outlook
Google Api
Air
.net 4.0
Qt4
Visual Studio 2015
Apache2
Telegram
Openid
Post
Ms Word
Python 3.x
Gwt
Llvm
Path
Ruby On Rails 4
Snmp
Variables
Jsp
Actionscript 3
Xpath
Sequelize.js
Error Handling
Pascal
Webstorm
Bluetooth
Xmpp
Apache Camel
Google Apps Script
Adobe
Arm
Visual Studio 2012
Inheritance
Moodle
Pdf
Scripting
Actions On Google
Nestjs


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网