Scala 如何转换RDD<；字符串>；到RDD<；向量>；火花？_Scala_Apache Spark_Rdd - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 如何转换RDD<；字符串>；到RDD<；向量>；火花？_Scala_Apache Spark_Rdd - Fatal编程技术网

Scala 如何转换RDD<；字符串>；到RDD<；向量>；火花？

scala apache-spark

Scala 如何转换RDD<；字符串>；到RDD<；向量>；火花？,scala,apache-spark,rdd,Scala,Apache Spark,Rdd,我有一个文件，每一行都是这样的 info1,info2 info3,info4 ... 扫描后，我想运行k-means算法： val rawData = sc.textFile(myFile) val converted = convertToVector(rawData) val kmeans = new KMeans() kmeans.setK(10) kmeans.setRuns(10) kmeans.setEpsilon(1.0e-6) val model

我有一个文件，每一行都是这样的

info1,info2
info3,info4
...

扫描后，我想运行k-means算法：

  val rawData = sc.textFile(myFile)
  val converted = convertToVector(rawData)
  val kmeans = new KMeans()
  kmeans.setK(10)
  kmeans.setRuns(10)
  kmeans.setEpsilon(1.0e-6)
  val model = kmeans.run(rawData) -> problem: k-means accepts only RDD<Vector>

对如何实现这一目标有何建议

提前感谢。

考虑到输入文件的每一行都是由逗号分隔的字符串表示的假设向量，这是一个非常基本的操作

只需映射每个字符串entrie，在分隔符上拆分它，然后从中创建密集向量：

val parsedData = rawData.map(s => Vectors.dense(s.split(',').map(_.toDouble)))

谢谢，所以如果我想转换为RDD，我总是必须使用

向量。稠密的？除非你的向量实际上是稀疏的，并且你有一个稀疏的向量表示作为输入文件，否则你必须使用稠密的。这个映射（u.toDouble）？IMHO，将字符串转换为双精度？考虑到信息[1-n]是数值，您可以直接将值转换为双精度。但这里似乎不是这样，是吗？这些信息是双倍的
val parsedData = rawData.map(s => Vectors.dense(s.split(',').map(_.toDouble)))




[apache spark]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
Utf 8 为什么同时使用MultiByteToWideChar和WideCharToMultiByte？
utf-8 
NGINX、FastCGI、UTF-8编码：输出iso-8859-1而不是utf8
utf-8character-encodingnginx 
Utf 8 是否可以在git bash控制台中查看印地语字符，或者在我可以运行karma test runner的任何控制台中查看印地语字符？
utf-8cmd 
Utf 8 如何修复在freebsd中映射驱动器时显示为“？”的泰语foldername
utf-8 
Utf 8 为什么从远程到本地的scp使用umlauts更改文件名？
utf-8 
Utf 8 如何创建名称中包含非打印字符的文件？
utf-8character-encoding 
什么是Debian的urw字体（wkhtmltopdf中utf-8所需）？
utf-8fontsdebian 
带AdafruitGFX的UTF-8字符
utf-8arduino


                                        

                                        
                                        


                                                
                                                        [scala]相关推荐
                                                        
Scala 在使用泛型的trait中初始化val时，是否可以访问清单？
									Scala
							 
Scala Akka Play，未来不会'；不归
									Scala
							 									Playframework
							 									Akka
							 
Scala中服务器组件的设计
									Scala
							 
如何使用mysql和play 2.2在scala中创建连接池
									Scala
							 									Playframework
							 									Playframework 2.0
							 
Scala redis客户端连接到RedisCloud的Heroku问题
									Scala
							 									Heroku
							 									Redis
							 
Scala 添加两个RDD[mllib.linalg.Vector]'；s
									Scala
							 									Apache Spark
							 
Scala在伴生对象中的应用方法
									Scala
							 
Scala 使用函数从集合创建映射
									Scala
							 
Scala 1：：在foldLeft中列出[Nothing]
									Scala
							 									Haskell
							 									Generics
							 
Scala：打印给定类的字段和值
									Scala
							 									Reflection
							 
a"；发散性隐式扩展“；Scala 2.10中的错误
									Scala
							 
Scalaz-无法取消应用键入StateT[Future、Foo、Bar]
									Scala
							 
Scala sbt 0.13.8——buildSettings和projectSettings之间有什么区别？
									Scala
							 									Sbt
							 
如何确保在Scala中关闭资源以便于理解
									Scala
							 
如何捕捉Scala用户输入中的空行？
									Scala
							 
Scala：如何简化嵌套模式匹配语句
									Scala
							 									Hive
							 
Scala Spray.Routing与Play.api.mvc.Controller
									Scala
							 									Playframework 2.0
							 
Scala 将Play Framework 2.6与gRPC和Netty集成
									Scala
							 									Playframework
							 									Netty
							 
Scala 在map方法中发布到kafka主题
									Scala
							 									Apache Kafka
							 									Apache Flink
							 
如何在Scala中创建泛型案例类列表？
									Scala
							 									Generics
							 
Scala 一类函数的部分应用函数
									Scala
							 
Scala 如何将RedisFutures数组传递给Akka HTTP onSuccess方法？
									Scala
							 									Redis
							 
Scala 如何在case类列表中查找字符串
									Scala
							 									List
							 
scala和URLClassLoader出现意外行为
									Scala
							 
Scala 当使用Akka stream从迭代器创建源流时，如何进行清理？
									Scala
							 									Akka
							 
我应该如何处理'；匹配可能并不详尽'；Scala警告？
									Scala
							 
Scala 我在说没有类型为：Encoder[]的隐式参数时出错；火花
									Scala
							 									Apache Spark
							 
Scala build.sbt:Play framework 2.8.6的Memcached插件
									Scala
							 									Intellij Idea
							 									Playframework
							 									Sbt
							 
Scala 在ApacheSpark中使用toDF方法创建无序数据帧
									Scala
							 									Apache Spark
							 
Scala 在Databricks中解析嵌套XML
									Scala
							 									Apache Spark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Drop Down Menu
Google Cloud Platform
Glassfish
Zend Framework
Excel
Reflection
Editor
Silverlight 4.0
Oop
Audio
Ios8
Uml
Oracle10g
Asp.net Mvc 2
Docusignapi
.net
Asp.net Web Api
Latex
Ravendb
Gps
Templates
Ssis
Stored Procedures
Joomla
Tridion
Shell
Gmail
Webpack
Datetime
Sql Server 2012
Keyboard
Elixir
Oracle Apex
Grep
Recursion
Process
Ruby
Doctrine Orm
Ldap
Curl
Data Structures
Django Models
Jetty
Android Studio
Join
Botframework
Sprite Kit
Email
Ip
Xampp
Mdx
Air
Visual Studio 2015
Windbg
Text
Speech Recognition
Plone
Testing
Loopbackjs
Graph
Bazel
Deployment
Plot
Plugins
Kendo Ui
Google Visualization
Robotframework
Ubuntu
Fiware
Cuda
Signalr
Corda
Tags
Outlook
Linux
Unit Testing
Ignite
Xamarin.forms
Openshift
Highcharts
Seo
Heroku
Interface
Documentation
Coding Style
Dom
Search
Ssas
Codenameone
Ibm Mobilefirst
Elm
Artifactory
Html5 Canvas
Spring Cloud
Amazon Ec2
Ios5
Swift3
Sapui5
Glsl
Apache2
Sqlite
Ms Access
Grails
Discord.js
Cucumber
Asp.net Mvc 4
Office Js
Indexing
Linker
Android Ndk
Ipad
Here Api
Orm
Build
Parsing
Notepad++
Pointers
Weblogic
If Statement
Flash
Streaming
Django
Delphi
Timer
Microsoft Graph Api
Programming Languages
Post
Reference
Project Management
R
Java Me
Jqgrid
Mediawiki
.htaccess
Parallel Processing
Web Crawler
Laravel
Floating Point
Smalltalk
Listview
Virtual Machine
Ckeditor
Ftp
Winapi
C++11
Kubernetes
Lotus Notes
Jakarta Ee
Prolog
Terraform
C#
Macos
Compiler Construction
Express
Libgdx
Algorithm
Google Maps
Azure Functions
Mqtt
Mod Rewrite
Xcode4
Dns
Selenium
Compilation
Xamarin.ios
Razor
Jersey
Amazon Web Services
Sqlalchemy
Aws Lambda
Gwt
Go
Keras
Https
Triggers
Spotify
Routing
Antlr
Typescript
Cypress
Qml
Db2
Asterisk
Validation
Artificial Intelligence
Google Chrome Extension
Gulp
Cygwin
Angular
Jquery Ui
Pascal
Numpy
Jmeter
Sbt
Sharepoint 2007
Youtube Api
Amp Html
Fluent Nhibernate
Hybris
Qt
Actions On Google


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网