Apache spark 通过删除特定列创建特征向量_Apache Spark_Spark Dataframe_Apache Spark Mllib - Fatal编程技术网

Apache spark 通过删除特定列创建特征向量

apache-spark

Apache spark 通过删除特定列创建特征向量,apache-spark,spark-dataframe,apache-spark-mllib,Apache Spark,Spark Dataframe,Apache Spark Mllib,我使用VectorAssembler从>2000列中创建特征向量，以便在其上运行PCA。我通常会明确说明哪些列需要包含在特征向量中： val dataset = (spark.createDataFrame( Seq((0, 1.2, 1.3, 1.7, 1.9), (1, 2.2, 2.3, 2.7, 2.9), (2, 3.2, 3.3, 3.5, 3.7)) ).toDF("id", "f1", "f2", "f3", "f4")) val assembler = (new Vecto

我使用

VectorAssembler

从>2000列中创建特征向量，以便在其上运行PCA。我通常会明确说明哪些列需要包含在特征向量中：

val dataset = (spark.createDataFrame(
Seq((0, 1.2, 1.3, 1.7, 1.9), (1, 2.2, 2.3, 2.7, 2.9), (2, 3.2, 3.3, 3.5, 3.7))
).toDF("id", "f1", "f2", "f3", "f4"))

 val assembler = (new VectorAssembler()
.setInputCols(Array("f2", "f3"))
.setOutputCol("featureVec"))

但是，如果超过2000列，我如何指定应包括除“id”和“f1”之外的所有列

感谢您的帮助

最简单的方法之一是获取所有列名，转换为一个集合，减去不需要的列，然后再次将其用作数组

val datasetColumnsToBeUsed = dataset.columns.toSet - "id" - "f1" toArray import org.apache.spark.ml.feature.VectorAssembler val assembler = (new VectorAssembler() .setInputCols(Array(datasetColumnsToBeUsed: _*)) .setOutputCol("featureVec"))
另一个最简单的方法是在列名上使用
过滤器如上所述使用它@vanja_65，我添加了另一个简单的方法：）太好了！谢谢；-） val columnNames = dataset.columns val datasetColumnsToBeUsed = columnNames.filterNot(x => Array("id", "f1").contains(x))

[wso2]相关文章推荐 WSO2 CEP结果集中有多行 wso2 可构建WSO2 API Mngt 4.0.7 wso2 WSO2-ESB：来自wsdl的SOAP中介 wso2 WSO2 DSS返回日期和时间fom Oracle日期字段 wso2 WSO2身份服务器{密码重置链接} wso2 在WSO2 ESB 4.8.1中使用VFS写入文本文件 wso2 WSO2 AM网关传递给源API服务器的HTTP头是什么？ wso2 更改WSO2/Synapse以公开CXF服务而不是AXIS2 wso2 如何通过WSO2 ESB Smook将csv转换为json wso2 WSO2 ESB-无法初始化启动控制器。找不到TaskManager。{org.apache.synapse.startup.quartz.StartUpController wso2 docker.WSO2.com中的WSO2 AM 2.0.0 docker图像不公开 wso2 wso2 api管理器内容长度问题 wso2 wso2 CEP使用不同的时间窗口多次执行相同的查询 wso2 wso2cep：错误-'；距离'；既不是执行计划中的函数扩展，也不是聚合属性扩展；“执行计划”； wso2 wso2 api管理器-wso2:vault-lookup（）不工作 wso2 Wso2 APIM 3.0.0:/Publisher未显示登录页面 wso2 如何在WSO2 Identity Server 5.3.0中从CSV批量导入时配置密码过期时间 wso2 WSO2 api管理器在登录到/存储后失败（405-不允许使用方法） wso2 Wso2 在RESTAPI中指定自定义租户id wso2 Wso2 APIManager 3.2.0如何下载it分析？ wso2 随机文章推荐 VB6是否具有#pragma包等效物？ vb6 在vb6中使用ini文件，文件路径有问题 vb6path Vb6 如何在Visual Basic 6.0应用程序中设置区域选项？ vb6 如何在VB6中编写新控件？ vb6 VB6-X按钮调用哪个事件？ vb6 Vb6 Visual Basic 6程序是否会在64位计算机上运行？ vb6 是否可以在VB6程序中嵌入SSRS ReportViewer？ vb6reporting-services vb6内存限制 vb6 Vb6 为什么我会出现运行时错误；无效的属性数组索引"；？ vb6 VB6：每个WebBrowser控件都有不同的代理？ vb6 VB6：如何使用API搜索列表框并获取所有匹配项？ vb6 Vb6 将AS400（IBM i）配置文件令牌传递给OLE DB连接 vb6ibm-midrange Vb6 创建主键不重复的表 vb6 Vb6 visual basic 6：以其他形式创建对象 vb6 Vb6 窗口仍在后台工作 vb6 VB6 RichTextBox中创建文本部分的格式设置颜色 vb6 Vb6 radomly将字符串添加到我的代码中 vb6 Vb6 将现有模块添加到项目后，将无法识别成员 vb6 Vb6 FFProbe-won'；t将结果输出到文件 vb6 Vb6 是否有Visual Basic 6反编译器？ vb6

[apache spark]相关推荐 Apache spark Spark提交应用程序主主机 Apache Spark Apache spark 如何在JAVA中将RDD转换为数据流？ Apache Spark Apache spark Timeseries图表：数据作为行而不是列 Apache Spark Apache spark Mahout recommender、Flink、Spark MLLib和#x27；灰盒&x27； Apache Spark Apache Flink Apache spark 将20Gb csv文件复制到cassandra的最佳方法 Apache Spark Cassandra Apache spark spark streaming-在foreachrdd中始终广播变量 Apache Spark Streaming Apache spark 流处理中的非确定性函数 Apache Spark Apache Storm Apache Flink Apache spark S3和spark。S3上有多个配置单元目标。对某些配置单元表使用s3:sse，对某些配置单元表不使用s3:sse Apache Spark Amazon S3 Apache spark Spark执行器RAM和文件大小 Apache Spark Apache spark org.apache.spark.sql.AnalysisException:路径不存在 Apache Spark Apache spark Spark知道数据帧的分区键吗？ Apache Spark Apache spark Hadoop/Spark：复制因子和性能是如何关联的？ Apache Spark Hadoop Mapreduce Apache spark 基于Scala的火花分析 Apache Spark Cassandra Apache spark 在SPARK standalone中使用SPARK-SHELL时初始化SparkContext时出错 Apache Spark Apache spark Spark数据帧中的列值比较 Apache Spark Apache spark 其中有状态操作的状态保存在Spark Cluster中 Apache Spark Apache spark 操作顺序 Apache Spark Pyspark Apache spark 如何使用pyspark填充日期到行之间的值？ Apache Spark Pyspark Apache spark 无法运行简单的pyspark程序 Apache Spark Pyspark Apache spark 如何在pyspark中执行学生t测试？ Apache Spark Pyspark Apache spark 过度写入log4j属性以过滤数据块中的日志 Apache Spark Log4j Apache spark 如何在Spark中检测CSV文件模式的更改 Apache Spark Pyspark Apache spark 运行spark作业时，我会遇到以下错误：没有这样的文件或目录 Apache Spark Hadoop Apache spark 在写入雪花之前保存Spark数据帧 Apache Spark Pyspark Apache spark 当基础表被扣紧时，Spark如何在连接表时减少混洗 Apache Spark Apache spark sparksql中的迭代广播连接 Apache Spark Apache spark 用于共享V2数据源的存储库 Apache Spark Apache spark 火花-本地模式与纱线模式 Apache Spark Apache spark 外部洗牌服务的节点管理器堆大小 Apache Spark Hadoop Apache spark Spark以块的形式读取数据库行？ Apache Spark Tags C# Wolfram Mathematica Templates Vb.net Django Models Html Appium Sockets Vhdl Sbt Memory Management Internet Explorer Swift Bluetooth Wpf Dynamics Crm Dll Documentation Protocol Buffers Gradle Formatting Laravel 5 Image Tcl Three.js Spring Cloud Logstash Winforms Ldap Identityserver4 Ios8 Scala Xpages D Selenium Dataframe Prolog Dotnetnuke Variables Vuejs2 Sublimetext3 Openshift Drupal 7 Composer Php Mariadb Orchardcms C++11 Visual C++ Laravel Struct Ios4 Browser Arrays Tabs Big O Blazor Responsive Design Mdx Iis Editor Jestjs Database Design Office Js 3d Plot Drupal Spring Security Time Typescript Angular Material Asp.net Mvc Cluster Computing Hibernate Asterisk Automated Tests Discord.js Xaml Mongodb Terminal Karate Shopify Sublimetext2 Ios6 Angular6 Clearcase Docker Ftp Project Management Gitlab Breeze Corda Log4net Boost Version Control Ruby Web Crawler Salesforce Silverlight 4.0 Javascript Perforce Tsql Umbraco Google Bigquery Playframework 2.0 Apache Spark Sharepoint 2010 Kubernetes Amazon Redshift Razor Jquery Ui Next.js Login Stata Apache Camel Cryptography Azure Functions Mqtt Gulp Windows Gruntjs Cocos2d Iphone Colors Openid Download Selenium Webdriver Jaxb Google Calendar Api Raspberry Pi Csv Ffmpeg Visual Studio 2013 Webview Web Scraping Gdb Cygwin Ada Virtualbox Mfc Cuda Programming Languages Apache2 Windows Phone 8.1 Apache Windows Runtime Ruby On Rails 3.2 Graphql Grep Google Chrome Concurrency Asp.net Mvc 4 Visual Studio 2008 Shiny Macos Canvas Google Analytics Json Github Snmp Binary Windows Phone 8 Google Maps Api 3 Dojo Netty Dictionary Ocaml Tableau Api Arangodb Apache Flex Gatsby Ssis Unicode Plone Vaadin Rest Matrix Batch File Hyperledger Fabric Cmd Architecture Sip Opencv Session Menu Spring Boot Office365 Chef Infra Oracle Apex Mpi Nginx Core Data Checkbox Video Exception Handling Intellij Idea Windows Phone 7 Jdbc Sqlalchemy Google Chrome Devtools Crystal Reports Latex Sdk

Copyright © 2024. All Rights Reserved by - Fatal编程技术网