Scala collect_list（）是否保持行的相对顺序？_Scala_Apache Spark_Apache Spark Sql - Fatal编程技术网

Scala collect_list（）是否保持行的相对顺序？

scala apache-spark

Scala collect_list（）是否保持行的相对顺序？,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,假设我有以下数据帧df： +---+-----------+------------+ | id|featureName|featureValue| +---+-----------+------------+ |id1| a| 3| |id1| b| 4| |id2| a| 2| |id2| c| 5| |id3| d|

假设我有以下数据帧df：

+---+-----------+------------+
| id|featureName|featureValue|
+---+-----------+------------+
|id1|          a|           3|
|id1|          b|           4|
|id2|          a|           2|
|id2|          c|           5|
|id3|          d|           9|
+---+-----------+------------+

想象一下我在跑步：

df.groupBy("id")
  .agg(collect_list($"featureIndex").as("idx"),
       collect_list($"featureValue").as("val"))

我是否保证将“idx”和“val”聚合并保持它们的相对顺序？i、 e

GOOD GOOD BAD +---+------+------+ +---+------+------+ +---+------+------+ | id| idx| val| | id| idx| val| | id| idx| val| +---+------+------+ +---+------+------+ +---+------+------+ |id3| [d]| [9]| |id3| [d]| [9]| |id3| [d]| [9]| |id1|[a, b]|[3, 4]| |id1|[b, a]|[4, 3]| |id1|[a, b]|[4, 3]| |id2|[a, c]|[2, 5]| |id2|[c, a]|[5, 2]| |id2|[a, c]|[5, 2]| +---+------+------+ +---+------+------+ +---+------+------+
注意：例如，这是不好的，因为对于id1[a，b]应该与[3,4]（而不是[4,3]）关联。id2也是一样，我认为您可以依赖于“它们的相对顺序”，因为Spark会按顺序逐个遍历行（如果没有明确需要，通常不会重新排序行）
如果您关心顺序，请在执行
groupBy
之前使用函数合并这两列
struct（colName:String，colNames:String*）：Column创建一个由多个输入列组成的新struct列
您还可以使用函数对记录进行编号，并使用它与其他列配对（可能使用
struct
）：
单调递增的\u id（）：列生成单调递增的64位整数的列表达式
生成的ID保证单调递增且唯一，但不是连续的

因此，Spark DataFrame将数据处理“水平”分布，而不是“垂直”分布。i、 e.一个执行者将始终接收整行，而不是其中的几列？是的。行始终全部位于单个执行器/节点上。

[apache spark]相关文章推荐

Apache spark 为什么spark任务在单个节点上运行？ apache-spark

Apache spark Spark SQL：将聚合函数应用于列列表 apache-spark dataframe

Apache spark 阿帕奇齐柏林飞艇公司；Spark流媒体：Twitter示例仅适用于本地 apache-spark

Apache spark spark sql不支持分区删除 apache-spark

Apache spark 将模式演化（SCD）JSON/XML转换为ORC/Parquet格式 apache-spark

Apache spark 火花流+运动：违反接收器最大速率 apache-spark

Apache spark 尝试将数据放入hbase表时遇到ConnectionClosingException apache-spark hbase

Apache spark 使用Databricks Spark Avro 3.2.0时无任何方法错误 apache-spark

Apache spark 无法读取spark中以“\”下划线开头的列 apache-spark

Apache spark 使用AWS Glue作业在红移中导入数据时添加时间戳列 apache-spark amazon-redshift

Apache spark Pyspark：如何确保您的udf不会'；不要分配给不同的工人 apache-spark pyspark cluster-computing

Apache spark apachesparkshell：如何设置分区的数量？ apache-spark

Apache spark Spark with Hive是否可以将项目阶段推进到HiveTableScan？ apache-spark hadoop hive

Apache spark 如何将javaagent传递给emr spark应用程序？ apache-spark

Apache spark pyspark rdd采用最小年龄的最大频率 apache-spark pyspark

Apache spark 如何在selectExpr中执行多个表达式 apache-spark

Apache spark 将数据加载到源中没有分隔符的Spark Dataframe中 apache-spark hadoop

Apache spark spark cassandra连接器在回读时丢失数据 apache-spark

Apache spark apachespark有多个worker，但只有一个数据库 apache-spark

Apache spark 在Spark UI中显示不同的输入大小 apache-spark

随机文章推荐

如何在Moodle中启用文件共享？ moodle

用于Moodle安装问题的Kaltura插件 moodle

在moodle模块中插入一行代码的正确方法是什么？ moodle

Moodle:提取下载的zip提交时出错 moodle

如何在moodle 1.9中获得学生所属课程的列表？ moodle

Android设备上的Moodle Scorm播放器与清晰移动播放器 moodle

Moodle 限制一个用户查看其他用户课程 moodle

Moodle进度条 moodle

Moodle:core\u user\u get\u users\u by\u字段返回一个空白数组 moodle

[scala]相关推荐

Scala 实例化一个类-带或不带参数？
Scala

Scala Spray：如何将RespondWithHeader应用于所有路由而不是每个路由
Scala

依次执行Scala期货
Scala

如何从列表中删除特定元素，并使用scala对列表元素进行分组？
Scala

检查所有'；Seq'；元素在Scala集合中的大小为1？
Scala

Phantom Scala Cassandra连接器：如何指定节点的端口、用户名和密码
Scala Cassandra

scala：宏天堂中的注释示例
Scala Macros

Scala Spark优化字符串出现次数的计数
Scala Apache Spark

Scala 部署不'；t不支持嵌套的"；bundleArgument“；要素
Scala Sbt

使用Scala插件在IntelliJ中创建解码字节数组的流时发生Spark createStream错误
Scala Intellij Idea Apache Kafka

Scala-传递派生类型的类以代替超类型的类
Scala

Scala 如何与隐式需要SparkContext的方法共享SparkContext
Scala Apache Spark

如何在Scala/Play中创建JSON对象
Scala Playframework

Scala 无法将数据附加到拼花地板[FileAlreadyExists异常]
Scala Apache Spark

Scala 如果子参与者在重试N次后仍失败，主管是否可以将异常传递给调用参与者？
Scala Akka

如何在scala中映射相邻元素
Scala Apache Spark

Scala 不相交模式匹配
Scala

Scala 使用Json4s从列表中创建JSON
Scala

Scala中的存在主义问题
Scala

Scala 阿克卡http。表示选项值
Scala

使用scalatest检查Scala宏的编译错误
Scala

Scala 取Seq[u1;]的HList并用笛卡尔值积生成Seq[HList]
Scala

Scala 如何为其他列创建事件序列（列值）？
Scala Apache Spark

Scala Seq上的笛卡尔连接与自身相对？
Scala

Scala'；s列表在连接运算符下形成幺半群？
Scala Functional Programming

Scala Spark中两个大型数据集之间的交叉连接
Scala Apache Spark

Scala 将列表的spark DF列拆分为单独的列
Scala Dataframe Apache Spark

Scala ApacheFlink-预测处理
Scala Apache Flink

scala打印语句在for循环外部工作而不在for循环内部工作，有什么原因吗？
Scala For Loop Printing

如何解决scala中的类型错误匹配
Scala Types Tree

Tags

Chef Infra Nativescript Cocos2d Iphone Spring Integration Google Maps Swift Web Scraping Computer Science Swift3 Sql Server 2005 Maven Timer Visual Studio Code Memory Management Class Arrays Vba Javascript Jenkins Common Lisp Openssl Ms Word Sequelize.js Big O Shell Apache Openerp Flash Django Models Cordova Time Complexity Devexpress Doctrine Laravel 5 Telerik Azure Functions Random Nosql Operating System Error Handling Docker Compose Aem Centos Solr Xampp Itext Paypal Visual Studio 2013 Airflow Ssh Jsf Yocto Processing Exception Ffmpeg Azure Active Directory Ubuntu Autocomplete Cucumber Dll File Upload Coq Jupyter Notebook Monitoring Sapui5 Sublimetext3 Ravendb Swing Google Cloud Storage Dependencies Cmd Serial Port Numpy Pascal Webgl Gradle Gcc Odata Botframework Grafana View Scheme Sql Server 2008 Qt Google Chrome Devtools Interface Email Directx Google Cloud Platform Xamarin.android Pyspark Windows 7 Cron Requirejs Internet Explorer 8 Openshift Breeze Python 3.x Ada Path Symfony1 Zend Framework Sharepoint 2013 Dotnetnuke Scripting Security Model Swagger Asp.net Core Mvc .net Character Encoding Xpath Asp.net Mvc 2 Robotframework Install4j Codeigniter Orm Salesforce Chart.js Visual Studio 2008 Phantomjs Macros Menu Time Azure Layout Reference Sql Server 2012 Nest Curl Terraform Svg C Perl Office365 Alfresco Model View Controller Composer Php Math Twitter Bootstrap 3 Deep Learning Microservices Markdown Tableau Api Influxdb Coldfusion Erlang Telegram Msbuild Jasmine Drupal Bots C++ Graphql Sparql Winforms Binding Vim Mysql Java 8 Permissions Rxjs Microsoft Graph Api Cassandra Typescript Cocoa Touch Sitecore Pdf Apache Kafka Kentico Hyperledger Fabric Ip Apache Flink Sencha Touch 2 Opengl Es Symfony Zsh Haskell Oracle Vector Jquery Mobile Isabelle Xamarin.ios Websocket Lua Spring Batch Oauth 2.0 Asp Classic Sharepoint 2010 Reflection Tridion Statistics Yii Autohotkey Loops Tcp Vagrant Function Redux Uwp Automation

Copyright © 2024. All Rights Reserved by - Fatal编程技术网