Scala 了解Spark WindowSpec的范围_Scala_Apache Spark_Apache Spark Sql - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 了解Spark WindowSpec的范围_Scala_Apache Spark_Apache Spark Sql - Fatal编程技术网

Scala 了解Spark WindowSpec的范围

scala apache-spark

Scala 了解Spark WindowSpec的范围,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,Spark为WindowSpec类的rangeBetween方法提供了以下示例作为方法文档： import org.apache.spark.sql.expressions.Window import spark.implicits._ val df = Seq((1, "a"), (1, "a"), (2, "a"), (1, "b"), (2, "b"), (3, "b")).toDF("id", "category") val byCategoryOrderedById = Window

Spark为

WindowSpec

类的

rangeBetween

方法提供了以下示例作为方法文档：

import org.apache.spark.sql.expressions.Window
import spark.implicits._

val df = Seq((1, "a"), (1, "a"), (2, "a"), (1, "b"), (2, "b"), (3, "b")).toDF("id", "category")
val byCategoryOrderedById = Window.partitionBy('category).orderBy('id).rangeBetween(Window.currentRow, 1)
df.withColumn("sum", sum('id) over byCategoryOrderedById).show()

结果是：

+---+--------+---+
| id|category|sum|
+---+--------+---+
|  1|       b|  3|
|  2|       b|  5|
|  3|       b|  3|
|  1|       a|  4|
|  1|       a|  4|
|  2|       a|  2|
+---+--------+---+

对于值为

的

类别

，我能够理解

sum

列中的值：

row#1(1-b-3), 3=1+2 //2 is next id for this row
row#2(2-b-5), 5=2+3 //3 is next id for this row
row#3(3-b-3), 3=3  //there is no next row since this is the last row for b

但是对于值为a的

类别

，我无法理解4 2是如何计算的

我猜，对于同一类别中的同一id，这些相同id（此处id为1，类别为a）一起计算…，即：

对于同一类别中的两个相同ID：

把所有相同的ID加起来，这里是1+1

对于这些相同的id，它们的下一个id与它们不同，这里是2，那么和是1+1+2

不确定我的理解是否正确

介于

之间的范围考虑了列中的实际值。它将检查哪些值“在范围内”（包括起始值和结束值）。在您的示例中，当前行是起始值，下一行是结束值。由于范围是包含的，因此所有重复的值也将被计数
例如，如果开始值和结束值分别为1和3。此范围（1,2,3）内的所有值将用于总和

这与之间的
行形成对比。对于此函数，仅统计指定的行。也就是说，<代码> RoSsEnter（Windows .CurrnRun，1）只考虑当前和下一行，是否存在重复。如果您不喜欢这种行为，也可以使用<代码> >（0,1）

[apache spark]相关文章推荐随机文章推荐 Jsf 如何将ResultSet与h:dataTable一起正确使用 jsfjdbc JSF PrimeFaces小部件问题 jsfprimefaces Jsf p:ajax，f:param，f:attribute支持？ jsfjsf-2primefaces 将参数从JSF发送到webflow转换 jsf 如何在JSF中返回状态消息？ jsfjsf-2 jsf richfaces a4j：区域调用渲染 jsf 如何在JSF和WAS中管理用户会话 jsfwebsphere 在一个JSF变量下提供多个本地化文件？ jsfjsf-2localizationinternationalization Jsf 在托管bean中使用会话ejb时，我遇到nullpointer异常 jsfjpa 可以在Bluemix上部署JSF应用程序吗？ jsfibm-cloud Jsf p:datatable未显示会话映射中的更新值 jsfprimefaces 只创建第一个JSF控制器。其他人则被忽视 jsfjsf-2 Jsf primefaces 5.1文件上载未响应 jsffile-uploadprimefaces Jsf h:dataTable中未显示结果 jsfjsf-2 Jsf XML分析错误：未找到元素位置：http://localhost:8081/web-app/pages/login.xhtml第1行第1列：^ jsf Jsf 如何从<；获取已单击选项卡的关联对象；p:accordionPanel>； jsfprimefaces Primefaces/jsf媒体标签在chrome浏览器中播放WebM文件 jsfprimefaces Jsf 自动生成p:dataTable的头p:columnGroup jsfprimefaces 提高JSF项目的安全性 jsfjakarta-ee Jsf Primefaces上的Ajax条件更新 jsfprimefaces

[scala]相关推荐使用特定实现实例化的Scala语法是什么？ Scala Scala Sbt未解析的依赖项（不是有效的命令：gen idea） Scala Sbt 如何在Scala中使用枚举进行类型推断？ Scala Types Enums Scala 如何检查映射中是否存在键或值？ Scala Dictionary Collections Scala:toSeq vs Seq（某物：*） Scala Scala 如何生成右关联中缀运算符？ Scala 将ScalateTest与FunSpec一起使用时的测试代码执行顺序以及Before和After Scala 将自定义逻辑添加到Scala'；s构造函数 Scala Scala括号语义 Scala scala.concurrent.ExecutionContext.Implicits.global的行为是什么？ Scala Concurrency Scala 在None子句中从选项[T]提取类 Scala Reflection Scala 播放框架：带参数的POST请求 Scala Post Playframework Scala 在Spark中将字符串字段转换为时间戳的更好方法 Scala Apache Spark Scala宏为我的DAO创建通用映射器 Scala Scala 类型参数与WeakTypeTag反射不匹配+；准液化（我想！） Scala Scala 如何在playframework控制器中处理未来选项？ Scala Playframework Scala 在成对rdd上激发rdd唯一值 Scala Apache Spark Scala//Squeryl/Play从同一参数检索多个值 Scala Playframework Scala 如何评估这些案例语句类型？ Scala Scala 嵌套映射的奇怪行为 Scala Scala Akka Kafka Producersettings:重载方法值应用于备选方案： Scala Scala 使用for和yield时获取编译错误 Scala Scala 避免递归MTL类上的发散隐式扩展 Scala Scala PlayFramework-FakerRequest以上载文件 Scala Playframework Scala 如何在Circe中为[Option[a]]编写自定义解码器？ Scala Scala 在控制器的方法中不使用head-on-list Scala Playframework Scala 是否有可能将输出为[Throwable，Unit]的同步函数调用转换为将来的[Throwable，Unit]？ Scala Scala，查找值是否在两个整数之间 Scala 如果关键期货在Scala中完成，如何放弃其他期货？ Scala Asynchronous 从dataframe Scala中选择列后，列值的顺序将发生更改 Scala Apache Spark Tags Ms Access Sublimetext2 Select Utf 8 Modelica Design Patterns Postman Mapping Facebook Xamarin.ios Autohotkey Url Ruby Itext Dynamic Omnet++ Gwt Keyboard Emacs Rdf Graphics Ignite Google App Maker Pyspark Protractor Gridview Install4j Leaflet System Verilog Scroll Twilio Sql Server 2012 Doxygen Model Sas Fullcalendar Php Tsql Certificate Webpack Pytorch Azure Data Factory Automation Nativescript Wcf Pandas Symfony1 Air Dialogflow Es Spring Log4j Primefaces Node.js Visual Studio Code Symfony Drupal 7 Css Scikit Learn Google Maps Api 3 Soap Grails Asp.net Mvc Serialization Atom Editor Memory Management Mips Reference Odata Sql Server 2005 Eclipse Rcp Kendo Ui Excel Formula Variables Batch File Map Telegram Mpi Audio Struct Openlayers Sql Neural Network List Jquery Ui Mongoose Memory Leaks Networking Sequelize.js Xaml Printing Google Colaboratory Angular6 Nuget Jhipster Project Management Http Keycloak Requirejs Ruby On Rails 4 Search Sql Server 2008 Notifications Model View Controller Spring Integration Speech Recognition Phpstorm Dns Ipad Visual Studio 2017 Nestjs Network Programming Ipython Types Android Studio Microservices Influxdb Azure Cosmosdb Sml Sitecore Ssl Opencart Iis Visual C++ Tree Filesystems Security Ckeditor Teradata Animation Sockets Ffmpeg Nest Groovy Google Cloud Dataflow Ruby On Rails Akka Woocommerce Database Stata Erlang Oracle10g Neo4j Recursion Debugging Android Layout Discord.py Serial Port Discord.js Arrays Google Cloud Storage Gcc Isabelle Asp.net Lisp Anaconda Identityserver4 Loops React Native Centos Dataframe Jupyter Notebook Sass Opengl Domain Driven Design Macos Hazelcast Mariadb Parse Platform Flask Botframework Post Maven Hibernate Maven 2 Google Cloud Firestore Function C++ Amazon Redshift Google Drive Api Wpf Asp.net Web Api Crystal Reports Sbt Sprite Kit Web Swiftui Rally Class Jsp Google Apps Script Tcl Nsis Gruntjs Typo3 Libgdx Visual Studio 2012 Permissions Devexpress Jpa Parameters Encoding

Copyright © 2024. All Rights Reserved by - Fatal编程技术网