Serialization 火花不能正确过滤？_Serialization_Apache Spark - Fatal编程技术网

Serialization 火花不能正确过滤？

serialization apache-spark

Serialization 火花不能正确过滤？,serialization,apache-spark,Serialization,Apache Spark,我遇到一个有线问题，结果不正确。我有一个名为a的类，它有一个名为keyword的值。如果RDD[A]有一些关键字，我想过滤它 Spark环境：版本：1.3.1 执行环境：纱线客户机代码如下： class A ... case class C(words:Set[String] ) extends Serializable { def run(data:RDD[A])(implicit sc:SparkContext) ={ data.collect{ case x:A=&g

我遇到一个有线问题，结果不正确。我有一个名为a的类，它有一个名为

keyword

的值。如果RDD[A]有一些

关键字，我想过滤它
Spark环境：
版本：1.3.1
执行环境：纱线客户机
代码如下：
class A ...
case class C(words:Set[String] ) extends Serializable {

  def run(data:RDD[A])(implicit sc:SparkContext) ={
    data.collect{ case x:A=> x }.filter(y => words.contains(y.keyword)).foreach(println)
  }
}

   // in main function
  val data:RDD[A] = ....
  val c = C(Set("abc"))
  c.run(data)

上面的代码不打印任何内容。但是，如果我收集RDD[A]到本地，那么它会打印一些东西！例如
data.take(1000).collect{ case x:A=> x }.filter(y => words.contains(y.keyword)).foreach(println)}

这怎么会发生
让我问另一个相关的问题：我是否应该使案例类C
扩展可序列化
？我认为没有必要。原因很简单。如果在本地收集数据时运行println
功能，则会发生以下情况：数据通过网络传输到正在使用的机器（我们称之为Spark环境的客户端），然后在控制台上打印。到目前为止，一切正常。相反，如果在分布式RDD
上运行println
函数，则println
函数将在包含数据的工作机器上本地执行。因此，函数实际上是执行的，但在客户端的控制台上看不到任何结果，除非它也是一台工作机器：事实上，所有内容都打印在相应工作节点的控制台上
不，没有必要将其设置为可序列化的，唯一序列化的是您的单词：Set[String]

[apache spark]相关文章推荐

Apache spark DSE 4.6至DSE 4.7未能找到火花组件 apache-spark

Apache spark 大量错误错误监视器：spark启动时AssociationError apache-spark

Apache spark Spark数据帧缓存大容量 apache-spark dataframe

Apache spark PySpark PCA：如何将数据帧行从多列转换为单列DenseVector？ apache-spark pyspark

Apache spark Spark和Zookeeper HA的多个主控器 apache-spark apache-kafka apache-zookeeper

Apache spark ApacheSpark—解析数据并将列转换为行 apache-spark

Apache spark 如何有效地处理ftp提供的二进制文件并将结果存储在GCS上 apache-spark ftp google-cloud-dataflow

Apache spark 1000+的火花流式设计；话题 apache-spark

Apache spark 大查询还是变异数据帧？ apache-spark hive

Apache spark 结构化流媒体中的模式检查 apache-spark apache-kafka

Apache spark Spark Drops复制源代码 apache-spark open-source

Apache spark 如何在spark结构化流媒体应用程序中优化executor实例的数量？运行时 apache-spark

Apache spark 在缺乏资源的情况下，spark作业将等待来自纱线的资源多长时间？ apache-spark

Apache spark 如何在静态数据集上运行流式查询？ apache-spark

Apache spark sparksql，是否可以编写一个jdbc方言来解析JAVA_对象类型并将其转换为StructType？ apache-spark

Apache spark Spark sql中计数的替代方法，用于检查查询是否返回空结果 apache-spark

Apache spark “无法设置”；火花“；运行spark submit命令时作为服务帐户名 apache-spark kubernetes

Apache spark Spark独立群集上的Spark身份验证和加密，Spark.master.rest.enabled=true apache-spark

Apache spark Spark-写入流不接受架构更改 apache-spark pyspark

Apache spark 以许可模式读取json文件-PySpark 2.3 apache-spark pyspark

随机文章推荐

Open source 最好的开源Nagios接口是什么？ open-source networking monitoring

Open source 有开源软件吗；“给我的X打分”；网站工具？ open-source web

Open source 许可软件为开源软件，但对已编译的可执行文件收费？ open-source

Open source 如何在windows系统上编译kscope？ open-source cygwin

Open source 自动机设计软件 open-source

Open source 是否有可用的开源用户指南类型创建软件？ open-source

Open source 可视化最活跃的开源项目的最佳站点/软件？ open-source

Open source 开源移动广告服务器 open-source mobile

Open source 有开源病毒吗？ open-source

Open source 类似于avahi的开源库 open-source

Open source 开源数据挖掘工具，寻找好的选择（GNU数据挖掘应用程序） open-source

Open source 是否有用于视频存储和分发的Erlang开源项目？ open-source erlang

Open source 打开bravo erp+；信息 open-source

Open source Gnome DIA更改用户界面语言 open-source

Open source 如何编辑和添加客户服务、附加服务和；Opencart中管理员端的我的帐户页面 open-source opencart

[serialization]相关推荐

Serialization 按顺序组合多个动画
Serialization

Serialization 在SerializeToString函数调用期间，如何防止DDay.ical ics文件重复发生重复事件
Serialization

Serialization 通过排除具有预期默认值的字段来最小化json大小
Serialization

Serialization 查看协议缓冲区消息文件
Serialization Command Line Protocol Buffers

Serialization XML中的ServiceStack序列化列表
Serialization

Serialization 取消序列化返回false
Serialization

Serialization 食人魔场景的序列化
Serialization

Serialization 是否可以在.vbs脚本中进行序列化？
Serialization Vbscript

Serialization ViewScoped Bean中SessionScope的ManagedProperty-瞬态？
Serialization Jsf 2

Serialization 如何找出正在使用的归档格式？
Serialization

Serialization ApacheStorm：记住喷口的旧输出字段数
Serialization Cluster Computing Apache Storm

Serialization 尝试将空间数据与实体框架一起使用时出错
Serialization

Serialization Django Rest Framework-无法使用“视图名称”解析超链接关系的URL；“字段详细信息”；
Serialization Django Models Django Rest Framework

无法加载文件或程序集'；System.Runtime.Serialization'；在Xamarin.UWP中
Serialization Xamarin.forms

Serialization Flink Kafka producer:类的对象不可序列化
Serialization Apache Kafka Apache Flink

Serialization 如何将当前父序列号替换为要搜索的当前序列号？
Serialization Bots

Serialization 如何仅序列化变量的名称并忽略结构（serde）中枚举字段的值
Serialization Struct Rust Enums

Tags

Wxpython Crystal Reports Google Bigquery Google Maps Ecmascript 6 Openshift Big O Terraform Rest Moodle Ajax 3d Html Subsonic Odata Xpages Xamarin.forms Sphinx Hash Extjs4 C# 3.0 Sockets Electron Ftp Mqtt Influxdb Notepad++ Wso2 Asp.net Mvc 4 Sharepoint Jetty Yocto Oracle Apex Ibm Mq Fluent Nhibernate Clojure Browser Cygwin Visual Studio 2012 Snowflake Cloud Data Platform Ms Access Report Google Compute Engine Android Emulator Windows Mobile Nuget Azure Active Directory Youtube Api Javafx Mapping Parameters Here Api Logstash Makefile Version Control Text Twitter Bootstrap 3 Build Paypal Devexpress Apache Nifi Zend Framework Verilog Ansible Certificate Redux Sequelize.js Language Agnostic Visual C++ Open Source Gatsby Internet Explorer Reporting Services Windows Services Hadoop Timer Python 3.x Liferay Activerecord Angular Generics Eclipse Blazor Groovy List Command Line Air Fortran Coldfusion Tfs Google App Maker Sml Internationalization Sails.js Openerp Gstreamer Breeze Windows Runtime Log4net Processing Asp.net Mvc Utf 8 Unix Artifactory Geolocation Angular6 Highcharts Wcf Asp.net Web Api Pycharm Windbg Perforce Material Ui Android Fragments Image Playframework Google App Engine Xaml Triggers Windows Phone 8.1 Ssas Vb.net Microservices Shiny Asp.net Mvc 3 Docker Compose Keyboard Kubernetes Google Api Zurb Foundation Arrays Qt Windows 8 Symfony1 Resharper Selenium Webdriver Cluster Computing Sql Server 2008 R2 Nativescript Signalr Loops Salesforce Openid Ruby On Rails 3.2 Cucumber Pine Script Amazon Ec2 C# Nestjs Frameworks Apache Zookeeper Cocoa Computer Science Model Postgresql Isabelle Syntax Configuration Programming Languages E Commerce Airflow Npm Notifications Extjs Grid Discord Ibm Mobilefirst Cloud Foundry Next.js Install4j Twitter Iphone Coffeescript Dojo Compiler Errors Azure Functions Aws Lambda Character Encoding Matrix Drupal 7 Haskell Responsive Design Opengl Es Aem Boost Redirect Join Firebase Selenium Rxjs Regex Collections D Combobox Exception Sqlalchemy Neo4j Hybris C# 4.0 Enums Database Design

Copyright © 2024. All Rights Reserved by - Fatal编程技术网