Apache spark 不要使用Spark RDD'；s是否有类似于set的东西允许快速查找？_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 不要使用Spark RDD'；s是否有类似于set的东西允许快速查找？

apache-spark pyspark

Apache spark 不要使用Spark RDD'；s是否有类似于set的东西允许快速查找？,apache-spark,pyspark,Apache Spark,Pyspark,我有一些成对的数据，比如 data = [(3,7), (2,4), (7,3), ...] 这些对应于我想要构建的图中的连接。我只想保留其反向对包含在数据中的对，并且每个对只保留一个副本。例如，在上面的数据中，我想要[（3,7）]，因为反向（（7,3））也在数据中在Python中，我将执行以下操作： pairs = set(data) edges = [p for p in pairs if p[0] < p[1] and (p[1], p[0]) in pairs] pairs=

我有一些成对的数据，比如

data = [(3,7), (2,4), (7,3), ...]

这些对应于我想要构建的图中的连接。我只想保留其反向对包含在数据中的对，并且每个对只保留一个副本。例如，在上面的数据中，我想要[（3,7）]，因为反向（（7,3））也在数据中

在Python中，我将执行以下操作：

pairs = set(data)
edges = [p for p in pairs if p[0] < p[1] and (p[1], p[0]) in pairs]

pairs=set（数据）
边=[p对于p成对，如果p[0]


我可以在Spark上做类似的事情吗？我能得到的最接近的方法是创建一个新的RDD，将对反转，与原始数据进行交集，并根据正在排序的对元素进行过滤，但这似乎效率低下。

这也可以工作您是否尝试运行此功能？这给出了[（3,7），（2,4）]，但我指定了期望的结果是[（3,7）]。
rdd = sc.parallelize([(3, 7), (2, 4), (7, 3)]) \
    .map(lambda x: ((min(x), max(x)), [x])) \
    .reduceByKey(lambda x, y: x + y) \
    .filter(lambda x: len(x[1]) > 1) \
    .map(lambda x: x[0])




[pyspark]相关文章推荐



                                                        
Pyspark 纱线簇模式比纱线长度长
pyspark 
为PySpark中表中的分类数据分配标签
pyspark 
Pyspark 1.6文件压缩问题
pyspark 
Pyspark GeoGrillis和GeoySpark-类型错误：'；JavaPackage'；对象不可调用
pyspark 
如何检查PySpark中是否存在临时视图？
pyspark 
org.apache.spark.SparkException:pyspark.daemon'中没有端口号；斯道特
pyspark 
Pyspark 将字符串时间转换为日期时间戳
pyspark 
Pyspark spark ML中的矢量汇编程序转换器挂起
pyspark 
Pyspark 无法序列化调用外部web服务的Databricks UDF（PicklingError）
pyspark 
将空数组转换为null pyspark
pyspark 
Pyspark 使用sparksql进行条件滞后求和
pyspark 
Pyspark spark.read.format（'libsvm'）不适用于python
pyspark 
pyspark检查点在本地计算机上失败
pyspark 
AWS glue pyspark-将源表中的一行转换为目标表中的多行
pyspark 
通过pyspark读取日期时间格式（2017-01-12t141206）
pyspark 
Pyspark Py4JJavaError:调用o840.showString时出错
pyspark 
提供元数据信息的pyspark函数（如input_file_name（））有哪些不同？
pyspark 
如何将一列添加到PySpark中的其他列？
pyspark 
Pyspark 三角洲湖合并不'；t更新模式（启用自动模式演化）
pyspark 
Pyspark-对一组不同的对使用approxSimilarityJoin
pyspark 
                                       





随机文章推荐



                                                        
Material ui 材质ui在LeftNav中禁用滑动
material-ui 
Material ui 物料界面选择字段的问题
material-ui 
Material ui 将特定类设置为材质UI组件
material-ui 
Material ui 如何创建此'；布局'；使用材质UI网格？
material-ui 
Material ui 物料界面/核心与物料界面之间的区别是什么？
material-ui 
Material ui 材料界面下载图标
material-ui 
Material ui 防止在材质ui中的行单击和对话框上传播事件
material-uireactjs


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark Spark：并行处理多个卡夫卡主题
									Apache Spark
							 									Apache Kafka
							 
Apache spark Spark联接失败Spark作业始终未能进行联接（CDH 5.5.2，Spark 1.5.0）
									Apache Spark
							 
Apache spark ApacheZeppelin：启动时自动运行代码？
									Apache Spark
							 
Apache spark 火花减速器BYKEY和窗口有错误间隔
									Apache Spark
							 
Apache spark 任务数不等于Spark中的分区数
									Apache Spark
							 
Apache spark 如何在ApacheSpark中连接两个数据帧并将键合并到一列中？
									Apache Spark
							 									Dataframe
							 									Join
							 									Pyspark
							 
Apache spark apachesparksql从Cassandra开始计算十亿行要花很长时间？
									Apache Spark
							 
Apache spark Spark重命名数据帧列
									Apache Spark
							 									Dataframe
							 
Apache spark 如何将一些文件加载到Spark节点而不复制？
									Apache Spark
							 
Apache spark 如何在Spark中更快地执行配置单元查询
在TEZ和SPARK中执行配置单元查询
我在tez中运行了10分钟的蜂巢查询
使用hivecontext.sql在spark中执行了相同的查询，耗时13-14分钟
硬件信息
									Apache Spark
							 									Pyspark
							 
Apache spark PySpark如何在构建推荐者时合并用户项功能？
									Apache Spark
							 									Pyspark
							 
Apache spark java.lang.NoClassDefFoundError:org/apache/spark/sql/types/UTF8String$在使用Dataframes读取cassandra表数据时
									Apache Spark
							 									Dataframe
							 									Types
							 									Cassandra
							 
Apache spark Spark date_格式和weekInYear/date-编号从周一开始，而不是从周日开始
									Apache Spark
							 
Apache spark Windows 10机器上的Apache Zeppelin 0.7.2和spark-2.1.1-bin-hadoop2.7
									Apache Spark
							 
Apache spark Spark重新分区不会均匀分布记录
									Apache Spark
							 
Apache spark 按列保护拼花地板文件
									Apache Spark
							 
Apache spark Spark phoenix：如何获取给定日期范围之间的数据
									Apache Spark
							 
Apache spark 如何降低数据框列名的大小写，但不降低其值的大小写？
									Apache Spark
							 
Apache spark Spark UDAF-使用自定义对象类型作为缓冲模式
									Apache Spark
							 
Apache spark Spark上的稀疏矩阵乘法
									Apache Spark
							 									Pyspark
							 
Apache spark apachespark&x2B；三角洲湖概念
									Apache Spark
							 									Apache Kafka
							 
Apache spark 将电源BI连接到Spark thrift
									Apache Spark
							 									Powerbi
							 
Apache spark 数据帧计数是否会触发spark.drive.maxResultSize限制？
									Apache Spark
							 
Apache spark Pyspark将所有嵌入结构展平到同一级别
									Apache Spark
							 									Pyspark
							 
Apache spark 如何使用spark读取配置单元管理的表数据？
									Apache Spark
							 									Hive
							 
Apache spark 在Spark SQL中按天和月比较日期
									Apache Spark
							 
Apache spark 错误：未能在Spark+；上加载类；介观星团
									Apache Spark
							 
Apache spark 如何在连接条件下用一个函数合并两个数据帧？
									Apache Spark
							 									Pyspark
							 
Apache spark spark提交引发错误：找不到注册表项log4j.appender.FILE的值
									Apache Spark
							 
Apache spark 我在哪里配置dataproc集群中spark作业的spark执行器和执行器内存？
									Apache Spark
							 									Google Cloud Platform
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Menu
Sql Server 2008
Exchange Server
D
Jira
Terminal
Magento2
Iis 7
Single Sign On
Jquery Mobile
Flutter
Windows Mobile
Liferay
Map
Sharepoint 2010
Tridion
Webstorm
Asp.net
Keyboard
Ios5
Pycharm
X86
Google Apps Script
Stripe Payments
Entity Framework
Blockchain
Http
Sed
Actions On Google
Uitableview
Parsing
Ruby On Rails 4
Security
Wix
Ms Office
Xamarin.android
Parse Platform
R
Testng
Html5 Canvas
Biztalk
Asterisk
Cloud
Ide
Printing
Virtual Machine
Xpath
Mariadb
Ibm Mobilefirst
Karate
Nativescript
Recursion
Log4net
Vector
Javascript
Sparql
Web Crawler
Android Fragments
Vbscript
Magento
Cypress
Server
Object
Compression
Android Studio
Image Processing
Virtualbox
Cloud Foundry
Xamarin.ios
Deployment
Julia
Rxjs
Microservices
File Upload
Actionscript
Sbt
Jvm
Google Calendar Api
Mongoose
Jpa
Jupyter Notebook
Isabelle
Teradata
Nginx
Localization
Db2
Notepad++
Identityserver4
Iframe
Udp
Libgdx
Asp.net Mvc 4
Azure Service Fabric
Gruntjs
Shopify
Dependencies
Xslt
EmptyTag
Outlook
Wolfram Mathematica
Mapping
Git
Oracle Apex
Coq
Blazor
Processing
Drupal
Asp.net Mvc
Google Maps Api 3
Svg
Centos
Chart.js
Vue.js
Web Services
Wso2
Teamcity
Visual Studio 2008
Memory Management
Smtp
Domain Driven Design
Cobol
Activemq
Ssh
Unix
Push Notification
Content Management System
Documentation
Windbg
Doctrine Orm
Doxygen
Unicode
Pip
Openssl
Permissions
Apache Pig
Nuget
Prolog
Vb.net
Migration
Nhibernate
Sprite Kit
Architecture
Geolocation
Keycloak
Listview
Email
Testing
Acumatica
Jquery Plugins
Java 8
Reflection
Jekyll
Open Source
Selenium Webdriver
Netty
Kdb
Video Streaming
Elm
Vaadin
Google Colaboratory
Jsf 2
Database Design
Raspberry Pi
Intellij Idea
Amazon S3
Fluent Nhibernate
Neo4j
Visual Studio
Clojure
Tags
Three.js
Transactions
Lambda
Zend Framework
Racket
Discord.py
Material Ui
Workflow
Configuration
Frameworks
Ms Access
Caching
Command Line
Windows Phone 8.1
Mqtt
Batch File
Telegram
Logic
Ssl
Sdk
String
Authentication
Antlr
Encoding
Gitlab
Winforms
Akka
Silverlight
Parallel Processing
View
Hadoop


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网