Apache spark 参与rdd并保持rdd_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 参与rdd并保持rdd

apache-spark pyspark

Apache spark 参与rdd并保持rdd,apache-spark,pyspark,Apache Spark,Pyspark,我找不到一种方法来参与rddtake似乎很有希望，但它返回一个列表，而不是rdd。我当然可以将其转换为rdd，但这似乎既浪费又丑陋 my_rdd=sc.textFile（“my_file.csv”） _my_rdd的部分=sc.parallelize（my_rdd.take（10000））有更好的方法吗？是的，确实有更好的方法。您可以使用RDDs中的方法，它说明：样本（替换、分数、种子=无）返回此RDD的采样子集数量=10000 my_rdd=sc.textFile（“my_file.

我找不到一种方法来参与

rdd

take

似乎很有希望，但它返回一个

列表，而不是rdd
。我当然可以将其转换为rdd
，但这似乎既浪费又丑陋
my_rdd=sc.textFile（“my_file.csv”）
_my_rdd的部分=sc.parallelize（my_rdd.take（10000））

有更好的方法吗？
是的，确实有更好的方法。您可以使用RDD
s中的方法，它说明：
样本（替换、分数、种子=无）
返回此RDD的采样子集
数量=10000
my_rdd=sc.textFile（“my_file.csv”）
_my_rdd的部分=my_rdd.sample（False，quantity/my_rdd.count（））
@Akavall，这是个好主意。但是格式有一些变化
my_rdd = sc.textFile("my_file.csv")
part_of_my_rdd = sc.parallelize(my_rdd.take(10000)).map(x=>x.slice(1, x.length-1))

拆下支架即可
 谢谢，一定有东西！这是一种工作，但不能保证获得10k条目，而且你仍然可以阅读整个文件。也许作者不在乎。您也可以使用mapPartitionsWithIndex获得单个分区




[pyspark]相关文章推荐



                                                        
PySpark ML feature transform，调用拟合/变换方法两次或两次以上？
pyspark 
Pyspark 在DSX上导入SparkSession数据帧
pyspark 
PySpark-将映射函数添加为列
pyspark 
Pyspark 错误：AttributeError:&x27；数据帧'；对象没有属性'_jdf&x27；
pyspark 
Pyspark 当与show方法或count一起使用时，jupyter单元格执行挂起并引发异常
pysparkjupyter-notebook 
如何对PySpark中的分组数据应用条件计数（带重置）？
pyspark 
Pyspark 基于某种条件在databricks笔记本中执行cmd单元格
pyspark 
“无法运行程序”；python"；：错误=2，通过gitlab ci/cd管道运行pyspark测试时没有此类文件或目录
pysparkcontinuous-integrationgitlab 
Pyspark 如何避免在将数据帧写入CSV文件时生成crc文件和成功文件？
pyspark 
Pyspark spark submit在添加--py文件后挂起
pyspark 
Pyspark 如何在“groupBy（）”之后选择数据帧的特定行？
pyspark 
Pyspark 将数据传输到红移时从aws glue转换时间戳
pysparkamazon-redshift 
Pyspark Spark DataFrame获得全部<；p>；每个元素的xml文档中的xml标记
pyspark 
Pyspark Sql类型：联合[int，float]
pyspark 
在PySpark中加速重复的KMeans
pyspark 
Pyspark 如何在spark sql中将日期格式从字符串（2020年6月24日）更改为日期24-06-2020？
pyspark 
Pyspark 如何使用withColumn向UDF传递额外参数
pyspark 
使用pyspark识别大量数据中的更改
pyspark 
在pyspark中使用graphframe（Pregel API'；s）实现组织中的员工层次结构和深度
pyspark 
如何计算pysparK中多个列的中值？
pyspark 
                                       





随机文章推荐



                                                        
可以读取RSS提要并将其重新发布到新URL上的软件
rss 
Rss 是否有一个文档化的谷歌阅读器API？
rss 
获取任何RSS/Atom提要的订户数？
rss 
Rss 开发新闻提要系统
rss 
Feedly使用超级进料器（Pubsubhubbub）。feedly如何允许用户订阅未使用pubsubhubbub发布的RSS提要？
rss 
Rss 即将到来的足球比赛提要
rss


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 在spark中使用配置单元上下文时出错：对象配置单元不是包org.apache.spark.sql的成员
									Apache Spark
							 
Apache spark Spark-MLlib线性回归截距和权重NaN
									Apache Spark
							 
Apache spark apachespark中的数据分区控制
									Apache Spark
							 
Apache spark 如何避免；“不是文件”；使用spark从HDFS读取时出现异常
									Apache Spark
							 
Apache spark 系统找不到spark shell中指定的路径
									Apache Spark
							 
Apache spark fieldIndex方法如何在Spark SQL行对象中工作？
									Apache Spark
							 
Apache spark 远程使用spark群集
									Apache Spark
							 
Apache spark Spark错误：无效的日志目录/app/Spark/Spark-1.6.1-bin-hadoop2.6/work/app-201610180113-0000/3/
									Apache Spark
							 									Apache Kafka
							 
Apache spark GenericData.Array在spark上运行时不可插入
									Apache Spark
							 
Apache spark 从PySpark RDD中的每个组中获取前N个元素（不使用groupByKey）
									Apache Spark
							 									Pyspark
							 
Apache spark DSE Spark和RStudio Sparkyr集成
									Apache Spark
							 
Apache spark 运行Spark作业以查询Kerberized集群中的配置单元HBase表
									Apache Spark
							 
Apache spark 迭代pySpark中目录中的文件，以自动创建数据帧和SQL表
									Apache Spark
							 									Automation
							 									Pyspark
							 
Apache spark 可以在Spark SQL中对组运行迭代算法吗？
									Apache Spark
							 
Apache spark spark parallelize中分区是如何工作的？
									Apache Spark
							 
Apache spark 使用临时目录触发事务写入操作
									Apache Spark
							 									Amazon S3
							 
Apache spark 如何将Spark scala JAR部署/运行/提交到HDInsight Azure群集？
									Apache Spark
							 
Apache spark 比较spark和alteryx的性能
									Apache Spark
							 
Apache spark 如何使用Amazon EMR群集上的Spark连接到红移数据
									Apache Spark
							 									Amazon Redshift
							 
Apache spark 如何将flink和spark一起使用，spark只是为了转换？
									Apache Spark
							 									Apache Flink
							 
Apache spark 在spark中合并seq json hdfs文件中的重复列
									Apache Spark
							 
Apache spark 将pyspark数据帧写入文本而不更改其结构
									Apache Spark
							 									Pyspark
							 
Apache spark 我希望合并spark中编写的每个分区中的所有多个文件，而无需重新分区、合并和使用maxrecordperfile
									Apache Spark
							 
Apache spark pySpark 1.6 can'；尽管py4j在pySpark 2.0中工作，但它不能通过py4j执行Java代码
									Apache Spark
							 									Pyspark
							 
Apache spark 在集群模式下返回丢失状态的火花发射器
									Apache Spark
							 									Pyspark
							 
Apache spark Spark错误-批处理分辨率达到最大迭代次数（100）
									Apache Spark
							 
Apache spark 为什么使用Hadoop？为什么我们有Spark？
									Apache Spark
							 									Hadoop
							 
Apache spark 如何使用python（PySpark）转换spark DF？
									Apache Spark
							 									Pyspark
							 
Apache spark 为什么我一应用属性就消失了；mapValues（）；去RDD？
									Apache Spark
							 									Pyspark
							 
Apache spark PySpark如果值相等，如何按值排序按键排序？
									Apache Spark
							 									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Cypress
Html
Vuejs2
Asp.net Core
Push Notification
Notifications
Install4j
Mapping
Inno Setup
Cucumber
Arrays
Windows 7
Rx Java
Camera
Eclipse
Ruby On Rails 3.1
Udp
Function
Opengl Es
Processing
Aframe
Docker
Certificate
Hazelcast
Azure Data Factory
Dojo
Batch File
Ipad
Heroku
Xamarin.forms
Google Chrome Devtools
Iis
Data Binding
Puppet
Xamarin.android
Wpf
F#
Ms Word
Reporting Services
Material Ui
Sip
Ag Grid
Geometry
Validation
Phpmyadmin
Angular Material
Internationalization
Neo4j
Titanium
Bootstrap 4
Vim
Cmake
Webview
Logic
Google Cloud Platform
Blazor
Jira
Llvm
Sharepoint 2013
Windows Mobile
Orchardcms
Unix
Dataframe
Elm
Algorithm
Memory
Haskell
Delphi
Swift2
Email
Grep
Ethereum
Swift3
Documentation
Compiler Errors
Magento2
Aws Lambda
Emacs
Discord.js
Terminal
Laravel 5
Clearcase
Mapbox
Playframework 2.0
Akka
Charts
Module
Command Line
Tinymce
Outlook
Cocoa
Nuget
Openerp
Html5 Canvas
Orm
Gwt
Ajax
Directory
Actionscript 3
Compression
Image
Memory Management
Karate
Winforms
Security
Nest
Yii
Powerbi
Web Services
Firefox
Arduino
Python 2.7
.net 4.0
Keycloak
Pentaho
Notepad++
Spring Security
Listview
Directx
Atom Editor
Checkbox
Oauth 2.0
Continuous Integration
Android Studio
Socket.io
Apache2
Lisp
Pip
Libgdx
Hybris
Class
Apache Flink
Scripting
Xcode
Inheritance
Jersey
Rspec
Twilio
Text
Z3
Phpunit
Odata
Qt
Next.js
Selenium Webdriver
Entity Framework
Random
Exchange Server
C# 4.0
Rxjs
Servlets
Oracle10g
Usb
Enums
Database
Apache Zookeeper
Memory Leaks
Odoo
Testing
Opencl
Xna
Wcf
Omnet++
Concurrency
Devexpress
Map
D3.js
Highcharts
Colors
Rdf
Yaml
Windows Runtime
Iis 7
Netlogo
Linux
R
Vue.js
Cron
Asp.net Mvc 3
Dialogflow Es
Qml
Visual Studio
Umbraco
Erlang
Apache Camel
Sql
X86
Jvm
Yocto
Symfony
Maven
Download
Amazon S3
Dom
C++11
Spring
Object
Loops
Cloud Foundry
Menu
Vector


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网