List 如何按字段重新划分pySpark RDD，而不将其转换为数据帧？_List_Apache Spark_Dictionary_Rdd - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/list/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
List 如何按字段重新划分pySpark RDD，而不将其转换为数据帧？_List_Apache Spark_Dictionary_Rdd - Fatal编程技术网

List 如何按字段重新划分pySpark RDD，而不将其转换为数据帧？

list apache-spark dictionary

List 如何按字段重新划分pySpark RDD，而不将其转换为数据帧？,list,apache-spark,dictionary,rdd,List,Apache Spark,Dictionary,Rdd,是否可以按特定字段重新划分rdd，而不将其转换为数据帧我想按第四个字段重新分区最好在将列表转换为rdd之后 people = [ ('john', 35, 54, 'A'), ('george', 94, 84, 'B'), ('nicolas', 7, 9, 'B'), ('tom', 86, 93, 'A'), ('jason', 62, 73, 'B'), ('bil

是否可以按特定字段重新划分rdd，而不将其转换为数据帧

我想按第四个字段重新分区
最好在将列表转换为rdd之后

people = [ ('john', 35, 54, 'A'), ('george', 94, 84, 'B'), ('nicolas', 7, 9, 'B'), ('tom', 86, 93, 'A'), ('jason', 62, 73, 'B'), ('bill', 15, 58, 'A'), ('william', 9, 3, 'A'), ('brad', 73, 37, 'B'), ('cosmo', 52, 67, 'B'), ('jerry', 73, 30, 'A') ] rdd = spark.sparkContext.parallelize(people)
或者，在执行dict压缩之后

people = [('john', 35, 54, 'A'), ('george', 94, 84, 'B'), ('nicolas', 7, 9, 'B'), ('tom', 86, 93, 'A'), ('jason', 62, 73, 'B'), ('bill', 15, 58, 'A'), ('william', 9, 3, 'A'), ('brad', 73, 37, 'B'), ('cosmo', 52, 67, 'B'), ('jerry', 73, 30, 'A')] fields = ('name', 'x', 'y', 'class') data = [dict(zip(fields, person)) for person in people] rdd = spark.sparkContext.parallelize(data) >>> data [{'name': 'john', 'x': 35, 'y': 54, 'class': 'A'}, {'name': 'george', 'x': 94, 'y': 84, 'class': 'B'}, {'name': 'nicolas', 'x': 7, 'y': 9, 'class': 'B'}, {'name': 'tom', 'x': 86, 'y': 93, 'class': 'A'}, {'name': 'jason', 'x': 62, 'y': 73, 'class': 'B'}, {'name': 'bill', 'x': 15, 'y': 58, 'class': 'A'}, {'name': 'william', 'x': 9, 'y': 3, 'class': 'A'}, {'name': 'brad', 'x': 73, 'y': 37, 'class': 'B'}, {'name': 'cosmo', 'x': 52, 'y': 67, 'class': 'B'}, {'name': 'jerry', 'x': 73, 'y': 30, 'class': 'A'}]
这样做的原因是，在重新分区之后，我将在此数据集上执行嵌套循环，这在列表上执行比在数据帧上执行更容易、更快
如果这是不可能的，我还能做什么？我可以将列表转换为数据帧、重新分区，然后再次将数据帧转换为列表吗

[apache spark]相关文章推荐

Apache spark 使用Spark连接到MS SQL Server apache-spark

Apache spark Apache Zeppelin使用哪种协议连接到Apache Spark？（iPython/ZeroMQ）？ apache-spark ipython

Apache spark Bluemix Spark中的HiveContext apache-spark ibm-cloud

Apache spark Spark数据帧分组、排序和为一组列选择顶行 apache-spark dataframe

Apache spark SparkContext.addFile vs spark submit--文件 apache-spark

Apache spark 将Spark数据帧保存为CSV会导致InvalidClassException apache-spark

Apache spark 如何从Spark ML库中的TF Vector RDD获取单词详细信息？ apache-spark

Apache spark PySpark3无属性'；tzinfo&x27；将yyyyMMddhhmmss解析为TimestampType（）时出错 apache-spark pyspark

Apache spark java中如何通过应用ID获取Spark应用句柄 apache-spark

Apache spark Spark：斯坦福nlp在Spark中运行太慢 apache-spark pyspark

Apache spark 在PySpark中groupBy之后保留数据帧的原始结构 apache-spark dataframe pyspark

Apache spark 如何在Spark中重用广播变量？ apache-spark

Apache spark 我们可以通过忽略spark中的值类型来联合2个RDD吗 apache-spark

Apache spark 在数据帧上接收CSV。使用pyspark apache-spark pyspark

Apache spark 将数据从hdfs发送到特定机器 apache-spark hadoop

Apache spark 在使用Google CloudDataproc时，是否仍有必要微调spark配置参数？ apache-spark

Apache spark PySpark比较空映射文字 apache-spark pyspark

Apache spark 如何用Dataset表示Java Spark中的平面图 apache-spark graph

Apache spark Pyspark-在启用HiveSupport（）时创建增量表 apache-spark pyspark hive

Apache spark 如何从工作人员访问SparkSession？ apache-spark pyspark

随机文章推荐

Ethereum 如何检测元掩码登录 ethereum

Ethereum 地址（0）的实体是什么 ethereum

Ethereum 将用户地址与数组中定义的地址匹配的方式 ethereum

Ethereum 以太坊Geth-未决事务 ethereum

Ethereum Azure区块链工作台应用程序在配置中使用结构 ethereum

Ethereum 如何修复'；写入tcp 127.0.0.1:54917->；127.0.0.1:8545:i/o超时'；侦听智能合约事件的golang代码中出错 ethereum

Ethereum 建立私有以太坊测试网 ethereum

Ethereum 如何将合同从BSCScan部署到Binance智能链上？ ethereum

Ethereum 如何使用元掩码进行签名和验证 ethereum

Ethereum 使用ganache cli和web3.js向复合协议提供测试资产时出错 ethereum

[list]相关推荐

Tags

Linkedin Project Management Google Compute Engine Ruby On Rails 4 Clang Electron Dynamics Crm Chart.js Prometheus Jupyter Notebook Firefox Stripe Payments Jasmine Windows Installer Openshift Compilation Youtube Api Iis 7 Jakarta Ee Chef Infra Opencv Servlets Protractor Odoo Drop Down Menu Meteor Amazon Redshift Heroku Xslt Testing Formatting Memory Management Generics Asp.net Core Netsuite Bots Internet Explorer 8 Redis Node.js Amazon Dynamodb Moodle Https Jdbc Vue.js Ibm Mq Embedded Networking Activemq Highcharts Sql Nosql Canvas Atom Editor Ember.js Azure Data Factory Single Sign On Discord.py Uwp Binding Webgl Url Karate Time Hadoop Events Image Twitter Log4j Model Rabbitmq Build Cygwin Parsing Vba Tsql Openerp Rally Gnuplot Pycharm Vb.net Xampp Routing Outlook Isabelle Phpmyadmin Sencha Touch 2 Google Plus Sass Cocoa Touch Botframework Plot Hibernate Listview Layout Drools Mfc Ruby On Rails 3.1 Google Sheets Mapbox Web Scraping Encoding Visual Studio Jestjs Visual C++ Stanford Nlp Antlr4 Cocos2d X Svg Asp.net Mvc 2 Resharper Socket.io Machine Learning Dictionary Visual Studio 2010 Install4j Import Npm Sms Silverstripe Frameworks Iphone Ruby On Rails 3 Triggers Html Azure Service Fabric Zend Framework2 Database Entity Framework Core Compression Xamarin.android Sdk Mercurial Jhipster Debian Air Encryption Google Visualization Sed Monitoring Webview Raspberry Pi Log4net Wxpython Wcf Pascal Haskell Graphviz Jersey Map Camera Fullcalendar Oauth .net 4.0 Qml Variables Sharepoint 2013 C# Coldfusion Scroll Google Chrome Extension Ckeditor Shiny Microservices Cypress Arrays Printing View Rest Entity Framework Windows Store Apps Exchange Server Performance Umbraco Google Maps Compiler Errors Oauth 2.0 Computer Vision Mapping Cloud Foundry Hyperledger Fabric Cakephp Stm32 Joomla Jsf 2 Python 3.x Templates Gridview Oracle11g Asp.net Mvc Swift Jekyll Seo Safari Version Control Matlab Omnet++ Tensorflow Ios6 Random Dotnetnuke Linq

Copyright © 2024. All Rights Reserved by - Fatal编程技术网