Apache spark 对行中的唯一值进行计数_Apache Spark_Pyspark_Apache Spark Sql_Row_Unique - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 对行中的唯一值进行计数_Apache Spark_Pyspark_Apache Spark Sql_Row_Unique - Fatal编程技术网

Apache spark 对行中的唯一值进行计数

apache-spark pyspark

Apache spark 对行中的唯一值进行计数,apache-spark,pyspark,apache-spark-sql,row,unique,Apache Spark,Pyspark,Apache Spark Sql,Row,Unique,测试数据： df = spark.createDataFrame([(1, 1), (2, 3), (3, 3)], ['c1', 'c2']) df.show() #+---+---+ #| c1| c2| #+---+---+ #| 1| 1| #| 2| 3| #| 3| 3| #+---+---+ 我打算在每个行中对不同的值进行计数，创建一个包含计数的单独列。怎么做预期结果： #+---+---+---+ #| c1| c2| c3| #+---+---+---+ #|

测试数据：

df = spark.createDataFrame([(1, 1), (2, 3), (3, 3)], ['c1', 'c2'])
df.show()
#+---+---+
#| c1| c2|
#+---+---+
#|  1|  1|
#|  2|  3|
#|  3|  3|
#+---+---+

我打算在每个行中对不同的值进行计数，创建一个包含计数的单独列。怎么做
预期结果：

#+---+---+---+ #| c1| c2| c3| #+---+---+---+ #| 1| 1| 1| #| 2| 3| 2| #| 3| 3| 1| #+---+---+---+

检查
数组的大小\u distinct
：

import pyspark.sql.functions as F df.withColumn('c3', F.size(F.array_distinct(F.array(*df.columns)))).show() +---+---+---+ | c1| c2| c3| +---+---+---+ | 1| 1| 1| | 2| 3| 2| | 3| 3| 1| +---+---+---+

[pyspark]相关文章推荐

Pyspark数据帧运算符“；不在“中”； pyspark

Pyspark 列表的最小值 pyspark

如何改进pyspark中的.collect（）？ pyspark

如何对pyspark中每个组内的变量进行排序？ pyspark

Pyspark 在某些匹配条件下如何左反连接 pyspark

Pyspark Spark 2.2.0在将表格加载到DF时无法连接到Phoenix 4.11.0版本 pyspark hbase

在pyspark中将时间戳转换为特定日期 pyspark

Pyspark：获取时间窗口之间的行数 pyspark

如何使用pyspark递归地获取存储在dbfs文件夹中的Excel文件？ pyspark

Pyspark 用高低不平的柱子连接 pyspark

pyspark数据帧的数据类型中的不同计数 pyspark

Pyspark文件系统fs.listStatus（sc._jvm.org.apache.hadoop.fs.Path（Path））只返回第一个子目录 pyspark

使用Pyspark在数据帧的不同列上提取多个平均值和移动平均值 pyspark

如何使用Pyspark将flatmap与Dataframe中的多列一起使用 pyspark

Pyspark 实例化'时出错；org.apache.spark.sql.hive.HiveExternalCatalog'； pyspark hive

使用PySpark中的pandas\u udf平均分配组任务 pyspark

从同一pyspark数据帧的键数组中获取值数组 pyspark

在pyspark中如何从出生日期计算年龄？ pyspark

Pyspark 在Spark数据帧中执行MapReduce pyspark mapreduce

在PySpark中插值lat/lon列以获得轨迹中的等间距点 pyspark

随机文章推荐

Azure cosmosdb DocumentDb Id字段 azure-cosmosdb

Azure cosmosdb 我们可以像查询Cosmos DB集合一样查询Azure Cosmos DB更改提要吗？ azure-cosmosdb

Azure cosmosdb Cosmos DB，C SQL Api-不区分大小写的WHERE子句 azure-cosmosdb

Azure cosmosdb 如何使用CLI创建分区Azure MongoDB集合？ azure-cosmosdb

Azure cosmosdb 使用Cosmos Db Mongo API的TTL文件 azure-cosmosdb

Azure cosmosdb DocumentDB-嵌入vs参考vs中间路线 azure-cosmosdb

Azure cosmosdb CosmosDB C sql未返回结果 azure-cosmosdb

Azure cosmosdb 使用宇航员库按id获取cosmosdb文档不起作用 azure-cosmosdb

Azure cosmosdb 即使我们选择MongoDB API、Cassandra、Tables或Gremlin（GraphAPI），数据是否总是以JSON格式存储？ azure-cosmosdb

Azure cosmosdb 替换CosmosDB中的HAVE子句 azure-cosmosdb

Azure cosmosdb Azure Cosmos DB JavaScript SDK 1.x版-已弃用或无法使用？ azure-cosmosdb

[apache spark]相关推荐

Tags

Canvas Scala Reactjs Elixir Button Markdown Ffmpeg Javascript Google Sheets Excel Formula Swiftui Redux Deep Learning .net 4.0 Web Scraping Vhdl Debian Azure Devops Angular Google Maps Api 3 Gatsby Outlook Data Structures Filesystems Continuous Integration Seo Yii Ember.js Multithreading Cookies Postman Video Doctrine Laravel 4 Html Highcharts Version Control Parse Platform Tomcat Plone Postgresql Sprite Kit Geolocation Rspec Udp Post Serial Port Oauth 2.0 Wso2 Resharper Magento2 Windows Phone Couchbase String Macos Silverstripe C Servlets Google Calendar Api Entity Framework Core Ibm Cloud Ssrs 2008 Documentation Tabs Matrix EmptyTag Replace Hazelcast Pip Streaming Ruby On Rails 3.2 Encoding Layout Backbone.js Swagger Checkbox Mono Yii2 Xamarin.forms Erlang Statistics Phpmyadmin Project Management Pdf Graph Nest Url Rewriting Mips Opencl Doxygen Corda Antlr4 Robotframework Awk Typescript Google App Maker Jms Plot Unix Ant Scroll Rx Java Anaconda Stream Import Indexing Menu Google Cloud Firestore Pagination Ip Graphics Perforce Bots Model View Controller Nuget Jpa Windows Store Apps Jwt Orchardcms Ibm Midrange Triggers Jhipster Zend Framework2 Puppet .htaccess Raspberry Pi Domain Driven Design Stm32 Fortran Cocoa Gstreamer Jekyll Ipython Powerbi Latex Spring Navigation Web Applications Oracle Cuda Linq Html5 Canvas Azure Service Fabric Sharepoint Boost Bison Internationalization System Verilog Flash Knockout.js File Magento Compilation Jquery Ui Polymer Webgl Text Cloud Foundry Logstash Fullcalendar Xslt Air Mediawiki Azure Ad B2c Testng Flutter Selenium Asp Classic Ide Uitableview Pycharm Xpages Primefaces Scripting Spring Cloud Css Programming Languages Graphviz Glsl Certificate Google Visualization Wicket Llvm Drupal Asynchronous Properties Glassfish Omnet++ Configuration Performance Ssl F# Gdb Ignite Sql Server Discord.js Compiler Construction Object Breeze Amp Html Vector

Copyright © 2024. All Rights Reserved by - Fatal编程技术网