Python 3.x 如何在PySpark dataframe中找到该列中存在的所有唯一值的列分布？_Python 3.x_Pyspark_Apache Spark Sql_Pyspark Dataframes - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 如何在PySpark dataframe中找到该列中存在的所有唯一值的列分布？_Python 3.x_Pyspark_Apache Spark Sql_Pyspark Dataframes - Fatal编程技术网

Python 3.x 如何在PySpark dataframe中找到该列中存在的所有唯一值的列分布？

python-3.x pyspark

Python 3.x 如何在PySpark dataframe中找到该列中存在的所有唯一值的列分布？,python-3.x,pyspark,apache-spark-sql,pyspark-dataframes,Python 3.x,Pyspark,Apache Spark Sql,Pyspark Dataframes,我有一个Pypark数据框- df = spark.createDataFrame([ ("u1", 0), ("u2", 0), ("u3", 1), ("u4", 2), ("u5", 3), ("u6", 2),], ['user_id', 'medals']) df.show() 输出- +-------+--

我有一个Pypark数据框-

df = spark.createDataFrame([
    ("u1", 0),
    ("u2", 0),
    ("u3", 1),
    ("u4", 2),
    ("u5", 3),
    ("u6", 2),],
    ['user_id', 'medals'])

df.show()

输出-

+-------+------+
|user_id|medals|
+-------+------+
|     u1|     0|
|     u2|     0|
|     u3|     1|
|     u4|     2|
|     u5|     3|
|     u6|     2|
+-------+------+

我想获得所有用户的奖牌列的分布情况。因此，如果在奖牌列中有n个唯一的值，我希望在输出数据框中有n个列，其中有相应数量的用户获得了那么多奖牌
上面给出的数据的输出应该如下所示-

+------- +--------+--------+--------+ |medals_0|medals_1|medals_2|medals_3| +--------+--------+--------+--------+ | 2| 1| 2| 1| +--------+--------+--------+--------+
如何实现这一点？
这是一个简单的问题：

df.groupBy（）.pivot（“奖牌”）.count（）.show（） +---+---+---+---+ | 0| 1| 2| 3| +---+---+---+---+ | 2| 1| 2| 1| +---+---+---+---+

如果您需要一些化妆品在列名中添加单词奖牌，则可以执行以下操作：

aclements\u df=df.groupBy（）.pivot（“aclements”）.count（）对于列中的col\u df.列：奖牌u df=奖牌u df.with column重命名（col，“奖牌”{}.format（col））奖牌展示（ +--------+--------+--------+--------+ |奖牌0 |奖牌1 |奖牌2 |奖牌3| +--------+--------+--------+--------+ | 2| 1| 2| 1| +--------+--------+--------+--------+

[pyspark]相关文章推荐

如何在Windows中使用pyspark启动Spark Shell？ pyspark

Pyspark 使用Spark计算文本或列表中的元素数 pyspark

使用pyspark连接数据帧 pyspark

PySpark至PMML-“；“字段标签不存在”；错误 pyspark

PySpark：如何将行转换为向量？ pyspark

PySpark PCA：避免不收敛异常 pyspark

如何在PySpark中将数据框中所有列的字符串值替换为NULL？ pyspark

Pyspark java.lang.NoClassDefFoundError:com/aliyun/oss/ServiceException pyspark open-source

Pyspark错误：py4j.java_网关：尝试连接到java服务器时出错（127.0.0.1:50532） pyspark

Pyspark 将密集列向量转换为行 pyspark

Pyspark 在强制转换后，如何从spark数据帧中筛选坏行或损坏行 pyspark

Pyspark Databricks MQTT数据流抽象方法错误 pyspark mqtt

Pyspark 如何在Spark Dataframe中将包含纳秒的字符串转换为datetime pyspark

快速删除空列的方法[PySpark] pyspark

pyspark如何在键上连接，但也包括其他列？ pyspark

使用pyspark将unix_时间戳转换为utc_时间戳，unix_时间戳不起作用 pyspark

Pyspark-对于每个ID，我希望过滤在两个ID的匹配数据之后出现的数据 pyspark

可以在pyspark中同时使用isin（）和通配符搜索吗？ pyspark

矢量汇编的PySpark变换方法 pyspark

以特定方式取消Pivot PySpark数据帧 pyspark

随机文章推荐

Sql server 2008 r2 没有LTRIM、RTRIM和上/下功能的记录不匹配 sql-server-2008-r2

Sql server 2008 r2 在Excel 2010 Powerpivot加载项中键入SQL Server 2008 R2中每个已连接表的密码 sql-server-2008-r2

Sql server 2008 r2 用户能否在sql server中跟踪具有只读权限的更新 sql-server-2008-r2

Sql server 2008 r2 SQL Server 2008 R2上缺少索引统计信息 sql-server-2008-r2

Sql server 2008 r2 使用批处理文件自动备份sql server sql-server-2008-r2

Sql server 2008 r2 游标未更新我的列 sql-server-2008-r2

Sql server 2008 r2 使用Sql Server 2008 R2中的Where子句加快行计数 sql-server-2008-r2

Sql server 2008 r2 使用SQL Server 2008 R2查询OpenEdge10.2的进度 sql-server-2008-r2

Sql server 2008 r2 事务复制消息14013，级别16，状态1，程序sp_MSrepl_addlogreader_agent，第38行 sql-server-2008-r2

Sql server 2008 r2 SQL Server 2008 R2中透视表中的分组依据 sql-server-2008-r2 sql-server-2012

Sql server 2008 r2 SQLSERVER 2008 R2复制错误 sql-server-2008-r2

Sql server 2008 r2 如何使用.bak文件将数据从MS SQL 2012恢复到MS SQL 2008。这可能吗？ sql-server-2008-r2 sql-server-2012

Sql server 2008 r2 从SQL Server 2000迁移到SQL Server 2008 R2 sql-server-2008-r2

Sql server 2008 r2 无法筛选多行的And和Or sql-server-2008-r2

[python 3.x]相关推荐

Tags

Cocos2d X Fullcalendar Sms Aem Hybris Ant Orm Knockout.js Automated Tests Version Control Instagram Android Ndk Dll Sas Function Sbt For Loop Apache Pig Linkedin Utf 8 Ide Moodle Angular Material Arrays Git Iis Webgl Jquery Google Maps Api 3 Primefaces Oop Windows Phone Grafana Selenium Ansible Stm32 C# Flask Windows 7 Syntax Node.js Mvvm Lua Maven Itext Asp.net Mvc 3 Boost Nestjs Jhipster Solr Sqlalchemy Push Notification Groovy Phpunit Dotnetnuke Plsql Asp.net Web Api Certificate Xmpp Gnuplot Pip Jquery Plugins Shopify Io Protocol Buffers Excel Pine Script Blockchain Sql File Download Gstreamer Intellij Idea View Visual Studio 2008 Parallel Processing Silverstripe Netty Select Makefile Docker Compose Plone Discord.js Clearcase Webstorm Sml Sharepoint 2010 Sitecore Install4j Ibm Mobilefirst Keycloak Reactjs Yocto Cocoa Touch Editor Visual Studio 2017 Vb6 Openstack F# Open Source Algorithm Doctrine Exception Handling Mips Compiler Errors Collections Apache Flink Programming Languages Netsuite Wicket Cmake Airflow Appium Unicode Ibm Mq Google Chrome Devtools Asp.net Core Mvc Frameworks Wxpython Flash Dynamics Crm 2011 Permissions System Verilog Pytorch Encryption Twitter Bootstrap 3 Ajax Dialogflow Es Imagemagick Amazon Web Services Julia Abap Sip Web Scraping Windows Mobile Types Amazon Cloudformation Continuous Integration Cocoa Numpy Bootstrap 4 Visual Studio Monitoring Properties Assembly Concurrency Fortran Ssl Ssrs 2008 Hyperlink Azure Data Factory Jupyter Notebook Pointers Magento Ssas Hazelcast Scroll Interface Snmp Routing Javafx Sharepoint 2013 Jasper Reports Twitter Bootstrap Akka Content Management System Amazon Dynamodb Proxy Graph Authentication Checkbox Oauth Sublimetext3 Shell Chef Infra Combobox Tfs Android Emulator Processing R Zsh Rspec Redis Gremlin Libgdx Chart.js Csv Php Gdb Linq To Sql Docker Ipad Pandas Gps Sequelize.js Architecture Here Api Jsf Parse Platform Audio Iphone

Copyright © 2024. All Rights Reserved by - Fatal编程技术网