Python 火花拼花地板组内分配索引_Python_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/292.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 火花拼花地板组内分配索引_Python_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Python 火花拼花地板组内分配索引

python apache-spark pyspark

Python 火花拼花地板组内分配索引,python,apache-spark,pyspark,apache-spark-sql,Python,Apache Spark,Pyspark,Apache Spark Sql,我想知道生成列索引的最有效方法要在每组标签中唯一标识记录： +-------+-------+-------+ | label | value | index | +-------+-------+-------+ | a | v1 | 0 | +-------+-------+-------+ | a | v2 | 1 | +-------+-------+-------+ | a | v3 | 2 | +-------+--

我想知道生成列

索引的最有效方法
要在每组标签中唯一标识记录：
+-------+-------+-------+
| label | value | index |
+-------+-------+-------+
| a     | v1    | 0     |
+-------+-------+-------+
| a     | v2    | 1     |
+-------+-------+-------+
| a     | v3    | 2     |
+-------+-------+-------+
| a     | v4    | 3     |
+-------+-------+-------+
| b     | v5    | 0     |
+-------+-------+-------+
| b     | v6    | 1     |
+-------+-------+-------+

我的实际数据非常大，每组标签都有相同数量的记录。列索引将用于透视。
我可以做通常的排序+for循环增量+检查curpre，然后重置索引，等等，但是一种更快更有效的方法总是受欢迎的
编辑：从建议的问题中得到了我的答案：
from pyspark.sql import Row, functions as F
from pyspark.sql.window import Window

df = df.withColumn("index", 
                   F.row_number().over(
                       Window.partitionBy("label").orderBy("value"))
                  )

谢谢你的帮助
 在对标签
列进行分区时，可以使用窗口
函数创建基于排名的列。但是，这需要排序-在本例中，在值上
：
from pyspark.sql.window import Window
from pyspark.sql.functions import row_number

window = Window.partitionBy(df['label']).orderBy(df['value'])
df.withColumn('index', row_number().over(window))

这将给出一个新列索引
，其值从1开始（要从0开始，只需将-1
添加到上述表达式中）。值将按值列的顺序给出。
rank（）将在值s相同时出现问题，最好使用行数（）
@jxc，这是一个很好的观点。我更新了答案。




[apache spark]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
XAMPP使用IP地址，而不是127.0.0.1或本地主机
xampp 
使用XAMPP设置数据表时遇到问题
xamppdatatables 
Xampp Localhost不再正常工作
xampp 
moodle页面不是'；t在xampp中安装后正确重定向
xamppmoodle 
Xampp 什么是；平台设置：失败“；你是说作曲家？
xamppcomposer-php 
将我的站点从XAMPP上载到Apache公共主机
xamppphpmysql 
Vtiger&x2B；Xampp不在其他LAN系统上工作（在服务器/本地主机上工作）
xampp 
在mac os big sur 11.4上更新后Xampp不工作
xampp


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Windows Services
Internet Explorer 8
Express
Oop
Quickbooks
Django Rest Framework
Directx
Z3
Concurrency
Resharper
Plone
System Verilog
Post
Sql Server
Scikit Learn
Asp.net Web Api
Eclipse
Mfc
Sorting
Safari
Responsive Design
F#
Centos
Julia
Uiview
Racket
Zend Framework
Llvm
Sap
Eclipse Rcp
Liferay
Content Management System
Localization
Elm
Plugins
Twitter Bootstrap
Maps
Jhipster
Canvas
Xcode
Azure Service Fabric
Video Streaming
Jsf 2
Vector
Matplotlib
Search
Drupal 6
Jasper Reports
Filesystems
Mariadb
Osgi
Mapbox
Listview
Redux
Xna
Fluent Nhibernate
Groovy
Webview
Image
Shell
Linker
Google Maps
Php
Mongodb
Iframe
Highcharts
Hbase
Meteor
Openssl
Lua
Jsf
Joomla
Tkinter
Tinymce
Cygwin
Bazel
Influxdb
Mysql
Merge
Ruby On Rails 3
Colors
Linq To Sql
Excel Formula
Xpages
Sip
Couchbase
Bootstrap 4
Windows Installer
Entity Framework
Google Visualization
Ionic Framework
Swagger
C++11
Ecmascript 6
Printing
Leaflet
For Loop
Parameters
Automation
Menu
Umbraco
Axapta
Visual Studio 2010
Logstash
Django
Virtual Machine
Combobox
Rabbitmq
Ios5
Knockout.js
Clearcase
Microsoft Graph Api
React Native
Akka
Windows Phone
Windows Phone 8.1
Openlayers 3
Apache2
Xaml
Autocomplete
Electron
Doctrine Orm
Node.js
Powerbi
Aws Lambda
Struct
Webgl
Datetime
Tfs
Workflow
Xsd
Erlang
Powershell
Mobile
Google Chrome
Less
Migration
Github
Paypal
Cassandra
Kibana
Neo4j
Openerp
Chef Infra
Exchange Server
Pine Script
Postgresql
Intellij Idea
Ftp
Cloud Foundry
Login
Facebook
Hyperlink
Cocos2d X
Orchardcms
Flutter
Charts
Zurb Foundation
Stripe Payments
Jquery
Video
Stata
EmptyTag
Network Programming
Amazon Cloudformation
Prolog
Wix
Function
Phantomjs
Notifications
Regex
Windbg
Nsis
Stm32
Antlr4
Heroku
Ios6
Db2
Boost
Chart.js
Applescript
Xamarin
Unix
Nlp
Plsql
Azure Data Factory
Perforce
Graph
Cypress
Spring Security
Jetty
Dask
Interface
C++ Cli
Iphone
Model View Controller
Asp.net Mvc 5
Pentaho
Filter
Sql Server 2012
Gulp


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网