Sql pyspark中的分组索引
我想在pyspark中为数据中的每个组生成唯一的(数字)标签。与R中的组_指数类似: 所以我看了看窗户上方浓密的树丛。但我希望这些组按升序进行标记。我可以为此执行Sql pyspark中的分组索引,sql,r,pandas,dataframe,pyspark,Sql,R,Pandas,Dataframe,Pyspark,我想在pyspark中为数据中的每个组生成唯一的(数字)标签。与R中的组_指数类似: 所以我看了看窗户上方浓密的树丛。但我希望这些组按升序进行标记。我可以为此执行window.orerBy('column').partitionBy('column')? 注意:按同一列划分和排序可能我的问题不清楚,我严格要求按升序标记组。像“abc”-->1、“bcd”-->2、“efg”-->3..我认为,简单地按订单就足够了。是的,这很有效。我认为分区也是必需的。。谢谢
window.orerBy('column').partitionBy('column')
?
注意:按同一列划分和排序可能我的问题不清楚,我严格要求按升序标记组。像“abc”-->1、“bcd”-->2、“efg”-->3..我认为,简单地按订单就足够了。是的,这很有效。我认为分区也是必需的。。谢谢