Apache spark Spark:通过多个值分割拼花地板';柱

Apache spark Spark:通过多个值分割拼花地板';柱,apache-spark,optimization,parquet,partition,Apache Spark,Optimization,Parquet,Partition,在Spark应用程序中,使用拼花来存储用户列表。每个用户都有一个电话号码 我需要通过电话高效搜索,最好是通过电话分区。文件上说一把钥匙的价值应该超过10000英镑,在我的情况下可能是数百万英镑 是否有任何方法/或任何技巧/或某些最先进的技术来划分电话号码?例如,对电话号码进行哈希运算或仅按第一个号码进行分区 Thx如果您按第一个数字划分手机号码,则数据将倾斜。因为大多数手机都不是以同一个数字或公共数字开始的 例如,在印度,手机号码通常以9、8和7开头,而60%的手机号码以9开头,大约30-35%

在Spark应用程序中,使用拼花来存储用户列表。每个用户都有一个电话号码

我需要通过电话高效搜索,最好是通过电话分区。文件上说一把钥匙的价值应该超过10000英镑,在我的情况下可能是数百万英镑

是否有任何方法/或任何技巧/或某些最先进的技术来划分电话号码?例如,对电话号码进行哈希运算或仅按第一个号码进行分区


Thx

如果您按第一个数字划分手机号码,则数据将倾斜。因为大多数手机都不是以同一个数字或公共数字开始的

例如,在印度,手机号码通常以
9、8和7开头,而
60%的手机号码以9开头,大约30-35%的手机号码以8开头

基于mobile no的最后一位数字的分区将为您提供10个分区(
0-9
),而不存在数据偏斜