Apache spark spark上的列式处理?

Apache spark spark上的列式处理?,apache-spark,pyspark,spark-dataframe,Apache Spark,Pyspark,Spark Dataframe,在spark中是否有有效的方法来处理数据列方式(相对于行方式) 我想对每个专栏做一些完整的数据库分析。我希望遍历数据库中的每一列,并使用显著性测试将其与另一列进行比较 colA = "select id, colA from table1" foreach table, t: foreach id,colB in t: # "select id, colB from table2" # align colA,colB by ID ab = join(colA,colB

在spark中是否有有效的方法来处理数据列方式(相对于行方式)

我想对每个专栏做一些完整的数据库分析。我希望遍历数据库中的每一列,并使用显著性测试将其与另一列进行比较

colA = "select id, colA from table1"

foreach table, t:
   foreach id,colB in t: # "select id, colB from table2"
     # align colA,colB by ID
     ab = join(colA,colB)
     yield comparefunc(ab)
我有约1M行,但有约10k列。
发出~10k selects非常慢,但我不应该执行select*并将每个列广播到不同的节点进行处理。

您是否考虑过转置(请参见)RDD,然后处理行?K,V表示法的最大缺点是值的类型有别名(因为spark列只有一种类型)。可以将所有内容转换为双精度(例如,用标签ID替换字符串)。我一直在想,将数据转换成拼花地板文件(每列一个)可能会有所帮助。虽然py spark的实现似乎非常失败: