Apache spark spark上的列式处理？_Apache Spark_Pyspark_Spark Dataframe

Apache spark spark上的列式处理？

apache-spark pyspark

Apache spark spark上的列式处理？,apache-spark,pyspark,spark-dataframe,Apache Spark,Pyspark,Spark Dataframe,在spark中是否有有效的方法来处理数据列方式（相对于行方式）我想对每个专栏做一些完整的数据库分析。我希望遍历数据库中的每一列，并使用显著性测试将其与另一列进行比较 colA = "select id, colA from table1" foreach table, t: foreach id,colB in t: # "select id, colB from table2" # align colA,colB by ID ab = join(colA,colB

在spark中是否有有效的方法来处理数据列方式（相对于行方式）

我想对每个专栏做一些完整的数据库分析。我希望遍历数据库中的每一列，并使用显著性测试将其与另一列进行比较

colA = "select id, colA from table1"

foreach table, t:
   foreach id,colB in t: # "select id, colB from table2"
     # align colA,colB by ID
     ab = join(colA,colB)
     yield comparefunc(ab)

我有约1M行，但有约10k列。

发出~10k selects非常慢，但我不应该执行select*并将每个列广播到不同的节点进行处理。

您是否考虑过转置（请参见）RDD，然后处理行？K，V表示法的最大缺点是值的类型有别名（因为spark列只有一种类型）。可以将所有内容转换为双精度（例如，用标签ID替换字符串）。我一直在想，将数据转换成拼花地板文件（每列一个）可能会有所帮助。虽然py spark的实现似乎非常失败：