Pandas 多个numpy阵列(索引、数据)激发数据帧的最快方式

Pandas 多个numpy阵列(索引、数据)激发数据帧的最快方式,pandas,numpy,dataframe,apache-spark,pyspark,Pandas,Numpy,Dataframe,Apache Spark,Pyspark,我想直接从多个数据和时间戳索引Numpy数组创建Spark数据框(时间序列数据) 我有一个主数组,它包含所有数据数组的所有唯一索引。 在Spark数据帧中,示例数据类型为double、long、int或string 每个数据数组都应该是Spark Dataframe中的一个新列 示例数据: idx1: [2.00e-01, 3.00e-01, 4.00e-01, ... 5.00e+03, 6.00e+03] data1: [ 0, 10, 15, ... 65535, 65535, 6

我想直接从多个数据和时间戳索引Numpy数组创建Spark数据框(时间序列数据)

我有一个主数组,它包含所有数据数组的所有唯一索引。 在Spark数据帧中,示例数据类型为double、long、int或string

每个数据数组都应该是Spark Dataframe中的一个新列

示例数据:

idx1:  [2.00e-01, 3.00e-01, 4.00e-01, ... 5.00e+03, 6.00e+03]
data1: [ 0,  10,   15, ... 65535, 65535, 65535]
...
idx2: [8.70e-01, 5.70e+02, ... 9.90e+02, 1.07+03 1.12e+03]
data2: [19282, 19282, 19282, ... 19284, 19285, 19286]

masterIndex: [2.00e-01, 3.00e-01, 4.00e-01, 8.70e-01, 5.70e+02, ...]
目标火花数据帧(自动填充):

在我目前的方法中,我执行以下步骤:

  • 使用主索引作为索引创建空熊猫数据框
  • Numpy数组索引和样本作为熊猫系列
  • 将熊猫系列合并为熊猫数据框上的列->
    df[name]=pdSeries
  • 将Panda Dataframe转换为Spark Dataframe,并启用Pyarrow和数据类型模式
  • 如何将多个numpy数据数组作为列(使用索引数组)添加/合并到Spark数据帧中? 我想直接将数据写入Spark数据框

    目标是在创建Spark数据帧时获得最佳性能

    谢谢你的意见

    | masterIdx| data1 |data(N)| ... |
    |     0.2  |   0   |  NaN  | ... |
    | ...      |    .. |  ..   | ... |
    |     0.87 |  NaN  | 19282 | ... |