Apache spark 将交互项包括到管道中

Apache spark 将交互项包括到管道中,apache-spark,machine-learning,pyspark,apache-spark-sql,pyspark-dataframes,Apache Spark,Machine Learning,Pyspark,Apache Spark Sql,Pyspark Dataframes,我试图在pyspark下构建一个带有管道的模型,对于一些分类变量,我希望将交互包含到管道中,但无法找到正确的代码 以下是我目前的管道: stages=[] 对于类别变量中的分类列: #使用StringIndexer进行类别索引 stringIndexer=stringIndexer(输入列=分类列,输出列=分类列+“索引”,stringOrderType='FrequencySac') #使用OneHotEncoder将分类变量转换为二进制sparsevector encoder=OneHotE

我试图在pyspark下构建一个带有管道的模型,对于一些分类变量,我希望将交互包含到管道中,但无法找到正确的代码

以下是我目前的管道:

stages=[]
对于类别变量中的分类列:
#使用StringIndexer进行类别索引
stringIndexer=stringIndexer(输入列=分类列,输出列=分类列+“索引”,stringOrderType='FrequencySac')
#使用OneHotEncoder将分类变量转换为二进制sparsevector
encoder=OneHotEncoder(inputCols=[stringIndexer.getOutputCol()],outputCols=[CategorialCol+“classVec”])
#添加阶段。这些不是在这里运行的,但稍后将同时运行。
阶段+=[stringIndexer,编码器]
类别变量=['a','b']
int_var=['c','d']
num_var=[“e”、“f”、“g”、“h”]
assemblerInputs=[c+“classVec”表示cat_变量中的c]
assembler=VectorAssembler(inputCols=assemblerInputs,outputCol=“features”)
阶段+=[汇编程序]
我在文档中找到了交互术语代码

assemblerInputs\u int=[c+“classVec”表示int变量中的c]
交互=交互(inputCols=assemblerInputs\u int,outputCol=“InteractivedCol”)
但我真的不知道如何将这两个部分缝合在一起,以便最终的features列包含当前变量、cat_var和num_var以及交互项

非常感谢