Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 配置单元等效于创建表时的Spark向量_Apache Spark_Hive_Apache Spark Sql_Parquet_Apache Spark Ml - Fatal编程技术网

Apache spark 配置单元等效于创建表时的Spark向量

Apache spark 配置单元等效于创建表时的Spark向量,apache-spark,hive,apache-spark-sql,parquet,apache-spark-ml,Apache Spark,Hive,Apache Spark Sql,Parquet,Apache Spark Ml,我有一个SparkDataFrame,其中一列为Vectortype。 当我在它上面创建一个配置单元表时,我不知道它等效于哪种类型 创建外部表混合( topicdist阵列 ) 作为拼花地板储存 位置“s3://path/to/file.parquet” 表的创建似乎工作正常并返回OK,但当我尝试时 从混合限制1中选择topicdist 我得到的错误是: Failed with exception java.io.IOException:java.lang.RuntimeException:

我有一个Spark
DataFrame
,其中一列为
Vector
type。 当我在它上面创建一个配置单元表时,我不知道它等效于哪种类型

创建外部表混合(
topicdist阵列
)
作为拼花地板储存
位置“s3://path/to/file.parquet”
表的创建似乎工作正常并返回OK,但当我尝试时

从混合限制1中选择topicdist
我得到的错误是:

Failed with exception java.io.IOException:java.lang.RuntimeException: Unknown hive type info array<double> when searching for field type
搜索字段类型时失败,出现异常java.io.IOException:java.lang.RuntimeException:Unknown配置单元类型信息数组

Vector
是Spark用户定义的类型,它在内部存储为

StructType(Seq(
StructField(“type”,ShortType,true),
StructField(“大小”,整数类型,true),
StructField(“索引”、ArrayType(IntegerType,true)、true),
StructField(“值”、ArrayType(DoubleType,true)、true)
))
因此,您需要:

创建外部表混合(
主题区结构
)
作为拼花地板储存
位置“s3://path/to/file.parquet”

请记住,生成的列不会被解释为Spark
Vector

您收到了什么错误消息?我怀疑您在
topicdist数组之后有额外昏迷
抱歉,这只是MCVE的问题,已修复该问题。查询时。编辑澄清。蜂巢版本?。。。