Java 如何使用Spark数据帧计算Cassandra表的汇总统计?
我正在尝试获取一些Cassandra/SPARK数据的最小、最大平均值,但我需要用JAVA来实现Java 如何使用Spark数据帧计算Cassandra表的汇总统计?,java,scala,apache-spark,cassandra,statistics,Java,Scala,Apache Spark,Cassandra,Statistics,我正在尝试获取一些Cassandra/SPARK数据的最小、最大平均值,但我需要用JAVA来实现 import org.apache.spark.sql.DataFrame; import static org.apache.spark.sql.functions.*; DataFrame df = sqlContext.read() .format("org.apache.spark.sql.cassandra") .option("table", "som
import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;
DataFrame df = sqlContext.read()
.format("org.apache.spark.sql.cassandra")
.option("table", "someTable")
.option("keyspace", "someKeyspace")
.load();
df.groupBy(col("keyColumn"))
.agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
.show();
编辑以显示工作版本:
确保把someTable和someKeyspace放在周围我建议退房
它包含Scala和等效Java的演示
您还可以查看:
其中有大量的示例,您可以在Scala、Java和Python版本之间切换
我几乎100%确信,在这些链接之间,你会找到你想要的东西
如果在此之后您遇到了任何问题,请随时用更具体的错误/问题更新您的问题 一般来说
编译scala文件:
$scalac Main.scala
从Main.class文件创建java源文件:
$javap Main
更多信息可从以下url获得:
只需将数据作为数据帧导入,并应用所需的聚合:
import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;
DataFrame df = sqlContext.read()
.format("org.apache.spark.sql.cassandra")
.option("table", someTable)
.option("keyspace", someKeyspace)
.load();
df.groupBy(col("keyColumn"))
.agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
.show();
其中,someTable和someKeyspace分别存储表名和键空间 这看起来很像是试图让其他人为您编写代码。该代码包含多个部分。您知道如何在Java中执行哪些操作,哪些操作被卡住了?我尝试了这个方法,但我得到了一个错误:是这一行。optionKeyspace,model它说找不到符号变量model,在这一行中`