Java 如何使用Spark数据帧计算Cassandra表的汇总统计？_Java_Scala_Apache Spark_Cassandra_Statistics

Java 如何使用Spark数据帧计算Cassandra表的汇总统计？

java scala apache-spark cassandra statistics

Java 如何使用Spark数据帧计算Cassandra表的汇总统计？,java,scala,apache-spark,cassandra,statistics,Java,Scala,Apache Spark,Cassandra,Statistics,我正在尝试获取一些Cassandra/SPARK数据的最小、最大平均值，但我需要用JAVA来实现 import org.apache.spark.sql.DataFrame; import static org.apache.spark.sql.functions.*; DataFrame df = sqlContext.read() .format("org.apache.spark.sql.cassandra") .option("table", "som

我正在尝试获取一些Cassandra/SPARK数据的最小、最大平均值，但我需要用JAVA来实现

import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;

DataFrame df = sqlContext.read()
        .format("org.apache.spark.sql.cassandra")
        .option("table",  "someTable")
        .option("keyspace", "someKeyspace")
        .load();

df.groupBy(col("keyColumn"))
        .agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
        .show();

编辑以显示工作版本：确保把someTable和someKeyspace放在周围

我建议退房

它包含Scala和等效Java的演示

您还可以查看：

其中有大量的示例，您可以在Scala、Java和Python版本之间切换

我几乎100%确信，在这些链接之间，你会找到你想要的东西

如果在此之后您遇到了任何问题，请随时用更具体的错误/问题更新您的问题

一般来说

编译scala文件： $scalac Main.scala

从Main.class文件创建java源文件： $javap Main

更多信息可从以下url获得：

只需将数据作为数据帧导入，并应用所需的聚合：

import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;

DataFrame df = sqlContext.read()
        .format("org.apache.spark.sql.cassandra")
        .option("table", someTable)
        .option("keyspace", someKeyspace)
        .load();

df.groupBy(col("keyColumn"))
        .agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
        .show();

其中，someTable和someKeyspace分别存储表名和键空间

这看起来很像是试图让其他人为您编写代码。该代码包含多个部分。您知道如何在Java中执行哪些操作，哪些操作被卡住了？我尝试了这个方法，但我得到了一个错误：是这一行。optionKeyspace，model它说找不到符号变量model，在这一行中`