Apache spark 如何按范围进行分组查询
我正在构建一个Spark应用程序,用于从MS Ping服务器查询大日志数据 我有一个Java类来创建上下文并加载文件,我还有一个Java解析器来解析它并将其加载到数据帧中 我能够成功地创建SQLContext,查询也可以工作 日志表如下所示(在SQLContext上) 我想得到一天中每小时间隔每台服务器的平均响应时间Apache spark 如何按范围进行分组查询,apache-spark,Apache Spark,我正在构建一个Spark应用程序,用于从MS Ping服务器查询大日志数据 我有一个Java类来创建上下文并加载文件,我还有一个Java解析器来解析它并将其加载到数据帧中 我能够成功地创建SQLContext,查询也可以工作 日志表如下所示(在SQLContext上) 我想得到一天中每小时间隔每台服务器的平均响应时间 如何进行该查询?首先,我将以普通SQL编写相同的查询,然后尝试将其转换为SQLContext查询(非常类似)。SQLContext使用HiveQL语言,这里有一个很好的转换备忘单:
如何进行该查询?首先,我将以普通SQL编写相同的查询,然后尝试将其转换为SQLContext查询(非常类似)。SQLContext使用HiveQL语言,这里有一个很好的转换备忘单:如果您遇到问题,您可以发布一个关于您的问题的问题,但您不能期望我们为您完成工作:):)我知道这很难。我宁愿先转到数据库,我会先用普通SQL编写相同的查询,然后尝试将其转换为SQLContext查询(非常类似)。SQLContext使用HiveQL语言,这里有一个很好的转换备忘单:如果您遇到问题,您可以发布一个关于您的问题的问题,但您不能期望我们为您完成工作:):)我知道这很难。我宁愿去数据库论坛
Timestamp | pfhost | Response Time