Apache spark 读取spark集群中的单个文件,并将其作为一个上下文进行处理

Apache spark 读取spark集群中的单个文件,并将其作为一个上下文进行处理,apache-spark,Apache Spark,我是Spark和SparkJob服务器的初学者 我必须处理包含用户名的日志文件,并获取唯一用户的编号 日志文件存储在5个不同的位置(与LAN连接的不同服务器) 相同的用户名可以在不同的位置重复(假设服务器1日志可以有特定的用户名,服务器2也可以有相同的用户名) 问题 我想我可以使用火花簇,但我有点困惑。如果我写一个查询来获取spark中的唯一用户(在集群模式下),它会在每个节点中单独处理并获取编号并发送给master还是master将获取所有日志文件并作为一个上下文读取并获取计数 因为如果日

我是
Spark
SparkJob服务器的初学者

  • 我必须处理包含用户名的日志文件,并获取唯一用户的编号

  • 日志文件存储在5个不同的位置(与LAN连接的不同服务器)

  • 相同的用户名可以在不同的位置重复(假设服务器1日志可以有特定的用户名,服务器2也可以有相同的用户名)

问题

我想我可以使用火花簇,但我有点困惑。如果我写一个查询来获取spark中的唯一用户(在集群模式下),它会在每个节点中单独处理并获取编号并发送给master还是master将获取所有日志文件并作为一个上下文读取并获取计数

因为如果日志文件在每个节点中单独处理,则可能会给出错误的计数