Apache spark 读取spark集群中的单个文件，并将其作为一个上下文进行处理_Apache Spark

Apache spark 读取spark集群中的单个文件，并将其作为一个上下文进行处理

apache-spark

Apache spark 读取spark集群中的单个文件，并将其作为一个上下文进行处理,apache-spark,Apache Spark,我是Spark和SparkJob服务器的初学者我必须处理包含用户名的日志文件，并获取唯一用户的编号日志文件存储在5个不同的位置（与LAN连接的不同服务器）相同的用户名可以在不同的位置重复（假设服务器1日志可以有特定的用户名，服务器2也可以有相同的用户名）问题我想我可以使用火花簇，但我有点困惑。如果我写一个查询来获取spark中的唯一用户（在集群模式下），它会在每个节点中单独处理并获取编号并发送给master还是master将获取所有日志文件并作为一个上下文读取并获取计数因为如果日

我是

Spark

和

SparkJob服务器的初学者

我必须处理包含用户名的日志文件，并获取唯一用户的编号
日志文件存储在5个不同的位置（与LAN连接的不同服务器）
相同的用户名可以在不同的位置重复（假设服务器1日志可以有特定的用户名，服务器2也可以有相同的用户名）

问题
我想我可以使用火花簇，但我有点困惑。如果我写一个查询来获取spark中的唯一用户（在集群模式下），它会在每个节点中单独处理并获取编号并发送给master还是master将获取所有日志文件并作为一个上下文读取并获取计数
因为如果日志文件在每个节点中单独处理，则可能会给出错误的计数