Apache spark 读取spark集群中的单个文件,并将其作为一个上下文进行处理
我是Apache spark 读取spark集群中的单个文件,并将其作为一个上下文进行处理,apache-spark,Apache Spark,我是Spark和SparkJob服务器的初学者 我必须处理包含用户名的日志文件,并获取唯一用户的编号 日志文件存储在5个不同的位置(与LAN连接的不同服务器) 相同的用户名可以在不同的位置重复(假设服务器1日志可以有特定的用户名,服务器2也可以有相同的用户名) 问题 我想我可以使用火花簇,但我有点困惑。如果我写一个查询来获取spark中的唯一用户(在集群模式下),它会在每个节点中单独处理并获取编号并发送给master还是master将获取所有日志文件并作为一个上下文读取并获取计数 因为如果日
Spark
和SparkJob服务器的初学者
- 我必须处理包含用户名的日志文件,并获取唯一用户的编号
- 日志文件存储在5个不同的位置(与LAN连接的不同服务器)
- 相同的用户名可以在不同的位置重复(假设服务器1日志可以有特定的用户名,服务器2也可以有相同的用户名)
问题
我想我可以使用火花簇,但我有点困惑。如果我写一个查询来获取spark中的唯一用户(在集群模式下),它会在每个节点中单独处理并获取编号并发送给master还是master将获取所有日志文件并作为一个上下文读取并获取计数
因为如果日志文件在每个节点中单独处理,则可能会给出错误的计数