Apache spark 如何执行自定义C++;HDFS文件上的二进制文件
我有自定义的c++二进制文件,它读取原始数据文件并写入派生数据文件。文件大小以100Gbs为单位。此外,我希望并行处理多个100Gb文件,并生成派生元数据的物化视图。因此,map-reduce范式似乎更具可伸缩性Apache spark 如何执行自定义C++;HDFS文件上的二进制文件,apache-spark,hadoop,hive,bigdata,hadoop2,Apache Spark,Hadoop,Hive,Bigdata,Hadoop2,我有自定义的c++二进制文件,它读取原始数据文件并写入派生数据文件。文件大小以100Gbs为单位。此外,我希望并行处理多个100Gb文件,并生成派生元数据的物化视图。因此,map-reduce范式似乎更具可伸缩性 我是Hadoop生态系统的新手。我使用Ambari在AWS上设置了Hadoop集群。我在每个数据节点上构建了自定义的C++二进制文件,并在HDFS上加载了原始数据文件。在HDFS文件上执行此二进制文件的选项有哪些?Hadoop streaming是作为MapReduce运行非Java应
我是Hadoop生态系统的新手。我使用Ambari在AWS上设置了Hadoop集群。我在每个数据节点上构建了自定义的C++二进制文件,并在HDFS上加载了原始数据文件。在HDFS文件上执行此二进制文件的选项有哪些?Hadoop streaming是作为MapReduce运行非Java应用程序的最简单方法
有关更多详细信息,请参阅。请考虑为您的问题使用适当的标签。