Apache spark 如何执行自定义C++；HDFS文件上的二进制文件_Apache Spark_Hadoop_Hive_Bigdata_Hadoop2

Apache spark 如何执行自定义C++；HDFS文件上的二进制文件

apache-spark hadoop hive

Apache spark 如何执行自定义C++；HDFS文件上的二进制文件,apache-spark,hadoop,hive,bigdata,hadoop2,Apache Spark,Hadoop,Hive,Bigdata,Hadoop2,我有自定义的c++二进制文件，它读取原始数据文件并写入派生数据文件。文件大小以100Gbs为单位。此外，我希望并行处理多个100Gb文件，并生成派生元数据的物化视图。因此，map-reduce范式似乎更具可伸缩性我是Hadoop生态系统的新手。我使用Ambari在AWS上设置了Hadoop集群。我在每个数据节点上构建了自定义的C++二进制文件，并在HDFS上加载了原始数据文件。在HDFS文件上执行此二进制文件的选项有哪些？Hadoop streaming是作为MapReduce运行非Java应

我有自定义的c++二进制文件，它读取原始数据文件并写入派生数据文件。文件大小以100Gbs为单位。此外，我希望并行处理多个100Gb文件，并生成派生元数据的物化视图。因此，map-reduce范式似乎更具可伸缩性

我是Hadoop生态系统的新手。我使用Ambari在AWS上设置了Hadoop集群。我在每个数据节点上构建了自定义的C++二进制文件，并在HDFS上加载了原始数据文件。在HDFS文件上执行此二进制文件的选项有哪些？

Hadoop streaming是作为MapReduce运行非Java应用程序的最简单方法

有关更多详细信息，请参阅。

请考虑为您的问题使用适当的标签。