Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/redis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何执行自定义C++;HDFS文件上的二进制文件_Apache Spark_Hadoop_Hive_Bigdata_Hadoop2 - Fatal编程技术网

Apache spark 如何执行自定义C++;HDFS文件上的二进制文件

Apache spark 如何执行自定义C++;HDFS文件上的二进制文件,apache-spark,hadoop,hive,bigdata,hadoop2,Apache Spark,Hadoop,Hive,Bigdata,Hadoop2,我有自定义的c++二进制文件,它读取原始数据文件并写入派生数据文件。文件大小以100Gbs为单位。此外,我希望并行处理多个100Gb文件,并生成派生元数据的物化视图。因此,map-reduce范式似乎更具可伸缩性 我是Hadoop生态系统的新手。我使用Ambari在AWS上设置了Hadoop集群。我在每个数据节点上构建了自定义的C++二进制文件,并在HDFS上加载了原始数据文件。在HDFS文件上执行此二进制文件的选项有哪些?Hadoop streaming是作为MapReduce运行非Java应

我有自定义的c++二进制文件,它读取原始数据文件并写入派生数据文件。文件大小以100Gbs为单位。此外,我希望并行处理多个100Gb文件,并生成派生元数据的物化视图。因此,map-reduce范式似乎更具可伸缩性


我是Hadoop生态系统的新手。我使用Ambari在AWS上设置了Hadoop集群。我在每个数据节点上构建了自定义的C++二进制文件,并在HDFS上加载了原始数据文件。在HDFS文件上执行此二进制文件的选项有哪些?

Hadoop streaming是作为MapReduce运行非Java应用程序的最简单方法


有关更多详细信息,请参阅。

请考虑为您的问题使用适当的标签。