Java 数据存储mapreduce是否已弃用_Java_Hadoop_Google Cloud Datastore_Google Hadoop

Java 数据存储mapreduce是否已弃用

java hadoop

Java 数据存储mapreduce是否已弃用,java,hadoop,google-cloud-datastore,google-hadoop,Java,Hadoop,Google Cloud Datastore,Google Hadoop,我刚刚安装了谷歌云平台，免费试用。要使用DataStore运行MapReduce任务，指示运行 ./bdutil --upload_files "samples/*" run_command ./test-mr-datastore.sh 但我无法在本地获取此文件，这是一个很好的理由，这种运行MapReduce作业的方式似乎不受欢迎，请参见本页。这是真的吗？是否有其他方法可以从本地命令行创建MapReduce任务，而不需要BigQuery？注意：bdutilv1.3.0（2015-05-27）中

我刚刚安装了

谷歌云平台

，免费试用。要使用

DataStore

运行

MapReduce

任务，指示运行

./bdutil --upload_files "samples/*" run_command ./test-mr-datastore.sh

但我无法在本地获取此文件，这是一个很好的理由，这种运行

MapReduce

作业的方式似乎不受欢迎，请参见本页。这是真的吗？是否有其他方法可以从本地命令行创建MapReduce任务，而不需要

BigQuery

？

注意：
bdutil
v1.3.0（2015-05-27）中的Google团队，因此您可能需要使用旧版本或使用GCS或BigQuery作为代理来访问数据存储中的数据
我试图尽可能多地介绍，但是
bdutil
需要更多的细节，这很难在这个答案中记录下来，但我希望这可以给您足够的时间开始：

安装谷歌云SDK-

下载并提取包含数据存储连接器的源代码

# Download source which contains DataStore connector wget https://github.com/GoogleCloudPlatform/bdutil/archive/1.2.1.tar.gz -O bdutil.tar.gz # Extract source tar -xvzf bdutil.tar.gz cd bdutil-*/

创建bdutil自定义环境变量文件。请参阅关于创建正确的配置文件，因为您需要指定项目、服务器数量、GCS存储桶、机器类型等

使用
datastore\u env.sh部署Hadoop实例（） ./bdutil deploy -e YOUR_ENV_FILE.sh,datastore_env.sh
连接到Hadoop主节点 ./bdutil shell 现在，在主节点中，您可以运行MapReduce作业，该作业也可以访问数据存储关闭Hadoop集群 ./bdutil delete
数据存储连接器确实不推荐使用对于您的问题“是否有从本地命令行创建MapReduce任务的替代方法”，一个选项是使用。这不是MapReduce本身，而是并行数据处理的编程模型，它已经取代了谷歌的MapReduce。数据流SDK包括与Hadoop不同，您不必设置集群。您只需编写代码（使用Dataflow SDK）并从CLI提交作业。数据存储服务将动态创建所需的工作人员来处理您的作业，然后终止他们。谢谢，但不再有任何Datastore_env.sh文件-请参阅何时解除对bdutil的加载file@Newben，你完全正确。他们在v1.3.0中删除了它（1.3.0-2015-05-27-12天前）-更多详细信息： ./bdutil delete