Java 数据存储mapreduce是否已弃用
我刚刚安装了Java 数据存储mapreduce是否已弃用,java,hadoop,google-cloud-datastore,google-hadoop,Java,Hadoop,Google Cloud Datastore,Google Hadoop,我刚刚安装了谷歌云平台,免费试用。要使用DataStore运行MapReduce任务,指示运行 ./bdutil --upload_files "samples/*" run_command ./test-mr-datastore.sh 但我无法在本地获取此文件,这是一个很好的理由,这种运行MapReduce作业的方式似乎不受欢迎,请参见本页。这是真的吗?是否有其他方法可以从本地命令行创建MapReduce任务,而不需要BigQuery?注意:bdutilv1.3.0(2015-05-27)中
谷歌云平台
,免费试用。要使用DataStore
运行MapReduce
任务,指示运行
./bdutil --upload_files "samples/*" run_command ./test-mr-datastore.sh
但我无法在本地获取此文件,这是一个很好的理由,这种运行
MapReduce
作业的方式似乎不受欢迎,请参见本页。这是真的吗?是否有其他方法可以从本地命令行创建MapReduce任务,而不需要BigQuery
?注意:bdutil
v1.3.0(2015-05-27)中的Google团队,因此您可能需要使用旧版本或使用GCS或BigQuery作为代理来访问数据存储中的数据
我试图尽可能多地介绍,但是bdutil
需要更多的细节,这很难在这个答案中记录下来,但我希望这可以给您足够的时间开始:
- 安装谷歌云SDK-
- 下载并提取包含数据存储连接器的源代码
# Download source which contains DataStore connector wget https://github.com/GoogleCloudPlatform/bdutil/archive/1.2.1.tar.gz -O bdutil.tar.gz # Extract source tar -xvzf bdutil.tar.gz cd bdutil-*/
- 创建bdutil自定义环境变量文件。请参阅关于创建正确的配置文件,因为您需要指定项目、服务器数量、GCS存储桶、机器类型等
- 使用
datastore\u env.sh部署Hadoop实例()
./bdutil deploy -e YOUR_ENV_FILE.sh,datastore_env.sh
- 连接到Hadoop主节点
./bdutil shell
- 现在,在主节点中,您可以运行MapReduce作业,该作业也可以访问数据存储
- 关闭Hadoop集群
./bdutil delete
与Hadoop不同,您不必设置集群。您只需编写代码(使用Dataflow SDK)并从CLI提交作业。数据存储服务将动态创建所需的工作人员来处理您的作业,然后终止他们。谢谢,但不再有任何
Datastore_env.sh
文件-请参阅何时解除对bdutil的加载file@Newben,你完全正确。他们在v1.3.0中删除了它(1.3.0-2015-05-27-12天前)-更多详细信息:
./bdutil delete