无法远程运行Hadoop作业

无法远程运行Hadoop作业,hadoop,Hadoop,我想从windows计算机远程运行hadoop作业。集群正在Ubuntu上运行 基本上,我想做两件事: 远程执行hadoop作业 从hadoop输出目录检索结果 我不知道怎样才能做到这一点。我使用的是hadoop版本1.1.2 我尝试在作业配置中传递jobtracker/namenode URL,但失败了 我试过以下例子: 结果:一致获取错误,因为无法加载目录。与此类似: 欢迎来到痛苦的世界。我刚刚实现了这个确切的用例,但是使用了Hadoop2.2(当前的稳定版本),它是从源代码修补和编译的 简

我想从windows计算机远程运行hadoop作业。集群正在Ubuntu上运行

基本上,我想做两件事:

  • 远程执行hadoop作业
  • 从hadoop输出目录检索结果
  • 我不知道怎样才能做到这一点。我使用的是hadoop版本1.1.2

    我尝试在作业配置中传递jobtracker/namenode URL,但失败了

    我试过以下例子:

    结果:一致获取错误,因为无法加载目录。与此类似:
    欢迎来到痛苦的世界。我刚刚实现了这个确切的用例,但是使用了Hadoop2.2(当前的稳定版本),它是从源代码修补和编译的

    简而言之,我所做的是:

  • 将下载到Linux计算机并将其解压缩到temp dir
  • 应用,解决从Windows客户端连接到Linux服务器的问题
  • 使用从源代码构建它。如果您有64位Linux服务器,它还将确保您有64位本机LIB。确保按照post的指示修复生成文件,否则生成将失败。请注意,安装protobuf 2.5后,必须运行
    sudo ldconfig
    ,请参阅
  • 在服务器节点上部署hadoop-2.2.0-src/hadoop dist/target中生成的dist tar,并对其进行配置。我不能帮你,因为你需要调整它到你的集群拓扑
  • 在客户端Windows计算机上安装Java。确保指向它的路径中没有空格,例如
    c:\java\jdk1.7
  • 部署与在Windows客户端上构建的相同的Hadoop dist tar。它将包含Windox/Linux连接问题的关键修复程序
  • 如中所述编译winutils和Windows本机库。这比在Windows上构建整个Hadoop要简单
  • 设置
    JAVA\u HOME
    HADOOP\u HOME
    PATH
    环境变量,如中所述
  • 使用文本编辑器或
    unix2dos
    (来自Cygwin或standalone)转换
    bin
    etc\hadoop
    目录中的所有
    .cmd
    文件,否则在运行标签时会出现奇怪的错误
  • 在配置XML文件中配置集群的连接属性,即
    fs.default.name
    mapreduce.jobtracker.address
    warn.resourcemanager.hostname
  • 添加项目2中修补程序所需的其余配置。这仅适用于客户端。否则补丁将无法工作
  • 如果您已经管理了所有这些,那么可以启动Linux Hadoop集群并从Windows命令提示符连接到它。快乐