Amazon ec2 Ray未在EC2上启动工人

Amazon ec2 Ray未在EC2上启动工人,amazon-ec2,parallel-processing,cluster-computing,hpc,ray,Amazon Ec2,Parallel Processing,Cluster Computing,Hpc,Ray,我正在使用Ray模块在AWSEC2上启动一个Ubuntu(16.04)集群。在配置中,我将最小工作线程、最大工作线程和初始工作线程指定为2,因为我不需要任何自动大小调整。我还需要一个t2.micro主节点和c4.8x1大型辅助节点。集群启动,但只启动主机(以下终端输出是从ray安装开始的,…减去详细信息):- 我使用了标准配置(示例full.yaml),并做了以下更改:- min_workers: 2 initial_workers: 2 type: aws region:

我正在使用Ray模块在AWSEC2上启动一个Ubuntu(16.04)集群。在配置中,我将最小工作线程、最大工作线程和初始工作线程指定为2,因为我不需要任何自动大小调整。我还需要一个t2.micro主节点和c4.8x1大型辅助节点。集群启动,但只启动主机(以下终端输出是从ray安装开始的,…减去详细信息):-

我使用了标准配置(示例full.yaml),并做了以下更改:-

min_workers: 2

initial_workers: 2

    type: aws
    region: us-east-1
    availability_zone: us-east1a,us-east-1b


head_node:
    InstanceType: t2.micro
    ImageId: ami-0565af6e282977273 # ubuntu/images/hvm-ssd/ubuntu-xenial-16.04-amd64-server-20190212

worker_nodes:
    InstanceType: c4.8xlarge
    ImageId: ami-0f9cf087c1f27d9b1 # ubuntu/images/hvm-ssd/ubuntu-xenial-16.04-amd64-server-20181114  

        #MarketType: spot

setup_commands:

- echo 'export PATH="$HOME/anaconda3/envs/tensorflow_p36/bin:$PATH"' >>     ~/.bashrc
    - sudo apt-get update
    - sudo apt-get install python3-pip
    - pip3 install -U https://s3-us-west-2.amazonaws.com/ray-wheels/latest/ray-0.7.0.dev2-cp35-cp35m-manylinux1_x86_64.whl

    - pip3 install boto3==1.4.8  # 1.4.8 adds InstanceMarketOptions
最新失败的安装程序:-

setup_commands:
- sudo apt-get update
- wget https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.sh || true 1>/dev/null
- bash Anaconda3-5.0.1-Linux-x86_64.sh -b -p $HOME/anaconda3 || true 1>/dev/null
- echo 'export PATH="$HOME/anaconda3/bin:$PATH"' >> ~/.bashrc
- sudo pkill -9 apt-get || true
- sudo pkill -9 dpkg || true
- sudo dpkg --configure -a
- sudo apt-get install python3-pip || true
- pip3 install --upgrade pip
- pip3 install --user psutil
- pip3 install --user proctitle
- pip3 install --user ray
- pip3 install --user boto3==1.4.8
- pip3 install --user https://s3-us-west-2.amazonaws.com/ray-wheels/latest/ray-0.7.0.dev2-cp35-cp35m-manylinux1_x86_64.whl

我运行了您发布的配置的一个稍加修改的版本,这对我很有用

cluster_name: test

min_workers: 2

initial_workers: 2

provider:
    type: aws
    region: us-east-1
    availability_zone: us-east1a,us-east-1b

head_node:
    InstanceType: t2.micro
    ImageId: ami-0565af6e282977273 # ubuntu/images/hvm-ssd/ubuntu-xenial-16.04-amd64-server-20190212

worker_nodes:
    InstanceType: c4.8xlarge
    ImageId: ami-0f9cf087c1f27d9b1 # ubuntu/images/hvm-ssd/ubuntu-xenial-16.04-amd64-server-20181114
        #MarketType: spot

setup_commands:
    - sudo apt-get update
    # Install Anaconda.
    - wget https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.sh || true
    - bash Anaconda3-5.0.1-Linux-x86_64.sh -b -p $HOME/anaconda3 || true
    - echo 'export PATH="$HOME/anaconda3/bin:$PATH"' >> ~/.bashrc
    # Install Ray.
    - pip install ray
    - pip install boto3==1.4.8  # 1.4.8 adds InstanceMarketOptions

我认为唯一真正的区别是安装anacondapython并将其放入
路径
,以便
pip
正确地找到它。我怀疑这个问题与找不到正确的Python版本有关。

你能分享完整的
ray_conf.yaml
文件吗?Ray附带的默认配置文件是否适用于您?例如,是的,这是我使用的文件,有一些轻微的修改(见补充)。Boto似乎找不到原始中使用的实例:-botocore.exceptions.ClientError:调用RunInstances操作时发生错误(InvalidAMIID.NotFound):映像id“[ami-0b294f219d14e6a82]”不存在,可能是因为我将该区域更改为通常使用的区域。我替换的密钥对是我第一次启动时Ray创建的密钥对。我还禁用了spot选项。听起来好像找不到AMI。如果更改了区域,则还需要更改AMI。请注意,您似乎正在为head节点和worker节点使用不同的AMI。这是故意的吗?我把非盟特派团换成了我知道在美国东部地区工作的非盟特派团。如果我将head节点更改为c4.8XL,则也会启动该节点,但同样没有工作节点。您是否认识到错误消息:在我看来,这可能与更新boto3之类的内容无关。也许Ray只会在提交作业后增加工作人员?我不确定,但是命令
”的行['ssh','-i','/home/haines/.ssh/ray-autoscaler_us-east-1.pem','-o','ConnectTimeout=120s','-o','strichhostkeychecking=no','-o','ControlMaster=auto','-o','ControlPath=/tmp/ray_ssh_sockets/%C','-o','ControlPersist=5m','ubuntu@54.89.150.50', “bash--login-c-i'true&&source~/.bashrc&&export OMP_NUM_THREADS=1 PYTHONWARNINGS=ignore&&mkdir-p~”]“
failed值得一看。你能试着单独运行那个命令吗?或者
ssh
ing到机器上,运行这个命令,看看它是否失败?谢谢Robert,这对我来说也很有效,尽管我不知道为什么。我已经添加了失败的安装部分的最新状态(如上所述)包括您已经安装的Anaconda。我被迫添加了所有其余的内容(主要是确保pip3的正确版本)为了让ray wheels命令能够无错误地执行,您似乎完全忽略了这一点。经过一个消除过程后,我发现使用file_mounts部分是阻止我的配置启动worker的原因。我正在尝试:file_mounts:{“../data”:“/data”,“/”:“/test_small.py”}与原始.yaml示例的格式完全相同。这成功地将数据目录和test_small.py传输到head节点,但除非我将列表留空,否则不会启动任何工作进程。有什么想法吗?请参阅()以了解文件_装载问题的解决方案。
cluster_name: test

min_workers: 2

initial_workers: 2

provider:
    type: aws
    region: us-east-1
    availability_zone: us-east1a,us-east-1b

head_node:
    InstanceType: t2.micro
    ImageId: ami-0565af6e282977273 # ubuntu/images/hvm-ssd/ubuntu-xenial-16.04-amd64-server-20190212

worker_nodes:
    InstanceType: c4.8xlarge
    ImageId: ami-0f9cf087c1f27d9b1 # ubuntu/images/hvm-ssd/ubuntu-xenial-16.04-amd64-server-20181114
        #MarketType: spot

setup_commands:
    - sudo apt-get update
    # Install Anaconda.
    - wget https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.sh || true
    - bash Anaconda3-5.0.1-Linux-x86_64.sh -b -p $HOME/anaconda3 || true
    - echo 'export PATH="$HOME/anaconda3/bin:$PATH"' >> ~/.bashrc
    # Install Ray.
    - pip install ray
    - pip install boto3==1.4.8  # 1.4.8 adds InstanceMarketOptions