Google cloud storage 可抢占GCE实例的预处理

Google cloud storage 可抢占GCE实例的预处理,google-cloud-storage,presto,orc,google-compute-engine,Google Cloud Storage,Presto,Orc,Google Compute Engine,我正在运行一个由20个可抢占GCE实例组成的实例组来读取Google存储上的ORC文件,数据按小时进行分区,每小时大约2GB 我应该使用什么类型的实例 JVM应该使用多少Ram 我正在使用80%CPU和10分钟冷却的自动缩放配置,Presto是否有更多的字幕配置 是否有解决因资源不足而导致服务器关闭的方案 部分回复也将不胜感激。由于0.199版本的PrestoDB没有用于Presto的google云存储连接器,因此无法查询GCS数据 关于硬件要求,我将在这里引用 记忆 您应该为Presto为每个

我正在运行一个由20个可抢占GCE实例组成的实例组来读取Google存储上的ORC文件,数据按小时进行分区,每小时大约2GB

  • 我应该使用什么类型的实例
  • JVM应该使用多少Ram
  • 我正在使用80%CPU和10分钟冷却的自动缩放配置,Presto是否有更多的字幕配置
  • 是否有解决因资源不足而导致服务器关闭的方案

  • 部分回复也将不胜感激。

    由于0.199版本的PrestoDB没有用于Presto的google云存储连接器,因此无法查询GCS数据

    关于硬件要求,我将在这里引用

    记忆

    您应该为Presto为每个节点分配至少16GB的RAM。但是 对于大多数生产工作负载,建议使用64GB

    网络带宽

    建议在网络中的所有节点之间使用万兆以太网 集群

    其他建议

    Presto可以安装在任何正常配置的Hadoop集群上。 纱线应配置为占用专用于纱线的资源 急板地。例如,如果一个节点有64GB的RAM,您可能会 通常为纱线分配60GB。如果在该节点上安装Presto,并且 给Presto 32GB的RAM,那么您应该从60GB中减去32GB 让纱线仅为每个节点分配28GB。优化配置 可能会选择使用单独的Presto和Hadoop节点。优化的 配置允许您为Presto提供更多内存,从而 例如,执行较大的联接查询