使用PyTorch在云TPU上培训FairSeq RoBERTa时,RPC失败,状态为“不可用:套接字关闭”错误

使用PyTorch在云TPU上培训FairSeq RoBERTa时,RPC失败,状态为“不可用:套接字关闭”错误,pytorch,tpu,fairseq,roberta-language-model,Pytorch,Tpu,Fairseq,Roberta Language Model,我按照教程设置了一个可抢占的v2-8 TPU环境,并训练了我的RoBERTa模型。PyTorch env基于文件中的torch-xla-1.6。但是,它不会像往常一样在GPU中输出任何训练日志,并且会抛出RPC失败警告,请参见下文-在12小时间隔内,在2-3天内两次删除网络端点 我每个历元的训练步数是161529。根据文档,按照我的配置,v2-8将需要80小时,持续5个时代。然而,我的工作似乎还在那里 有什么建议吗 W 4566 tensorflow/core/distributed_r

我按照教程设置了一个可抢占的v2-8 TPU环境,并训练了我的RoBERTa模型。PyTorch env基于文件中的torch-xla-1.6。但是,它不会像往常一样在GPU中输出任何训练日志,并且会抛出RPC失败警告,请参见下文-在12小时间隔内,在2-3天内两次删除网络端点

我每个历元的训练步数是161529。根据文档,按照我的配置,v2-8将需要80小时,持续5个时代。然而,我的工作似乎还在那里

有什么建议吗

 W    4566 tensorflow/core/distributed_runtime/rpc/grpc_remote_master.cc:160] RPC failed with status = "Unavailable: Socket closed" and grpc_error_string = "{"created":"@1599580717.037250202","description":"Error received from peer ipv4:<my_network_endpoint>:8470","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Socket closed","grpc_status":14}", maybe retrying the RPC

在这种情况下,您的TPU可能被抢占了。请尝试使用不可抢占的TPU。

据我所知,这可能是TF2.3.0中的错误造成的。尝试使用2.2.0代替Headit的PyTorch env,我使用的是基于错误消息的标准torch xla图像-看起来PyTorch使用的是TensorFlow请不要以使答案看起来像问题的方式书写答案。有适当的系统来检查NAA帖子是否有答案。这个答案被他们中的一个错误地接受了。请考虑编辑它看起来更像一个答案。重新表述您可以尝试使用非抢占式TPU吗?即使使用不可抢占的TPU,也会发生此错误。