使用PyTorch在云TPU上培训FairSeq RoBERTa时，RPC失败，状态为“不可用：套接字关闭”错误_Pytorch_Tpu_Fairseq_Roberta Language Model

使用PyTorch在云TPU上培训FairSeq RoBERTa时，RPC失败，状态为“不可用：套接字关闭”错误

pytorch

使用PyTorch在云TPU上培训FairSeq RoBERTa时，RPC失败，状态为“不可用：套接字关闭”错误,pytorch,tpu,fairseq,roberta-language-model,Pytorch,Tpu,Fairseq,Roberta Language Model,我按照教程设置了一个可抢占的v2-8 TPU环境，并训练了我的RoBERTa模型。PyTorch env基于文件中的torch-xla-1.6。但是，它不会像往常一样在GPU中输出任何训练日志，并且会抛出RPC失败警告，请参见下文-在12小时间隔内，在2-3天内两次删除网络端点我每个历元的训练步数是161529。根据文档，按照我的配置，v2-8将需要80小时，持续5个时代。然而，我的工作似乎还在那里有什么建议吗 W 4566 tensorflow/core/distributed_r

我按照教程设置了一个可抢占的v2-8 TPU环境，并训练了我的RoBERTa模型。PyTorch env基于文件中的torch-xla-1.6。但是，它不会像往常一样在GPU中输出任何训练日志，并且会抛出RPC失败警告，请参见下文-在12小时间隔内，在2-3天内两次删除网络端点

我每个历元的训练步数是161529。根据文档，按照我的配置，v2-8将需要80小时，持续5个时代。然而，我的工作似乎还在那里

有什么建议吗

 W    4566 tensorflow/core/distributed_runtime/rpc/grpc_remote_master.cc:160] RPC failed with status = "Unavailable: Socket closed" and grpc_error_string = "{"created":"@1599580717.037250202","description":"Error received from peer ipv4:<my_network_endpoint>:8470","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Socket closed","grpc_status":14}", maybe retrying the RPC

在这种情况下，您的TPU可能被抢占了。请尝试使用不可抢占的TPU。

据我所知，这可能是TF2.3.0中的错误造成的。尝试使用2.2.0代替Headit的PyTorch env，我使用的是基于错误消息的标准torch xla图像-看起来PyTorch使用的是TensorFlow请不要以使答案看起来像问题的方式书写答案。有适当的系统来检查NAA帖子是否有答案。这个答案被他们中的一个错误地接受了。请考虑编辑它看起来更像一个答案。重新表述您可以尝试使用非抢占式TPU吗？即使使用不可抢占的TPU，也会发生此错误。