分布式tensorflow中检查点的恢复_Tensorflow_Deep Learning - Fatal编程技术网

分布式tensorflow中检查点的恢复

tensorflow deep-learning

分布式tensorflow中检查点的恢复,tensorflow,deep-learning,Tensorflow,Deep Learning,使用类似的设置，首席工作人员会定期在运行此进程的节点上自动保存检查点文件。我在两个不同的节点上运行两个ps。两个工人也分别在两个节点上运行，四分之一的工人是负责人在不进行任何修改的情况下重新启动培训时，主管会自动尝试恢复最后一个检查点文件，但最终给出一个错误，即无法在第二个节点（除主工之外的节点）上找到ckpt，因为主工从未在第二个节点上保存ckpt W tensorflow/core/framework/op_kernel.cc:936] Not found: Unsuccessful Te

使用类似的设置，首席工作人员会定期在运行此进程的节点上自动保存检查点文件。我在两个不同的节点上运行两个ps。两个工人也分别在两个节点上运行，四分之一的工人是负责人

在不进行任何修改的情况下重新启动培训时，主管会自动尝试恢复最后一个检查点文件，但最终给出一个错误，即无法在第二个节点（除主工之外的节点）上找到ckpt，因为主工从未在第二个节点上保存ckpt

W tensorflow/core/framework/op_kernel.cc:936] Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for /home/muneebs/tf_train/model.ckpt-275

如果我将ckpt目录复制到第二个节点，它将恢复正常。是虫子吗？是否应将保护程序初始化为sharded=True？如果是这样的话，这是唯一的方法吗？我们不能将ckpt作为一个单独的文件，以防以后节点的数量发生变化？

像hdfs这样的分布式文件系统会有所帮助

您可以将模型（ckpt）保存到hdfs中的一个目录中，从而避免了恢复ckpt的问题

另一种方法是在同一台机器上启动任务索引为0的ps和工作者。task_索引并不重要，因为每台机器上的每个ps都必须恢复它应该管理的部分模型参数。

[deep learning]相关文章推荐

Deep learning 我正在尝试使用CNN对图像进行是/否分类。 deep-learning

Deep learning 在Keras中，使用有状态LSTM进行小批量处理，并使用可变时间步长进行输入？ deep-learning keras

Deep learning 两个卷积层之间的互连 deep-learning

Deep learning Conolutional Neural Network:float（）参数必须是字符串还是数字？ deep-learning

Deep learning 检查渐变时找到交叉弯折 deep-learning

Deep learning 深度学习中哪种图像预处理更好 deep-learning

Deep learning fit_生成器中AUT编码器的验证_数据 deep-learning

Deep learning 尺寸不匹配，m1:[1 x 5]，m2:[7 x 100]at/pytorch/aten/src/TH/generic/THTensorMath.cpp:752 deep-learning pytorch

Deep learning 深度学习模型（YLO）的后端权重是多少？ deep-learning

Deep learning TensorFlow奇怪的内存使用 deep-learning tensorflow memory

Deep learning 在PyTorch中使用预先训练的权重 deep-learning neural-network computer-vision pytorch

Deep learning 语义分割中的Pytorch运行时错误 deep-learning pytorch

Deep learning 为改进模型，可能对RNN进行哪些修改？ deep-learning

Deep learning torch.nn.conv2d和torch.nn.Linear中的值 deep-learning pytorch

Deep learning tensorflow tensorrt转换器型号是savedmodel还是frozengrpah？ deep-learning

Deep learning 损失之间的权衡？ deep-learning pytorch

Deep learning Pytorch中的验证丢失是否正确？ deep-learning pytorch

Deep learning 强化学习：代理vs网络vs模型vs策略 deep-learning neural-network

随机文章推荐

Scikit learn scikit学习中交叉验证的一个标准错误规则 scikit-learn

Scikit learn scikit学习中预测时的记忆错误 scikit-learn

Scikit learn 分类器报告在skikit learn中告诉我们什么？ scikit-learn

Scikit learn 使用sklearn.linear_模型的在线线性回归导致sklearn导入线性_模型错误 scikit-learn

Scikit learn Scikit学习精度\u召回\u fscore\u支持多类 scikit-learn

Scikit learn SVM分类：置信区间 scikit-learn

Scikit learn 如何在scikit学习中使用用户定义的最近邻度量？ scikit-learn

Scikit learn 如何在Scikit学习管道中访问回归器的权重 scikit-learn keras

Scikit learn 无法从Sklearn导入线性回归 scikit-learn

Scikit learn Xgressor未拟合数据 scikit-learn

Scikit learn sklearn文档中类似数组的形状（n个样本）与[n个样本] scikit-learn

Scikit learn scikit学习：最近的邻居 scikit-learn

Scikit learn 如何在通过pandas_ml调用时向xgboost添加权重向量 scikit-learn

Scikit learn Tfidf矢量器 scikit-learn nlp

Scikit learn 有没有办法扩展最初传递给SVC的训练集？ scikit-learn

Scikit learn resnet实现的准确性和召回率相同 scikit-learn deep-learning pytorch

Scikit learn 我是否需要为sklearn.naive_bayes.多项式nb（）指定输入是counts还是TF-IDF？ scikit-learn

Scikit learn 无法在windows上的虚拟环境中安装sklearn-错误：命令出错，退出状态为1: scikit-learn

Scikit learn 如何使ONNX-sklearn转换器支持布尔字符串类型？ scikit-learn

[tensorflow]相关推荐

Tensorflow-同步tfrecord中的读数
Tensorflow

TensorFlow-批量标准化在回归中失败？
Tensorflow

Tensorflow准确度评估在单独测量每个类别时给出不同的结果
Tensorflow

如何将Tensorflow的tf.cond（）与两个不同的数据集迭代器一起使用，而不同时迭代这两个迭代器？
Tensorflow

Tensorflow 服务器和会话
Tensorflow

Tensorflow：我安装了CUDA9.2，但它需要9.0？
Tensorflow Cuda

Tensorflow 仅在需要时执行Op？
Tensorflow

Tensorflow Keras：这个Bug取决于网络中有多少层
Tensorflow Keras

Tensorflow 如何将tensorboard调试器与在google云平台上使用tf.estimator的datalab结合使用
Tensorflow Google Cloud Platform

TensorFlow会自动并行化图形计算吗？
Tensorflow

Tensorflow 此时不支持会话“”中的某些键：%s'；，口述键（学习率）
Tensorflow Keras

tensorflow.keras可以'；输入激活
Tensorflow Keras

无法使用Conda环境在PyCharm中导入tensorflow gpu，但可以在激活相同环境后从CMD导入
Tensorflow Pycharm

理解Tensorflow Keras层的计算图
Tensorflow Keras Neural Network

tensorflow 2.0中的多标签分割
Tensorflow Deep Learning

在tensorflow中是否有名为“index_select”的pytorch的等效函数
Tensorflow Pytorch

Tensorflow 如何查找冻结的\u推理\u graph.pb输入和输出节点？
Tensorflow

Tensorflow DLL加载失败：找不到指定的过程。并且不显示任何缺少的DLL文件名
Tensorflow

tensorflow会话（）需要很长时间
Tensorflow

Deeplab tensorflow实现：培训自定义数据。如何选择参数？
Tensorflow

ModuleNotFoundError:没有名为'；tensorflow#u数据集&x27；
Tensorflow

Tensorflow 利用LSTM对时序数据进行多步超前预测得到重复模式
Tensorflow Machine Learning

如何将Tensorflow.pb模型转换为Tensorflow Lite
Tensorflow Model

Tensorflow Keras在使用具有大型ish数据集的GPU调用model.fit时崩溃，但不会释放内存
Tensorflow Keras Google Colaboratory

Tensorflow 我无法在我的GPU上使用迁移学习（VGG16）训练我的模型
Tensorflow

Tensorflow 如何有效地使用OrderedICT制作的tf.data.Dataset？
Tensorflow Keras

Tensorflow SimpleTransformers错误：VersionConflict:tokenizers==0.9.4？我该如何解决这个问题？
Tensorflow Nlp

Tensorflow keras.models.load_model（）给出了ValueError
Tensorflow Keras Deep Learning

通过TensorFlow 2和Keras将多组输入通过网络传递到不同的损耗函数中
Tensorflow Keras

Tensorflow tflite没有'；无法找到内置操作码的op'；跨步切片'；版本'；6'；
Tensorflow

Tags

Canvas Scala Reactjs Elixir Button Markdown Ffmpeg Javascript Google Sheets Excel Formula Swiftui Redux Deep Learning .net 4.0 Web Scraping Vhdl Debian Azure Devops Angular Google Maps Api 3 Gatsby Outlook Data Structures Filesystems Continuous Integration Seo Yii Ember.js Multithreading Cookies Postman Video Doctrine Laravel 4 Html Highcharts Version Control Parse Platform Tomcat Plone Postgresql Sprite Kit Geolocation Rspec Udp Post Serial Port Oauth 2.0 Wso2 Resharper Magento2 Windows Phone Couchbase String Macos Silverstripe C Servlets Google Calendar Api Entity Framework Core Ibm Cloud Ssrs 2008 Documentation Tabs Matrix EmptyTag Replace Hazelcast Pip Streaming Ruby On Rails 3.2 Encoding Layout Backbone.js Swagger Checkbox Mono Yii2 Xamarin.forms Erlang Statistics Phpmyadmin Project Management Pdf Graph Nest Url Rewriting Mips Opencl Doxygen Corda Antlr4 Robotframework Awk Typescript Google App Maker Jms Plot Unix Ant Scroll Rx Java Anaconda Stream Import Indexing Menu Google Cloud Firestore Pagination Ip Graphics Perforce Bots Model View Controller Nuget Jpa Windows Store Apps Jwt Orchardcms Ibm Midrange Triggers Jhipster Zend Framework2 Puppet .htaccess Raspberry Pi Domain Driven Design Stm32 Fortran Cocoa Gstreamer Jekyll Ipython Powerbi Latex Spring Navigation Web Applications Oracle Cuda Linq Html5 Canvas Azure Service Fabric Sharepoint Boost Bison Internationalization System Verilog Flash Knockout.js File Magento Compilation Jquery Ui Polymer Webgl Text Cloud Foundry Logstash Fullcalendar Xslt Air Mediawiki Azure Ad B2c Testng Flutter Selenium Asp Classic Ide Uitableview Pycharm Xpages Primefaces Scripting Spring Cloud Css Programming Languages Graphviz Glsl Certificate Google Visualization Wicket Llvm Drupal Asynchronous Properties Glassfish Omnet++ Configuration Performance Ssl F# Gdb Ignite Sql Server Discord.js Compiler Construction Object Breeze Amp Html Vector

Copyright © 2024. All Rights Reserved by - Fatal编程技术网