如何搭建TensorFlow的分布式运行环境进行学习?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1390个文字,预计阅读时间需要6分钟。
在庞大的数据集上进行深度学习训练时,往往需要大量的运行资源,并且耗费大量时间才能完成训练。以下是简化的开头内容:
1. 分布式TensorFlow的角色与原理:在分布式TensorFlow中,角色分配至关重要,例如……
当我们在大型的数据集上面进行深度学习的训练时,往往需要大量的运行资源,而且还要花费大量时间才能完成训练。
1.分布式TensorFlow的角色与原理
在分布式的TensorFlow中的角色分配如下:
PS:作为分布式训练的服务端,等待各个终端(supervisors)来连接。
worker:在TensorFlow的代码注释中被称为终端(supervisors),作为分布式训练的计算资源终端。
chief supervisors:在众多的运算终端中必须选择一个作为主要的运算终端。该终端在运算终端中最先启动,它的功能是合并各个终端运算后的学习参数,将其保存或者载入。
每个具体的网络标识都是唯一的,即分布在不同IP的机器上(或者同一个机器的不同端口)。在实际的运行中,各个角色的网络构建部分代码必须100%的相同。三者的分工如下:
服务端作为一个多方协调者,等待各个运算终端来连接。
chief supervisors会在启动时同一管理全局的学习参数,进行初始化或者从模型载入。
其他的运算终端只是负责得到其对应的任务并进行计算,并不会保存检查点,用于TensorBoard可视化中的summary日志等任何参数信息。
在整个过程都是通过RPC协议来进行通信的。
本文共计1390个文字,预计阅读时间需要6分钟。
在庞大的数据集上进行深度学习训练时,往往需要大量的运行资源,并且耗费大量时间才能完成训练。以下是简化的开头内容:
1. 分布式TensorFlow的角色与原理:在分布式TensorFlow中,角色分配至关重要,例如……
当我们在大型的数据集上面进行深度学习的训练时,往往需要大量的运行资源,而且还要花费大量时间才能完成训练。
1.分布式TensorFlow的角色与原理
在分布式的TensorFlow中的角色分配如下:
PS:作为分布式训练的服务端,等待各个终端(supervisors)来连接。
worker:在TensorFlow的代码注释中被称为终端(supervisors),作为分布式训练的计算资源终端。
chief supervisors:在众多的运算终端中必须选择一个作为主要的运算终端。该终端在运算终端中最先启动,它的功能是合并各个终端运算后的学习参数,将其保存或者载入。
每个具体的网络标识都是唯一的,即分布在不同IP的机器上(或者同一个机器的不同端口)。在实际的运行中,各个角色的网络构建部分代码必须100%的相同。三者的分工如下:
服务端作为一个多方协调者,等待各个运算终端来连接。
chief supervisors会在启动时同一管理全局的学习参数,进行初始化或者从模型载入。
其他的运算终端只是负责得到其对应的任务并进行计算,并不会保存检查点,用于TensorBoard可视化中的summary日志等任何参数信息。
在整个过程都是通过RPC协议来进行通信的。

