如何通过梯度量化与编码实现高效通信的QSGD算法在论文考古中的应用?
- 内容介绍
- 文章标签
- 相关推荐
本文共计614个文字,预计阅读时间需要3分钟。
本文以梯度差异为中间变量,研究了parallel SGD中参数化与收敛性的关系;在重新审视随机取整的重要性基础上,将差异构造成为新的研究热点D. Alistarh, D. Grubic, J. Li, R. Tomioka, and ...
本文以梯度方差为中间变量,研究得到了parallel SGD中量化比特数与收敛性的关系;在重申随机取整重要性的基础上,将方差打造成了新的研究热点D. Alistarh, D. Grubic, J. Li, R. Tomioka, and M. Vojnovic, “QSGD: Communication-Efficient SGD via Gradient Quantization and Encoding,” Advances in Neural Information Processing Systems, vol. 30, 2017, Accessed: Jul. 31, 2021. [Online]. Available: proceedings.neurips.cc/paper/2017/hash/6c340f25839e6acdc73414517203f5f0-Abstract.html
作为量化SGD系列三部曲的第二篇,本篇文章是从单机学习到联邦学习的一个重要过渡,在前人的基础上重点进行了理论分析的完善,成为了量化领域绕不开的经典文献。
简介相较于上一篇IBM的文章,本文考虑用梯度量化来改善并行SGD计算中的通信传输问题,并重点研究了通信带宽和收敛时间的关系(precision-variance trade-off)。具体而言,根据information-theoretic lower bounds,当调整每次迭代中传输的比特数时,梯度方差会发生改变,从而进行收敛性分析。实验结果表明在用ResNet-152训练ImageNet时能带来1.8倍的速率提升。
本文共计614个文字,预计阅读时间需要3分钟。
本文以梯度差异为中间变量,研究了parallel SGD中参数化与收敛性的关系;在重新审视随机取整的重要性基础上,将差异构造成为新的研究热点D. Alistarh, D. Grubic, J. Li, R. Tomioka, and ...
本文以梯度方差为中间变量,研究得到了parallel SGD中量化比特数与收敛性的关系;在重申随机取整重要性的基础上,将方差打造成了新的研究热点D. Alistarh, D. Grubic, J. Li, R. Tomioka, and M. Vojnovic, “QSGD: Communication-Efficient SGD via Gradient Quantization and Encoding,” Advances in Neural Information Processing Systems, vol. 30, 2017, Accessed: Jul. 31, 2021. [Online]. Available: proceedings.neurips.cc/paper/2017/hash/6c340f25839e6acdc73414517203f5f0-Abstract.html
作为量化SGD系列三部曲的第二篇,本篇文章是从单机学习到联邦学习的一个重要过渡,在前人的基础上重点进行了理论分析的完善,成为了量化领域绕不开的经典文献。
简介相较于上一篇IBM的文章,本文考虑用梯度量化来改善并行SGD计算中的通信传输问题,并重点研究了通信带宽和收敛时间的关系(precision-variance trade-off)。具体而言,根据information-theoretic lower bounds,当调整每次迭代中传输的比特数时,梯度方差会发生改变,从而进行收敛性分析。实验结果表明在用ResNet-152训练ImageNet时能带来1.8倍的速率提升。

