科普:分布式深度学习系统

推荐语:分布式深度学习系统解决了AI的计算力问题,使得基于大数据学习大模型成为可能。构建一个大规模的分布式机器学习系统,初看很简单,大致可认为是分布式系统+机器学习算法,但真正做起来,定会发现这样那样的问题。如何结合机器学习的计算特点,设计更好的并行计算模式甚至更好的优化解法,是分布式深度学习系统的关键所在。这里推荐张昊(CMU计算机博士,现供职于Petuum)的两篇科普文章。另外,作者作为学界的有为青年,认识一众大牛,中间对这些人的评价也颇有几分乐趣。

科普:分布式深度学习系统(一) 主要梳理了一下分布式深度学习系统面临的问题以及相关进展。

科普:分布式深度学习系统(二) 详细介绍把深度学习从CPU移植到GPU上后会碰到的几个明显问题,以及一些解决方法。

 

Report Story