中国移动：面向超万卡集群的新型智算技术白皮书（2024年）

2024年04月29日
50 金币

自 ChatGPT 发布以来，科技界掀起了一场大模型的竞争热潮。数据成为新生产要素，算力成为新基础能源，大模型则成为新生产工具，各行各业从“+A”向“AI+”的转变已势不可挡。随着模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，超万卡集群成为这一轮大模型基建军备竞赛的标配。

超万卡集群将有助于压缩大模型训练时间，实现模型能力的快速迭代，并及时对市场趋势作出应对。然而，如何在超万卡集群中实现高效的训练，并长期保持训练过程的稳定性，是将大模型训练扩展到数万张 GPU 卡上所要面临的双重挑战。超万卡集群运行过程中涉及到集群有效算力发挥、超大规模互联网络稳定性保障、故障的快速排查和修复等关键问题，目前都是业内关注的焦点。

中国移动全面拥抱“AI+”时代，提出超万卡集群的核心设计原则，并在计算、存储、网络、平台及机房配套等多个领域提出关键问题和解决方案。中国移动希望与行业一起应对超万卡集群所带来的前所未有的挑战，共同助推国内智算基础设施迈向新的台阶。