自 ChatGPT 发布以来,科技界掀起了一场大模型的竞争热潮。数据成为新生产要素,算力成为新基础能源,大模型则成为新生产工具,各行各业从“+A”向“AI+”的转变已势不可挡。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,超万卡集群成为这一轮大模型基建军备竞赛的标配。
超万卡集群将有助于压缩大模型训练时间,实现模型能力的快速迭代,并及时对市场趋势作出应对。然而,如何在超万卡集群中实现高效的训练,并长期保持训练过程的稳定性,是将大模型训练扩展到数万张 GPU 卡上所要面临的双重挑战。超万卡集群运行过程中涉及到集群有效算力发挥、超大规模互联网络稳定性保障、故障的快速排查和修复等关键问题,目前都是业内关注的焦点。
中国移动全面拥抱“AI+”时代,提出超万卡集群的核心设计原则,并在计算、存储、网络、平台及机房配套等多个领域提出关键问题和解决方案。中国移动希望与行业一起应对超万卡集群所带来的前所未有的挑战,共同助推国内智算基础设施迈向新的台阶。