• 建智算基础设施须关注四个能力

  •     

    □川观智库研究员 黄爱林
      大模型时代对智算基础设施建设提出新要求。近日,中国信息通信研究院发布《智算基础设施发展研究报告(2024年)》(以下简称《报告》),认为大模型时代算力需求激增,智算基础设施面临质量和数量的提升,新建智算基础设施应关注算力有效性、集群稳定性、绿色低碳性和服务易用性。
      智算基础设施是专为人工智能算力服务的基础设施,是支撑人工智能算法模型训练与推理、数据处理的一系列硬件、软件及网络基础设施的组合。
      智算基础设施就是大模型时代的水电煤,随着AI技术不断深入应用,需要提升质量和数量。一方面,AI大模型算力需求激增,万卡级智算集群成为新一轮大模型竞赛的“入场券”,头部大厂发力超万卡级智算基建。另一方面,AI大模型推理应用的智算需求迎来爆发,模型推理应用成为智算基建的第二条增长曲线。云端推理算力需求量年复合增长率(113%)远高于云端训练算力复合增长率(78%),在主打满足模型训练应用的当前,不少主体开始布局推理智算基建。
      大模型时代,对智算基建的通用性、低成本、实时性等方面提出更高要求。《报告》认为,智算基础设施建设着重关注四个能力要素。一是算力有效性。主要是指智算集群算力的利用率,这决定了智算基础设施最终的有效算力供给能力。目前智算基础设施算力有效性普遍不高,算力利用率达到40%—50%已属优秀。二是集群稳定性。《报告》认为AI大模型训练周期长,故障中断恢复较慢且算力损失大,所以智算集群稳定性尤为重要,而网络的可用性又直接决定了智算基础设施算力的稳定性,提升网络稳定性及网络在故障场景中快速恢复的能力是当前网络亟待解决的问题。三是绿色低碳性。当前最为先进的智算基础设施单柜能耗已达50+kW,整个智算基础设施耗能和碳排放较大。建设绿色低碳的智算基础设施可推进部署高集成性智算液冷整机柜,同时构建智能化能耗管控平台,达到自动化按需制冷,以实现节能减排。四是服务易用性。智算基础设施能提供云化服务,让用户可以随时随地进行计算资源的访问和应用,还具有全栈式技术能力,能为用户提供从数据采集和处理、模型训练、模型部署和推理等全流程服务,此外普适普惠的智算服务也是智算基础设施一大重要趋势。

分享到微信朋友圈