当前位置:首页 > 技术文章

《中国金融》|姚前:加快行业公共智能算力平台建设

发布时间:2024-03-22 作者: 技术文章

  当前,在全国一体化数据要素体系布局下,“东数西算”工程建设为传统应用提供了高性能、大容量的算力资源。然而,随着以生成式人工智能(AIGC)为代表的AI大模型等新应用、新需求的崛起,新型智能算力需求迅速增加。本文通过一系列分析国内外大模型算力现状,探讨构建行业公共智能算力平台的必要性及建设路径。

  大模型离不开高性能的算力支持。在人工智能技术日新月异的背景下,算力已成为各国抢占新质生产力发展主导权的重要手段,全球主要国家和地区纷纷加快算力发展的策略布局。

  美国格外的重视传统算力和新兴技术发展,通过国家投资和激励计划,持续巩固其在半导体和前沿计算领域的全球领头羊。以英伟达的GPU芯片H100SXM版本为例,该芯片基于Hopper架构,具备更高的性能和更低的能耗,能够支持大规模的并行计算和高速的数据传输,成为全世界AI竞争的算力利器。在性能方面,其单精度浮点数FP32算力为60 TFLOPS,单精度浮点数TF32算力为1000TFLOPS,半精度浮点数BF16算力更是达到了2000TFLOPS。H100芯片内置了专门用于深度学习和人工智能的硬件加速器,在处理机器学习、神经网络和大规模数据分析等任务时表现出色。H100芯片还能支持多个芯片间的互联(NVLink),用于构建大规模GPU集群,帮助用户进行更大规模的并行计算,快速完成多项复杂任务的并行处理。当前抢购英伟达芯片的客户大致上可以分为三类:综合型云计算巨头(如微软、谷歌、亚马逊、甲骨文等,约占英伟达产能的49%)、大型科技公司(如特斯拉、Meta等,约占英伟达产能的27%)、其他云GPU服务商(约占英伟达产能的21%)。长久来看,由于先进芯片供不应求,算力的供需缺口将随着AIGC的应用爆发而持续扩大。

  从基础设施看,随全国一体化算力网络国家枢纽节点的部署和“东数西算”工程的推进,我国算力基础设施建设和应用保持加快速度进行发展。伴随算力经济的发展,算力技术和人工智能的融合创新让智能计算中心(即专门用于AI计算的中心)成为新基建热点。截至2023年3月,国内有超过30个城市正在建设或计划建设智能计算中心。

  从政策支持看,我国政府已经出台了一系列政策,支持大模型算力基础设施的建设和发展。2023年10月,工业与信息化部、中央网信办等六部门联合印发《算力基础设施高水平质量的发展行动计划》,确定了到2025年的主要发展目标,提出完善算力综合供给体系、提升算力高效运载能力、强化存力高效灵活保障、深化算力赋能行业应用、促进绿色低碳算力发展、加强安全保障能力建设六个方面的重点任务,着力推动算力基础设施高水平质量的发展。此外,地方政府也积极推动大模型算力基础设施的建设,如北京、上海等地都建立了AI计算中心,旨在提供算力支持。

  从芯片供给看,国内已有不少GPU芯片及AI芯片厂商,如华为、海光、壁仞、沐曦、寒武纪、天数等。在大模型特定应用场景方面,国产芯片的推理速度已经追平部分国外先进算力,也能用于微调。初步测试根据结果得出,已完成国产算力硬件适配的大模型产品基本能够很好的满足可用性要求,但是在大规模集群部署与超大参数模型预训练方面,目前还没有相关的公开数据。

  一是现有算力基础设施和大模型算力需求不完全匹配。根据所处理的业务特性不同,算力一般可分为通用算力、超算算力和智能算力等类型。“东数西算”、超算中心等一批算力基础设施的落地应用,有助于解决我国东西部算力资源供需不均衡等问题。不过应看到,我国现有算力基础设施以处理高性能、大容量任务为主,规模虽然较大,但人工智能算力在整体算力中的占比并不高,不能完全满足大模型特定的算力需求。

  二是自主可控算力与先进算力存在差距。近年来,美国持续加大对本土产业链供应链的培育和保护力度,限制关键材料、制造设备、设计软件和计算芯片对华出口。鉴于目前国产芯片用于大规模预训练还存在一定差距,先进芯片进口存在的“卡脖子”问题无疑将制约我国大模型的顺利发展,自主可控之路任重道远。若要赶超国外先进算力,我国需突破国际供应链的制约,并与统一计算架构(CUDA)等生态兼容并蓄,在底层硬件、操作系统、深度学习平台、应用软件等方面整体适配。

  三是算力供需不平衡的挑战持续加大。大模型的快速崛起助推训练语料和算力需求爆炸性增长,算力基础设施需从芯片到架构再到系统做全方位升级。更好地平衡自主可控算力和先进算力,发挥集约化效应,探索分布式异构算力的统筹与调度,已成为解决现有困境的必由之路。

  探索行业大模型应用是大势所趋,但如果行业机构各自为战,不符合大数据、大算力、大模型的内在要求,将会面临投不起、用不起、投入产出比低等问题。因此,有必要以共建共享方式规划建设行业公共智能算力基础设施,避免重复建设。

  以证券行业为例,机构普遍表示大模型在智能问答、财报分析、研报解读、舆情监测、智能预警、量化投研、智能投顾等业务场景能带来全面的工作质效提升。但从目前的行业实践看,由于大模型的落地应用面临软硬件投入巨大、数据安全难以把控、技术人才储备不足等问题,大部分机构都是浅尝辄止。尤其是算力层面,训练大模型所需的算力成本、数据资源、人力开销巨大,如果不加以统筹,则会造成重复投入和无序竞争。

  考虑到“训练追求性价比,推理追求时效性”,行业公共智能算力基础设施的建设投入应侧重于推理、微调层面,而预训练所需大规模算力投入可依托国家算力基础设施的布局,分层分级,统筹规划,按需推进,避免一哄而上。

  算力需求评估主要是确定行业垂直大模型在实际训练和部署中需要用的算力资源类型和大小,对成本和训练时间进行预估。最重要的包含算力评估、存储评估、网络评估、机柜功率评估四个部分。

  算力评估。算力的评估通常与模型的参数量级、标注后的数据集大小相关。结合训练所采用的芯片、所支持计算网络,以及所选用的精调算法,可以评估单次训练时长。例如,按照70B的参数量、500P的算力规模、标注后的数据集1T进行估算,大概需要2~3个月训练时间。

  存储评估。根据训练数据量的大小和大模型部署所需空间做评估,行业公共智能算力平台可依托行业云等公共基础设施选择灵活的存储方案。

  网络评估。大模型网络评估主要包含节点内部集群网络评估以及节点之间网络评估。节点内部集群主要处理计算任务;节点之间主要处理分布式调度任务,对网络带宽要求比较高,建议组建单独的IB网络进行互连,通信带宽一般在200G以上。

  机柜功率评估。大模型服务器对于机柜功率要求比较高,假设8张H100显卡组成一台服务器,每台服务器功率预计12KW,每台服务器高度为4U,一个机柜建议部署四台H100服务器,功率为48KW(同理,四台A100服务器功率为24KW)。因此,按照256张显卡估算,8个机柜总功率约为384KW(H100显卡)、192KW(A100显卡)。

  建设统一算力调度和资源管理平台开展大模型训练与推理,能支持跨中心跨区域资源协同调度,整合海量多类异构计算资源、多级多类网络设备,实现高性能算力、大数据处理、深度学习的有机融合。

  基于行业公共智能算力平台,支持跨区域调度外部算力服务,并对多种AI算力资源统一纳管,形成统一资源池,资源跨云灵活分配。安全方面,通过数据加密、访问控制、审计日志等手段,确保数据在存储、传输和使用的过程中的安全;利用防火墙、入侵检测、漏洞扫描等技术,保障网络边界安全(见图1)。

  进入运营阶段后,行业公共智能算力平台可采用由一家机构统一代理运营,各方共同探索统一度量、统一计费、统一交易、统一结算的标准体系和算网协同运营机制,打造供给高效化、调度机制化、运营智能化的算力服务新生态。

  一方面,基于行业公共智能算力平台和行业公开语料数据预训练出的垂直大模型,高效便捷,成本低廉,行业机构无需重复训练即可直接用“大而强”的行业垂直大模型;另一方面,行业机构能结合私有语料数据(私有数据不出域),通过微调的方式形成自身“小而美”特色模型。两种模型交互共生,形成不断迭代进化的良好生态,共同提升行业数字化、智能化水平。■

关注我们
欢迎您关注我们的微信公众号了解更多信息:
欢迎您关注我们的微信公众号
了解更多信息