2023-10-27 12:36 | 出处: 芯片客
原文来源:硅基研究室
图片来源:由无界AI生成
10月17日,美国商务部工业和安全局(BIS)发布了针对芯片的出口禁令新规,更加严格的限制了中国购买重要的高端芯片。
限制中国进口高端芯片,无疑是为了钳制中国科技产业的发展。此前有研究表明,计算力指数平均每提高1点,数字经济和GDP将分别增长3.5‰和1.8‰。
然而外部限制的收紧,并没有造成中国算力产业的停滞,当前,中国算力产业迈过了万亿规模的大关。据中国信息通信研究院测算,2021年底,中国算力核心产业规模就已经超过了1.5万亿元,关联产业规模超过8万亿元。
万亿市场背后,是企业和政府协力抢滩AI时代。
一方面,从ChatGPT面世以来,国内各企业和研究院在短短半年多的时间内先后推出了超过130款大模型,其中领跑玩家已经开始着手于将大模型应用于特定场景,打造爆款应用。
另一方面,为了构筑算力底座,各地政府纷纷上马智算中心建设,铺设大数据时代的信息高速,推动产业创新升级,降低企业调用以大模型为代表的科技成果的成本。
外部芯片贸易逐渐降温,内部算力市场星火燎原,冰火两重天之间,不禁令人好奇:
中国算力产业的突围战到底攻到哪一城了?算力产业链如何破局?这个过程中又是哪些企业承担起了开路先锋的责任?
“若以大语言模型作为底座,同时处理我国14亿人的推理请求,所需的计算量超过目前我国数据中心总算力的3个数量级。”
今年7月的上海2023年世界人工智能大会(WAIC)上,清华大学电子工程系教授汪玉的言论,透露出了国内算力缺口的规模。
其实不光是大模型,5G、智慧城市、物联网等领域多样化应用的普及,同样带来了数据生成速度的不断加快。
IDC预计,2026年中国智能算力规模将达到1271EFLOPS,复合年均增长率为69.45%。而截至2022年年底,新华三集团联合中国信息通信研究院编制的《2023智能算力发展白皮书》显示,国内的算力总规模仅180EFLOPS。(注:FLOPS是指的是每秒浮点运算次数,1271EFLOPS意味着每秒进行1271百亿亿次运算。)
为了解决算力短缺的现状,国家先后出台了多部文件支持、引导各地加快建设算力基础设施。
其中,于10月份发布的《算力基础设施高质量发展行动计划》明确提出,算力规模将于2025年超过300EFLOPS,其中可用于大模型训练的智能算力占比需达到35%。
目前,政府出资的智算中心约有31个,对应规划中的总算力为10.13EFLOPS,总投资额近470亿元,与规划中的总智算算力规模105E、50个智算中心、单中心算力规模2.1EFLOPS仍有较大差距。
其实不光是国内,全世界都算力短缺。按照OpenAI数据估算,模型计算量增长速度与人工智能硬件算力增长速度之间,存在万倍差距。
算力短缺首先促成了GPU价格的飞涨。从去年12月开始,英伟达A100的价格在5个月内上涨近4成。今年新推出的H100更是有市无价。
由于大量订单涌入,目前市占率最高的GPU厂商英伟达的交货周期已经从一个月被延长到了三个月以上,甚至部分订单可能要到2024年才能交付。究其原因,主要是因为芯片供应链长且分散,无法迅速扩大产能。
由于美国禁令的限制,国内厂商扩大算力的计划相比谷歌、Meta、OpenAI更难实现。
在公布新一轮禁令之前,英伟达通过向中国市场供应降低了互联速度的「阉割版」旗舰计算芯片A800和H800来适应性限制规则。
今年8月曾有媒体报道,百度、腾讯、阿里巴巴和字节跳动等企业向英伟达订购了50亿美元的芯片。其中,已下单10亿美元的A800,预计将于今年交付。剩余的40亿美元订单,将于2024年交付。
而本次禁令公布后,由于把性能密度作为限制新标准的相关要求,A800和H800两款芯片,因为超标也将被全面禁售。
在英伟达向美国证券交易委员会(SEC)更新的8-K文件中,提到了美国政府提前了对英伟达旗下A100、A800、H100、H800和L40S等五种GPU芯片的禁令生效时间,从原本的11月底更正为立即生效。
上述变化意味着,BAT们已经下订的约10万个A800芯片,很可能无法顺利交付。
不过,国内的算力基建似乎并不会受到太大的影响。梳理目前已经正处于建设当中或建设完成的近30余所智算中心,其中百分之五十以上的芯片供应商为华为昇腾。
此前,科大讯飞董事长刘庆峰曾在发布会上表示,华为昇腾910B的性能已经可以对标A100。
整体来说,虽然美国对华限制进一步收紧,拖累了部分互联网大厂迭代大模型的进度,但国内的算力基建仍在稳步推进当中。
并且由于进口芯片的难度在可预期的未来里将不断上升,出于供应链安全的考量,国产芯片厂商有望因此迎来了新一波发展机遇。
虽然目前国际市场上唯二得到普遍认可的GPU厂商只有英伟达和AMD,但这并不意味着除了他们之外就没有别的选择。
相比于ASIC芯片,GPU的优势在于较强的通用能力,适用于各个研究领域。但细分到各个企业,其实普遍存在算力亢余,比如只需要使用GPU的大模型推理能力,不需要它的图形计算能力。
因此,许多厂商根据自身需求走上了自主研发的道路。
比如,阿里巴巴于今年五月发布了自研芯片含光800,据称是当时AI芯片里性能最强的,计算能力相当于10个CPU;百度自研的云端全功能AI芯片昆仑也已经迭代至3.0,将于2024年实现量产。
自研芯片的企业中,声量最大的无疑是前文提到过的华为。
近日,由华为和科大讯飞联手打造的星火一体机再次被推上了风口浪尖。
据公开信息,星火一体机基于鲲鹏CPU+昇腾GPU,采用华为存储和网络提供整机柜方案,FP16算力达2.5 PFLOPS。对比来看,在大模型训练中最为流行的英伟达DGX A100 8-GPU,可以输出5PFLOPS的FP16算力。
《智东西》曾报道,在盘古、讯飞星火等特定大模型场景中,昇腾910已经略超A100 80GB PCIe版本,实现了国产替代。但通用性尚且不足,其他模型如GPT-3,则需要深度优化后才能再华为平台上顺畅运行。
除此之外,本轮制裁中新被列入实体清单的摩尔线程、壁仞科技分别也有相应的GPU单卡产品,部分指标接近英伟达。
某种程度上,云厂商自研芯片是必由之路,除了美国制裁的影响外,自研芯片还能削弱对英伟达的过度依赖,增强企业的战略自主,同时领先竞争对手率先扩大算力规模。
一个证明是,即便是谷歌、OpenAI、苹果这样不受制裁限制的企业,也纷纷启动了自研芯片的计划。
国产芯片冒出星星之火,为了不再受制于单一供应商,部分服务器厂商也开始采取开放构架,兼容国产自主创新芯片。
比如目前占国内服务器市场份额最高的浪潮信息,就推出了开放计算构架,据称具有大算力、高互联和强扩展的特点。
基于此,浪潮信息发布了三代AI服务器产品,和10余家芯片伙伴实现多元AI计算产品落地,并推出AIStation平台,可高效调度30余款AI芯片。
客观来说,服务器厂商是算力产业链中相对弱势的一环,上游需要像英伟达这样具有垄断地位的国际巨头采购芯片,下游是G端和云厂商,对上对下都缺少议价能力。
所以我们能看到,虽然英伟达单季度的营收创下了历史新高,达135.1亿美元,同比增长101%,净利润更是同比暴涨843%,达61.88亿美元,但浪潮信息今年上半年的净利润仍处在亏损当中。
为了保障自己能活到万亿市场兑现,服务器厂商正在不遗余力地证明自身价值。具体来说,就是提供AI服务器集群的管理和部署方案,以确保服务器的高可用性、高性能和高效率。
与此同时,厂商们还争相推出行业报告、标准及指南,希望掌握话语权。
左手自研芯片,右手开放生态,国内算力产业链正处在前所未有的复杂局势当中,彼此之间既有竞争,也有合作。
从长期来看,算力突围中真正起决定性因素的仍是技术,其中涵盖生态、软硬件等内容,需要上下游玩家力出一孔,共克时艰。
但在真正走通芯片的独立自主之路前,更关键的是如何将每一分算力都用在刀刃上,某种程度上,这个问题的答案也提示了未来将在千亿市场中拔得头筹的玩家的轮廓。
在回答如何用好算力之前,需要先思考另一个问题:怎么用算力,才算把它用好了?
摆在国内算力产业面前的困境主要有三重:
第一,算力缺。高质量算力资源不足且较为分散,GPU增量受限制,存量严重不足,进一步支撑大模型训练存在一定难度,并且逐步成为新的「卡脖子」问题。
第二,算力贵。算力基础设施属于重资产和资本密集型行业,具有前期投入大、技术迭代快、建设门槛高等特点,其建设运营需要消耗巨大的时间成本和资金成本,远远超出了中小微企业的承受范围。
第三,算力需求具有多样化、碎片化的特点,算力资源供需错配的情况时有发生。
第一重困境正在解决当中,但并非一日之功,所以在眼下这个阶段,用好算力的实际意涵,应该是让算力不再那么贵,并且能够处理多样化需求。
那么,哪些企业的动作最具有想象力呢?
在为智算中心降耗增效方面,阿里的「绿化算力全产业链」概念值得期待。
众所周知,大模型训练的能耗成本非常昂高。但实际上,这些电能中仅20%被用于计算本身,剩余的部分都被用于维持服务器的正常运转。谷歌2023年环境报告从侧面印证了这一点。报告显示,2022年谷歌消耗了近52亿加仑的水用于给数据中心降温,相当于全球每天饮用水的1/4,能装满一个半西湖。
为了实现更大程度的总体节能减排效果,蚂蚁集团与中国信通院发布了《面向算力应用环节的计算绿色化白皮书》,其中提出了「端到端的绿色计算」的概念。
具体来说,端到端绿色计算就是从电力生产、算力生产(包括智算中心建设商、硬件厂商、云厂商),到算力应用全产业环节,均将运营期间的能耗成本在建设初期就纳入考量。
某种程度上,以过去能源用途的比例来计算,绿化产业链带来的成本降低,短期内可能比芯片技术突破的性价比更高,有利于中小企业数智化升级。
在提升算力调度水平方面,华为、阿里、腾讯、百度等企业均贡献了自己的力量,但其中企业基因最契合的,仍是华为。
眼下国内最核心的算力调度工程,是2021年《全国一体化大数据中心协同创新体系算力枢纽实施方案》中首次明确提出的「东数西算」工程,旨在构建国家算力网络体系的任务。
将东部的数据在西部进行存储和处理,在算力供给侧和配给侧都存在不小的挑战。
以常见的丢包问题为例。
当多台服务器向一台服务器同时发送大量报文时,会导致报文数量超过交换机的缓存承受能力而产生丢包,进而影响计算和存储的效率。
为了解决这个问题,华为将智能算法引入了数据中心网络交换机,实时采集的网络状态信息,如队列深度、带宽吞吐、流量模型等维度,通过智能无损算法动态设置理想的队列水线,最终在模拟训练后,实现了无丢包、高性能、低时延的平衡。
除此之外,华为还创新了分布式自适应路由、智能云图算法等技术,参与国家枢纽节点的方案设计与建设。
随着国产大模型在赋能千行百业的路上越走越实,「如何解决中国的算力困境」这一问题也将越来越重要。我们能看到,中国算力产业链已经产生了许多变化,比如互联网大厂加码自研芯片、以国产芯片构筑的算力底座、过去不被重视的软件生态萌芽……这些变化背后,是中国企业攻破技术壁垒的毅力和决心。
客观来说,从技术实力上,国内玩家尚且与世界一流厂商存在一定的距离,但不容忽视的是,即便是如日中天的英伟达,在AI时代来临之前,也曾常年在生死边缘徘徊。
黎明前的夜最黑,但太阳的光已经漫上地平线了。
参考资料:
AI服务器缺货真相调查:两天涨价30万,连“味精大王”都入场了|智东西
智算算力新基建叠加海外多模态升级,算力应用再迎催化 | 浙商证券
科技链主,华为生态 | 天风证券
训练需求井喷 “算力之渴”何解 | 网信吉林
美国芯片禁令变本加厉!英伟达、英特尔或受限 | 21世纪经济报