2023-10-20 10:54 | 出处: Model进化论
原文来源:脑极体
图片来源:由无界 AI生成
今年以来,大模型的热度,让云计算产业为之沸腾。要举出一个最有力的证明,应该是:MaaS(Model as Service)这种全新模式的出现,一座座“模型工厂”,已经建起来了。
所谓MaaS,模型即服务,指的是用户可以直接通过API调用基础大模型,为不同的业务场景,来构建、训练和部署专属模型。云平台会提供从数据、模型到应用服务的全周期管理和工具。
目前,微软云Azure、阿里云、华为云、腾讯云、百度云、京东云等云计算大厂,都已经推出了MaaS服务。
云厂商做MaaS究竟是为什么?一个主要考量是,作为IT基础设施服务商,也就是IaaS模式,长期面临价格战的市场竞争,而通过PaaS和SaaS为政企提供ToB的数字化服务,又一直没有完成行之有效的价值回收。
这种情况下,云厂商急需要找到一种全新的、高价值的商业模式,大模型就带来了这个可能。
可是,方兴未艾的MaaS,真的能帮云厂商“翻身”吗?
先要声明一下,MaaS模式的出现,以及大量“模型工厂”的矗立,是非常有必要,也是有极大商业想象空间的。
你可能会问了,连OpenAI的模型访问量都在下降,真的有那么多大模型的训练需求,要用到如此多的“模型工厂”和MaaS服务吗?
我们的判断是,大模型的产业化之路才刚刚开始,而产业化会催生大量细分的、不同参数、不同规格、不同场景的模型需求,必须提升模型训练部署的效率,推动模型生产走向工业化。不同模型是各式各样的钢材,用来盖起一个个AI应用,那么“模型工厂”就是“炼钢厂”,是一定要建的。
MaaS模式的必然性,有三个支点:
第一,需求。通用性的基础大模型,已经被快速填满了。剩下很多企业,更希望调用基础模型的能力来改造自己的业务,或者开发新的AI应用,而这些都需要更懂行业知识、技能更精准、更贴合场景的垂直模型。有数据显示,行业智能化渗透率将从2021年的7%增长到2026年的30%,更多行业的核心业务系统会被大模型能力渗透。所以,对于大模型的生产需求,还很旺盛。
第二,供给。目前,大模型的生产力依然有限,首先是计算资源稀缺,大模型的训练和推理对计算资源和存储资源有很高的需求,很多企业和机构“无卡可用”,导致无法进行大模型的训练和推理。
同时,训练专有大模型需要大量的高质量数据,数据清洗、预处理等一系列复杂工程,大大影响了开发效率,训练周期长,无法快速满足业务上线的要求。
此外,训好的大模型要进行部署和应用,需要考虑到计算资源、业务场景、不同参数规格、网络带宽、安全合规等方方面面的问题,很多企业和机构缺乏相关的技术和经验,前期投入的心血很容易就打了水漂。
要提高大模型的供给数量和质量,MaaS模式的“模型工厂”一定要建。
第三,催化剂。云厂商有充足的动力,催化MaaS模式的成熟,并推向市场。IaaS基础设施即服务,造就了公有云的崛起,但IaaS模式的前期基础设施投入大,营收能力低下,积弊已久。PaaS需要云厂商投入大量的人力、回报周期长,SaaS的价值不足,客单价低,还需要大量定制化和运维服务。这时候,通过MaaS这一新模式,向用户全面输送模型能力,是一种高价值、强确定性的选择。
一方面,大模型庞大的数据规模,会带来更多的计算资源需求和用云量。另外,行业企业用户的定制化需求,可以按项目制付费。大量AI应用程序调用API,已经产生了按token付费、订阅付费、商业版等多种商业模式。
如此多的商业化前景,就如同一针针强心剂,促使云厂商们加速布局MaaS。
让我们回归到现实,来看一看国产云厂商,是如何做MaaS这门生意的。
今天的整体形式是,国产云厂商的MaaS基本都走向了“前店后厂”模式。
怎么理解呢?
云厂商扮演“厂”的角色,是利用基础设施、行业服务能力等优势,和全流程开发工具与套件,满足客户对模型预训练、模型精调、模型部署、智能应用开发等多样化需求,保障客户的大模型能够顺利交付。
以微软云的Azure OpenAI 服务为例,就支持开发者调用OpenAI GPT-4、GPT-3、Codex 和 DALL-E等模型的API,来构建、微调模型,为应用提供支持。这就是“工厂”模式,Azure主要提供一些企业级功能,如安全性、合规性和区域可用性等。
而纵观国内云厂商,会同时强调自己“店”的能力。
云厂商扮演“店”的角色,即还会自己参与开发行业大模型及AI原生应用,把控模型和应用的质量,提供精选服务,进行市场推广和销售。
比如今年6月份,腾讯云在行业大模型及智能应用技术峰会上推出的MaaS一站式服务,就是依托腾讯云TI平台打造行业大模型精选商店,其中包含了腾讯企点、腾讯会议、腾讯云AI代码助手等多款头部SaaS产品。
9月华为全联接大会2023,华为云的MaaS服务,则采用了5个基础大模型+N个行业大模型+X个场景模型的三层解耦架构,从L0层的基础模型,到适配行业特征的L1层,以及开箱即用的AI应用L2层,并上线了昇腾AI云服务百模千态专区。
而10月刚刚举办的百度世界2023,百度智能云的MaaS服务平台千帆,则推出了千帆AI原生应用商店,成为大模型商业机会的汇集地,为商家提供品牌曝光、流量支持和销售资源等支持。首批精选应用包含了百度内部的曦灵数字人平台、百度智能云一念智能创作平台等。
可以看到,智能时代,垂直模型和AI应用一定会百花齐放,一定离不开模型工厂。但整个阶段才刚刚走出了第一步,目前上游的底座模型并不少,能力也都不差,但如何做出有说服力的垂直模型和应用,难度还是很高的。
和数字化及SaaS市场较为成熟的欧美市场不同,这一轮国内智能化的主力军是传统行业及企业。很多模型和应用的潜在购买者,对大模型的能力并不清楚,不知道什么模型适合自己的业务,也不知道如何找到需要的模型,更担心自己的定制模型单子太小不被重视……
而ISV服务商和开发者,担心投入时间精力一整套流程走下来,产品已经落后了,或者找不到客户进行商业变现。
这种情况下,云厂商仅仅做幕后“工厂”是远远不够的,需要建立一套更完善的模型供应链机制。“前店后厂”就成了国产MaaS的主流选择,“工厂”负责生产,“商店”负责推介。
而“前店后厂”模式,则大大增加了MaaS的难度。
“前店后厂”模式下,云厂商既是生产者,也是销售员;既是ToB服务生,也是ToC开发者。多重身份,不仅让MaaS的竞争要素和难度增多,而且也带来了云厂商与行业伙伴、客户、开发者的种种冲突。具体来说有以下几点:
想赚钱,只靠基础模型还不够。
只卷基础模型,像Azure OpenAI 服务那样,以OpenAI GPT-4、GPT-3、Codex 和 DALL-E几个精品为主,是不足以满足企业用户、行业伙伴和开发者的需求的。对于国产MaaS服务商来说,还需要在重点领域,比如金融、教育、政务、工业等高要求、高频次的行业类别上,也做出成熟的垂直大模型,来满足大模型落地行业的需求。
比如腾讯云的行业大模型精选商店,既提供混元大模型的调用服务,还上架了金融、文旅、零售等20多个领域的行业大模型。华为云、百度云等也不例外,都在“通识教育”的基础上,对大模型进行“专业课教学”,减少大模型走向行业的门槛。
这就形成了第一个矛盾,云厂商打造行业大模型,需要有大量人才、时间、资源与行业合作,每个重点行业来一遍,投入不菲,周期不短,增加了MaaS的盈利难度。但是,如果云厂商不打造行业大模型,从基础模型到AI应用之间的缝隙实在太大,ISV服务商、集成商和开发者不敢走、不会走,大量需求根本无法满足,也会限制MaaS的增长。
第二个矛盾,是算力的充沛与成本。
大模型训练,算力是基础。各个MaaS都将自身的算力集群规模和性能,作为首要卖点之一。
我们要意识到,算力充沛对云厂商来说,意味着极高的计算资源成本、能耗、运维成本等。大模型训练,需要动辄千卡、万卡的GPU集群,如果一台GPU服务器过热宕机,整个集群都要停下来,训练任务要重启,这对云服务商的硬件性能、运维能力等要求非常高,往往只有几大头部云厂商能支持。
为了提升推理效率、降低成本,云厂商们也在技术层面展开竞速。比如为了实现AI算力的极致性能,华为云在基础设施之上进行了针对AI云服务的技术优化;腾讯云打造了面向模型训练的新一代HCC高性能计算集群;百度一直通过各种技术优化推理成本,文心3.5版本推理成本较5月刚发布时,下降到原来的几十分之一。一味堆卡不是长久之计,降本增效才是赛点。
除此之外,基础设施层面,云厂商还面临AI算力国产化、绿色低碳等现实考验。其中,拥有自研芯片的华为云昇腾AI、昆仑芯片的百度智能云,能提供更稳定的底层算力,后续应该会有更多机会。而巨大的计算资源,需要用户规模和使用量级来支撑,随着几大基础模型的优胜劣汰,届时,谁的成本更高、模型使用量更低,就有可能出现资源闲置,届时该如何回收成本,也是一个考验云厂商智慧的问题。
第三个矛盾,则是MaaS的教具与教学。
作为“模型工厂”,MaaS平台需要提供大模型的全套全流程开发工具与套件,已经成为行业共识了。
目前,头部云平台的准备也非常充分。华为云提供了盘古大模型工程化套件,覆盖了数据工程、模型开发和应用开发三大环节。据称,完成一个千亿行业模型端到端的开发,从过去需要5个月缩短到现在1个月,整体速度提升5倍。百度智能云的千帆平台,提供预制数据集、应用范式,以及其他帮助企业应用大模型的工具。腾讯云的TI平台,同样包括数据标注、训练、评估、测试和部署等全套工具。
如此丰富的工具和平台,相当于把“教具”交到了行业客户和伙伴手中,是不是就能实现大模型的工业化生产了呢?
显然还不行。要训练好一个垂直大模型,并不是一件简单的事,有些行业企业的数字化程度高、人才队伍强,能第一时间用好MaaS平台和工具,比如金蝶、中软国际等。
但是,更多行业伙伴和企业客户,就算有了这些工具和套件,没有技术专家深入指导,没有产品经理、项目经理、运营、程序员等手把手教学,很难搞定定制化需求。
腾讯云的工作人员曾分享过一个案例,在携手中央电视台打造“央视人工智能开放平台”时,面临数据量庞大、形态复杂的问题,导致传统的数据标签体系都无法达标。最后,腾讯云重新构建了一套传媒专属的数据标签体系,同时也研发了创新的“标签权重引擎”,让数据标签颗粒度更细,并按照核心度排序。在这套数据标签体系支撑下,视频编辑用自然语言就能实现跨模态检索。
显然,MaaS模式也需要云厂商具备ToB服务能力,这是一个慢活、苦活、累活。指望靠MaaS工具“躺着赚钱”,至少目前阶段,是肯定没希望的。
“前店后厂”的MaaS模式,还有一个隐含的矛盾,就是云厂商也做应用,如何避免与行业伙伴和开发者争利的情况。
MaaS平台上需要大量AI应用程序,云厂商不可能全部自己开发,必须像Appstore一样,引入开发者机制,鼓励软件企业或个人开发者,来一同基于云平台创造AI应用程序。
但是,基于通用大模型能做出什么样的AI应用,还有很大的空白,所以云厂商也会自己“打样”,上架一些AI应用。
比如百度智能云的千帆AI原生应用商店,就上线了百度曦灵数字人直播平台、comate代码助手这类百度自己出品的应用,也有来自合作伙伴WPS365、梧桐招聘助手等应用,并上线了应用精选推荐。
Appstore曾被Spotify等应用开发者质疑,既当裁判员,又当运动员。那么,“前店后厂”模式下的MaaS平台,也在做AI应用,就必须打消开发者的顾虑,只做“抛砖引玉”式的创意型/代表性的应用,做好业务区隔,联合售卖,帮助开发者打通商业链路,获得经济收益。
和移动互联网时代开发ios或Android一样,开发生态的繁荣,意味着内容和体验足够丰富,满足用户的诉求,用户规模又会吸引更多开发者前来掘金,形成“马太效应”,让应用商店持续繁荣,用户和开发者都很难轻易切换到其他平台。
基于大模型的AI原生应用,也是如此。据百度智能云的工作人员透露,百度智能云为什么成为业内第一个发布AI应用商店,就是因为大家都有从众的习惯,目前能做的,就是快,客户的留存率也会更高一些。
MaaS模式,云厂商比以往更加需要生态伙伴。百度智能云的千帆AI原生应用商店、腾讯云行业大模型生态计划、华为云多样化的伙伴赋能,都说明,不卷应用卷生态,尽量聚拢开发者,是MaaS成功的前提。
可以看到,围绕MaaS模式的竞争,前程远大,但道阻且长。一旦卷起来,各项成本都会直线上升,形成新的营收压力。而如果不卷,就会眼睁睁错过大模型及AI原生应用的机会,彻底没了从基础设施服务商“翻身”的希望。
MaaS之于云厂商,并不是一个进退两难的选择困境,而是没有后路的背水一战。关关难过关关过,终有守得云开见月明的一天。