2023-08-29 10:49 | 出处: AIcore
来源:城市战争
作者:孙不熟团队
致力于“换道超车”的中国经济,AI是一个无法回避、不容丢失的赛道。在这样一个新赛道,需要有先行者带路。
从经济史来看,中心城市是历次产业革命的发起者与引领者。
正如北京孕育了中国的互联网产业,广深引领了中国消费电子的爆发,杭州推动了中国电子商务的普及,上海开启了中国半导体发展的序幕。
而今,随着AI时代的临近,谁又会成最醒目的引领者呢?
我最看好的无疑是北京,而且是独占鳌头的领先地位。
首先是人才优势,北京是中国学历最高的城市,汇聚全国最顶级的大学,共有90多所知名高校、1000多家科研院所、120个国家重点实验室。
数据还显示,全国60%的人工智能人才聚集在北京。
人工智能是典型的知识经济,人才是第一生产要素,背靠如此巨大的人才池,这是北京建设“中国AI第一城”的最大底气。
其次是产业链优势。
根据近日发布的《北京人工智能产业发展白皮书》,全国4000多家人工智能企业中,北京一个城市占了1070家,占比26%;全国获得风险投资的人工智能公司合计1237家,北京占比35%。
全国范围内,获批建设新一代人工智能开放创新平台的企业一共有24家,其中有10家在北京;人工智能专利授权数全球前100名的机构,其中又有30家,总部也在北京。
可见,中国AI产业,几乎半壁在北京。
在此背景下,有志于在AI时代分一杯羹的科技大厂们,纷纷把精锐力量押注在北京。
仅在大模型领域,就有百度文心、京东言犀、阿里通义、360智脑、网易玉言等一连串星光熠熠的大厂,扎堆在北京布局。
北京的大模型有多厉害?
根据科技部发布的《中国人工智能大模型地图研究报告》,目前中国10亿参数规模以上的大模型已发布79个,主要集中在北京、广东两地,其中北京独占38个。
当然,搞AI,仅靠卷大模型是不够的
对AI来说,大模型像是冰山浮在水面上的部分,很直观,很可感。但其实,冰山在水下的部分可能更加重要。
AI的本质,是算法、算力和数据。大模型其实是一种算法,没有好的数据、没有强大的算力,就不可能支撑优秀的算法。而随着越来越多对AI的攻击,乃至新起的AI诈骗,人们也日益意识到,安全能力也成为AI应用必须解决的问题。
归根结底,大模型本身并不是AI算法发展的唯一路径,只是随着ChatGPT的火爆,通用大模型突然出现重大进展,才成为AI算法的新主流。但在通用大模型之外,那些支撑AI的基础能力,对AI产业的发展同样关键。
现在,社会对“算力”的认知已经很充分,无论从硬件层面的半导体芯片,还是从系统层面的云计算,都在AI兴起之后受到了更大程度的社会关注。
外界比较容易忽略的是数据和安全,但其实,这两项能力同样很关键。
AI本质上是由数据驱动的,大模型可以说是数据“喂养”出来的。没有优质数据,就不可能有好用的大模型。例如,ChatGPT在中文能力上就有着明显的短板,一个重要原因就是缺少充足的中文数据。
无论什么AI,最底层的东西都是数据,而对数据的存储、搜索、增减,所有这些操作,都离不开数据库。
现实社会的每个角落、每时每刻,都会产生海量数据,小到购物车里的选品与消费记录,大到金融机构的存款记录与资金运转,都需要一个强大、可靠的数据库来支撑。
如果数据库掉链子,后果不堪设想。但是这个领域,中国长期是被别人“卡脖子”的。
如果把操作系统比喻成人类大脑的“控制系统”,那数据库就相当于人类大脑中的记忆系统,如果没有“记忆系统”,人类文明将不复存在。
在PC时代,全世界最好的数据库系统曾经是美国的甲骨文(Oracle)。这家企业曾在中国的市场占用率极高,相当长的一段时间里,包括各大金融机构使用的数据库,都来自Oracle。
彼时,大型企业的IT系统标配叫“IOE”,指的就是是IBM生产的小型机,以及EMC生产的存储硬件。
长期以来,“IOE”就像是悬挂在中国企业尤其是金融行业头上的一把达摩克利斯之剑,让人忧心忡忡。
尤其是在全球贸易摩擦的新时期,“科技脱钩”的情况时有发生,国内企业对数据库自主可控的要求越来越高。
这些年来,大量中国企业都在致力于解决国产数据库卡脖子的问题。而北京,正是数据库产业的重镇,在实现数据库国产替代的过程中发挥了关键作用。
2020年,蚂蚁集团旗下的国产分布式数据库OceanBase总部落地北京,正是北京数据库产业发展的一个缩影。
OceanBase有多厉害?2019年,在被誉为“数据库世界杯”的TPC-C基准测试中,OceanBase便打破了由美国企业Oracle保持了9年之久的世界记录,成为首个登顶该榜单的中国数据库产品。
OceanBase的诞生,最初是源于淘宝和支付宝的需求。彼时,随着阿里电商业务的发展,传统的IOE系统,越来越难以满足阿里超大规模的数据处理需求。在此背景下,阿里率先喊出“去IOE”,开始发展云计算,建设自研的分布式数据库。
从2010年开始,阿里和蚂蚁的数据库需求开始逐渐迁移到自研数据库OceanBase上。最终,OceanBase完全替代了Oracle的数据库,并经受住了“双11”等最严苛场景的检验。
2019年,OceanBase打破数据库基准性能测试的世界记录,成绩是前世界记录保持者、老牌巨头甲骨文(Oracle)的两倍。
从2017年开始,OceanBase对外部客户开放。基于它在高效能和安全性等方面的良好表现,OceanBase赢得了大量客户的青睐。
OceanBase特别的吸引力还在于:它是100%自主研发的企业级原生分布式数据库,不基于任何开源数据库软件进行二次包装和研发,真正做到100%自主研发,对每一行代码可控,这一点对金融机构的吸引力巨大。
数据显示,全国TOP200的头部金融机构中,有1/4都将OceanBase作为核心系统升级的首选。
在金融机构之外,OceanBase还深入到各行各业,为海底捞、理想等企业提供数据库服务。目前,来自非金融类客户的营收占比已达到OceanBase总营收的35%。在金融级场景里形成的数据库能力,正在加速应用到更多领域。
可以说,因为OceanBase等国产数据库的努力,中国不仅解决了数据库被“卡脖子”的问题,还开拓出数据库等数据技术服务实体经济的崭新空间。
在这一进程中,北京丰富的创新资源、丰厚的人才储备,无疑在前沿科技攻坚中具有重大战略意义。OceanBase的母公司蚂蚁,总部在杭州,但OceanBase最终却选择落地北京,就表明北京对创新资源的集聚效应。
大模型让人们看到了AI的强大能力,但AI要真正成为生产力工具,还需要走进千行百业,进入到更多的垂直场景。
实际上,AI的行业应用是有门槛的,它需要解决许多问题,比如安全性。
譬如,近年来随着语音识别、计算机视觉等技术的普及,AI类诈骗案件越来越多,引起社会公众的警惕。
一些“AI骗子”可能骗不过人工,但却可能骗过AI。所以进入产业级应用的AI产品,必须解决这个问题。而相应的解决方案,业内称之为“可信AI”。
“可信AI”技术是怎么发展起来的呢,其实也需要海量的应用场景。从2017年开始,支付宝就已全面启动人工智能风控防御策略。目前,蚂蚁集团的可信AI技术已在反欺诈、反洗钱、反赌博、企业联合风控、数据隐私保护在内的多个风控场景下落地。
根据2023年6月全球专利权威机构IPR Daily发布的报告,蚂蚁集团目前拥有全球范围内数量最多的“AI安全可信关键技术”专利。在这个基础上,可信AI不再是理论和畅想,蚂蚁集团已逐步完善和落地了以“IMAGE”命名的下一代风控体系,并正式上线部署。
蚂蚁集团的安全科技团队,也在北京有布局。事实上,因为蚂蚁等公司在可信AI领域的投入,北京已经成为这一产业的重镇。
AI的产业应用,还需要解决隐私保护的问题。
比如要用大模型来做智慧医疗有关的计算,就需要病人的病历数据。但病历数据本质上是个人隐私,不能泄露,这就需要“隐私计算”技术。在这种技术的应用场景里,数据可用但不可见。而在蚂蚁内部,隐私计算的团队也有很多人在北京,北京在这一细分技术领域的实力同样不可小觑。
8月24日,北京海淀区和蚂蚁集团签署了战略合作协议。根据协议,蚂蚁的创新科技总部将落地海淀。
据蚂蚁方面透露,创新科技总部,将覆盖安全科技、移动科技、SaaS服务(软件即服务)等多个领域,还将设置数字科技研发中心和蚂蚁技术研究院。蚂蚁在可信AI、隐私计算等领域,开展了大量基础和前沿技术研究,而创新科技总部的设立,将使蚂蚁更好整合在京技术资源。
这既是蚂蚁在关键技术领域加码在京投入的鲜明信号,也从侧面验证了北京在数据科技领域的绝对实力。
兵马未动、粮草先行。
AI时代,大模型是冲在前面的一支“兵马”,算力、数据、安全这些看不见的能力,则相当于藏在后院的“粮草”。
一个城市若想成为“AI之城”,就不能只是跟热点,赶时髦,而需要从算法、算力、数据、安全等多维度、全方位努力,才能实现由点到面的产业突破。
我之所以看好北京这座城市在AI时代的引领意义,正在于它在众多底层技术上的深厚积累与全面开花。
说到算力,无论是阿里云、华为云、腾讯云,还是三大运营商的云,在北京都早有布局。
说到数据,北京从上世纪八十年代中关村兴起以来,就是中国数据科技发展的中心,现在又有OceanBase等国产数据库密集布局。
说到安全,蚂蚁、360、字节……不少互联网公司都在北京布局了相关的技术板块。
从这个意义上说,北京在AI相关的底层技术上是个“全能选手”,它不仅在大模型这个算法领域很强,在相关的基础技术上也几乎没有短板。
人类新一轮的科技奇点,已经渐行渐近,量子纠缠、可控核聚变、常温超导体、大模型等原本属于学术圈的小众名词,已经被大众熟知。
其中,AI是当前已经看到曙光的领域。不仅是北京,也期待中国的超大特大城市都能到这个赛道卷起来!