2023-08-25 11:31 | 出处: AI梦工厂
来源:AI黑马
作者:彭辉 360集团副总裁
大模型以它普惠、泛在和通用的特征,未来将走进千家万户,赋能千行百业。
所以,我们有这样一个观点:
每一个家庭,每一个政府,每一个企业,都会拥有一个甚至多个大模型。
我们还认为,中国跟美国在To B市场上的发展有很大的不同。在中国落地不会产生垄断,大模型绝对不会只有3-5个大模型。
未来大模型一定是无处不在,未来的发展机遇一定在企业级市场。
大家都知道,数字化已经成为我们国家的一个核心战略,产业数字化将是未来巨大的去中心化的增量市场。
所以,在中国做大模型,我们坚定地认为要抓住这样一个战略机遇,去做产业的一个赋能,锚定产业级的市场,把大模型从所谓的中心化的市场拉下神坛,去提升政府和企业的生产力和生产效率。
当然,在这个过程当中,大模型在企业级市场的落地过程当中将遇到巨大的一些挑战。
我把它总结为四个方面:
1)专业领域知识匮乏。
大家都知道我们会用大量的互联网的语料喂给大模型,它就像一个高中生,顶多是一个本科毕业生。但是它在某些专业的领域知识、行业知识和企业内部的知识上,极其匮乏。甚至不能及时更新。所以,这是一个大问题,专业知识的匮乏。
2)偶尔幻觉胡说八道。
大家都经常讲一句话,大模型会一本正经地胡说八道。它会存在知识模糊和知识幻觉。因为数据和知识就像结构化数据库一样,只是采用了另外一个矩阵向量的方式被编码在了我们深度神经网络的这种参数和权重里面。但是,我要调用它,使用它,实际上是需要更好的Prompt去做引导。在这个过程当中,它的算法机理会产生内容的一种幻觉,无法保证真实和可信。
3)安全问题。
企业不愿意将自己的独门绝技贡献给公有大模型,或者训练进一个公有的大模型当中。
4)成本问题。
现在英伟达H100的供给都是缺货状态,ChatGPT号称训练一次几万张卡。所以,这种投入对一个普通的企业来讲是非常困难的一件事情。我们可能降低了人力,但并没有降低成本。
所以,如何解决这些问题?
我们认为,未来的一种发展趋势,一定是走向垂直化,打造小而专的垂直大模型。
不可能依靠一个单一的、万能的通用大模型去解决所有的任务分解、人机交互和知识问答的问题。我们一定要依靠企业级的数据语料和高质量的数据去训练小规模的、专有化的垂直大模型。
大模型未来将成为所有数字化系统的一个标配和组件。
我们走访了100多家企业客户和合作伙伴,大家基本上有一个共识:
大模型目前并不是万能的。
所以,问题就变成了:如何更好地将其应用到企业的场景当中?
我们需要去让所谓的通才变得专业化,变成真正的政府通和企业通。
这时,我们要找到小的切口,发挥它的长处。
我们认为大模型目前的能力主要体现在文本生成,或者说内容创作和知识问答这两个能力上。我们可以从这两个能力去入手。
越来越多从事大模型行业的从业者,都相信在相对聚焦和狭窄的应用场景当中,更小和微调的大模型,将更快达到To B端准确性的要求。
所以,我们一定要循序渐进,先让大模型做好助手,先让大模型当好导航。
围绕这样一个场景,我们从对上、对下、对内、对外四个维度,找到相应的适应这四个产品快速发挥它的生产力和效能的应用场景。
1)在对内的场景,我们认为更多的是办公的写作和总结。
2)在对外的场景,大量的数字人开始出现在客服场景中。
3)在对上的场景,我们强调信息和情报的总结和分析。
4)在对下的场景,我们可以让大模型做企业知识,甚至岗位技能的系列培训。
所以,在整个落地实践过程当中,我们意识到一个很重要的点。未来我们80%以上的业务场景,都将跟企业的知识库密切相关。
过去我们做大数据,都停留在结构化数据的应用。要知道,80%的非结构化的知识和数据是被遗弃,或者放置一边不管的,这一部分的大数据将成为大模型训练的语料。
所以,怎么从企业的一个大数据的基座里面,把有价值的知识,高质量的精标数据抽取出来,转化为企业的私域的知识库,通过检索的校正和增强来赋能大模型,真正能够在To B的业务场景当中产生内容的可信和及时的内容更新,以及分权、分域的这样一个内容的安全。
数据是分三重门的:
第一重门可能是公开的互联网的数据,第二重门是半公开的行业数据,或者企业的数据,还有一部分是企业内部的机密的数据。
对于这种企业的机密数据和有权限的数据而言,我们必须将它放到一个企业的知识库里,或者放到一个向量数据库里,让它产生有权限,有审计的一种管理,通过分类分级的企业知识的一种权限管理,通过大模型的检索增强,从而能够提供更加精准的知识和赋能。
另外一个方面就是应用,在应用层面,大家都接触过ChatGPT,大家觉得好用吗?
为什么前段时间所有的大脑都在提未来会创造很多的提示工程师的这样一个岗位和角色,实际上它是非常复杂的。
我们要让它写一篇好的文章,要给它非常多的提示、中心思想、摘要、提纲,才可能让它写出一篇好的文章,我们让它做一幅图,用Midjourney,我甚至要告诉它你要用多少毫米的镜头、焦距、光圈,然后景深,什么样的环境才可能做出一幅真正漂亮的生成的这样一个图片,但是这样的一个Prompt的提示工程实际上只是可用,但是非常不好用和不易用。
所以,在未来发展过程当中,不要迷信所谓的language UI,更多的传统的界面不会被淘汰。
而且,会大量的在未来的办公写作、生图、营销创意等等这样的场景里面,甚至政务的知识问答场景里面来产生,因为它提供了更多的直观和应用性。
举个例子来讲,老周经常讲一句话,就想吃盘土豆丝,我想要炝炒的,不要醋熘的,不想加醋,我要讲这样一句话其实很复杂,但是通过我菜单的点选,可能是一个秒级别的,我就做完了这件事情。
360将发布自己的企业级GPT的整个产品体系框架。底层我们依然认为数据和知识将成为未来企业级大模型的一个底座,离不开过去所有数据的积累,只是我们要适配大模型的需要,去对过去所有企业积淀下来的数据,非结构化的内容和文档,包括多媒体的音视频的图形、图像数据,经过多元的数据连接器和知识追踪的机器人,推动多源数据的一个处理引擎把它纳入到我们企业的知识库里面,通过向量的索引,传统意义上的摘要索引,文本索引和多模态的索引,构建起一个企业级大模型的一个知识的底座,然后通过我们的搜索和知识的增强,赋能给我们专业垂直的企业大模型向上提供服务。
1)办公写作。
我们会把复杂的Prompt工程隐藏在不同的15类的大模板和接近80类的细分的公文模板的背后。利用这样一个工具来高效完成公文写作,有效地解决公文写作过程中的耗力费时和质量低的这样一个问题。
2)政务服务。
通过大模型加上政务的知识库,我们可以通过多轮对话,让大模型像人一样去做语义的理解,通过追问和补问来补充相关信息,最后形成问答。可以客观、准确地回答老百姓在办事过程当中的所有问题。
3)文旅数字人。
老周在很多场合也提到过文旅数字人。大家都做过旅游规划,单纯一个所谓的旅游行程规划,是否能够解决你的旅游问题?
我们关注的是,落地到一个目的地后,有一个本地朋友,一个本地的导游。我关注的景点、美食、趣闻轶事、段子,这些东西如何成为一个目的地为中心的数字伴侣?我们要打造这样一个数字伴侣,未来将逐步的在政府的主导下打通中台能力,把我们的OTA、当地的酒店、餐饮接入进来之后。
结合360集团自身,以及100多家企业客户和合作伙伴,我们形成了目前为止最佳实践的落地流程。
第一步,业务分析与场景选择。
第二步,数据采集与清洗准备。
第三步,训练企业专有大模型。
第四步,开发企业场景化应用。
我们认为,所有大模型在企业级场景落地,优先要考虑的一个事情依然是业务分析。它跟数字化并没有什么不同。
我们依然要在业务分析的过程当中去找到业务的痛点,从而找到适配的一个场景,选择出这个场景之后,定义我们的解决方案。
然后,围绕这个场景去做数据和知识的采集、清洗,形成我们高质量的、标注的这样一些数据。入库之后,一部分作为语料喂给我们的垂直大模型去训练,一部分进入我们的企业知识库来做知识的一个搜索增强。然后才是开发智能助手也好,数字员工也好,数字人也好,通过模型的应用编排和API对外开放,与现有的业务系统进行集成。
企业级大模型在落地过程当中,我们非常强调,离不开双方业务和技术专家的紧密协同。