2023-05-09 23:49 | 出处: 腾讯科技
图片来源:由无界 AI工具生成
“百模大战”愈演愈烈,互联网大厂、创业公司、甚至科研机构,都在过去的2-3个月内推出了大模型。为何似乎短短时间内,几乎所有的科技公司都对“大模型”摩拳擦掌?所有的生意真的都值得用AI重做一遍吗?在AI重塑商业的过程中,大模型的意义究竟是什么?我们真的需要这么多大模型吗?究竟有没有标准可以评判大模型的优劣?未来,我们究竟应该如何驾驭大模型?
带着这些有关大模型的关键问题,腾讯科技邀请了两位在NLP领域有几十年研究经验、并具有产业经验的专家:MoPaaS 魔泊云创始人、CEO鲁为民博士,多语言多领域自然语言处理(NLP)资深架构师、Trend首席科学家李维博士,用了将近两个小时的时间,试图讨论并解决以上问题。虽然有些问题目前可能没有唯一答案,但是我们可以找到某些启发或探究路径。本文将呈现直播的完整回放,及内容的精华梳理。文章较长,但值得收藏阅读。
策划、主持丨郭晓静
编辑丨郭晓静、秦昊阳
文字整理丨赵杨博
腾讯科技:“百模大战”进行中,那我们到底如何去评判一个大模型?目前有没有公认的标准,能评价大模型的性能优劣?
李维:这其实是一个很大的问题。大模型与上一代AI的“单任务模型”不同,单任务模型通常有公认的数据集作为黄金标准,用于测试系统的优劣并排名高低。对于大模型来说,评测提出了新的挑战。因为大模型是多任务的,任务其实是开放式的,难以预先定义,具体任务常常由应用场景而定。结果就是,数据质量的测试既繁重,也难以全面。
在这种情况下,如何评价大模型的好坏?客观地说,其实目前为止并没有真正的公认的客观评判标准和方法。随着时间推移,AI共同体也许会凝聚共识,逐渐形成一些核心功能的评测方案。
但是,做大模型的团队,在开发过程中需要合适的质量监控(Quality Assurance,QA)指标来帮助纠正航向。像大模型这样需要高算力和巨大资源耗费的工程,如果没有一个好的QA团队来帮助,很可能会走偏。等你开始意识到走偏的时候,已经花费数月的时间,而你的竞争对手可能已经领先。从这个角度来看,QA非常重要,但如何做好QA,目前来说都还是各自在摸索。
回顾一下Open AI 的做法。GPT-3开源的时候,Open AI发的报告用了很长的篇幅展示测试结果,用的是NLP领域中以前定义过的各项任务(大约20-30种)测试这个大模型,比如Sentiment Analysis,Name Entity Tagging,Open Question Answer,等。测试之后发现ChatGPT的的NLP多任务的综合表现都还不错。这是大模型测试发展的第一阶段。
后来进入第二阶段,面对更广阔的前景,如何测试大模型?Open AI从GPT3.5到GPT4,开始把考核人的专业知识的测试拿出来测试大模型。中小学的各科考试,大学生的入学考试,研究生的考试,最后到职业考核,例如律师资格考试、医生资格考试等,都用来测试,看看大模型表现怎么样。这个从道理上来说是更高级的,比上一阶段的测试更加全面、更加实用,因为我们人就是这么考过来的。但这样做工作量巨大。比如在GPT-4发布时,微软已经投入大半年的时间和几十人的团队来测试它,证明它比GPT-3提升了一大步,例如,律师资格从GPT3的不及格,到 GPT4 的优异表现(位居人类律师考试成绩的前10%)。
未来我们应该如何评估大模型?如何对人类的这些考试进行排序?哪些考试是最核心、最有用的?或者有哪些优先级的配置等等?这可能是一个需要我们进一步讨论探索的课题。究竟应该如何客观地评价大模型,如何在有限的时间和资源条件下做出客观的评价并给出有用的反馈,让数据团队更有针对性地准备数据,让开发团队不偏离方向,保障模型的健康迭代,这是大模型开发者的共同挑战,还需要时间积累经验,形成基本的QA操作规范。
从另一个角度来看,现在所有声称成为本行业第一的人其实都是有疑问的,因为根本就不存在共同的标准,只能说是勇气可嘉。当然,OpenAI除外,人家是先行者,是公认的领跑者,他们的最新模型 GPT4 就是当前大模型技术的天花板。对于所有其他的追随者, 包括谷歌,目前来看还没有清晰明了的标准来测量他们。
中国有一句古话叫“文无第一”,多任务的开放式大模型,基本是这样的形态。现在不管谁自称第一,只能看成是营销而已。真正重要的是,你的模型不能太差。如果你的模型太差,就会被用户自然淘汰。开放以后,长期无人问津是危机的信号。只要你没有被遗忘,你可能是第一,也可能是第二,不得而知,但你总可以说是“最好之一”。
腾讯科技:大模型创业有哪些商业模式?我们到底需要多少大模型?
鲁为民:首先,我们需要多少大型模型?这是一个值得思考的问题,因为它其实有很多限制因素。
首先大模型的训练和运行对算力等资源消耗很大,Midjourney 的 CEO David Holz 在一次访谈中提到,“如果有10亿人都来使用大模型,现在地球上的算力是不够的。” 我想他的话至少可以解读为当今算力资源有限,可能有资源满足不了需求的时候。所以大家如果一窝蜂去做大模型而去竞争资源,也可能会形成某种内卷,即使不缺钱。
其次,做大模型的商用运营,由于投资成本很高,需要足够的回报来支撑大模型的持续运营,比如大模型服务需要通过获得一定规模的用户来产生足够的收入。只有好的产品才能吸引更多的客户使用。但是,要保证模型产品和服务好用,需要足够的人力和财力对大模型产品工程细节的打磨和对系统运行的维护。我们说大模型门槛高,不仅仅是说它所需要的算力成本,也包括除去算力的其它成本和资源要求等。
所以需要多少大模型可能由市场决定比较好。
大模型衍生的商业模式可以从基础、模型到应用等层面考虑。就模型来说我把它们大致分为两类:一类是模型作为服务 (MaaS),比如,像 OpenAI、Anthropic、Midjourney和Stability AI 等专业公司提供大模型服务,包括像 Whisper,、DALL E-2、Midjourney、Claude、ChatGPT 和 GPT-4 这样的针对大众消费者的模型服务,同时他们也可能提供相应模型服务的 API 给开发者或其它企业用户,可以让更多的应用场景可以接入大模型。
对于更多从业者来说,大模型层面的机会更多的是垂直领域模型和应用,所以这一类商业模式围绕垂域应用。一方面,我们可以围绕大型模型(MaaS 或预训练模型)开发一些垂域模型应用。虽然大型模型很强大,但它实际上不可能在所有领域都达到最先进的水平。在很多自然语言处理的任务上,通用大型模型即使与业界最先进的小模型相比在性能可能还存在差距。在这种情况下,我们一方面可以通过大模型服务(像ChatGPT)提供的模型微调服务(通过 APIs)或仅仅是有针对性的提示设计,有机会获得有竞争力的垂域解决方案,这也是创业比较可行的方向。
另一方面,就是垂直领域专业大模型在垂直领域的应用,这类应用往往可能不需要处理多个任务,也就就不需要上千亿的参数规模。另外这类场景往往需要将大模型适配后部署到相应的私有化应用场景。一部分原因是因为现在许多企业的一些垂域应用需求对数据也有一定的安全要求,因此不适合使用公共的大模型服务。好消息是现在企业不需要从零开始训练大模型,因为现在有很多合适的开源预训练模型可以选择,只需投入有限的算力,企业可以针对这些开源的大型模型进行场景适配部署。对于这类大模型的规模以及企业内部应用的使用负载要求,运行所需资源和成本是完全可控的。
将大模型适配到垂直专业场景的模式涉及到迁移学习。迁移学习为什么重要?它在不同场景的应用中提供必要的泛化能力。比如预训练大模型使用不同的数据集,训练好一个大的模型它能涵盖多个垂直领域任务。但是,我们新的目标任务有可能不在预训练的大模型覆盖范围之内,那我们需要对它进行适配迁移,来让其覆盖目标垂域。
腾讯科技:中国目前有很多企业推出了大模型,但都与OpenAI有很大差距,在这个赛道,中国企业还有机会吗?
李维:我认为有机会,首先,如果中国的IT产业要向前发展,建立大模型时代的新生态,就不能长期依赖国外的大模型提供商,因为提供商的可靠性和连续性就目前的国际形势看是无法保障的。
第二,毫无疑问,美国是AI老大。有人说中国的人工智能落后美国两年,周明老师前几天说大概差距是三年。两年也好,三年也好,总之差距是很明显的。
但是,如果从另一个角度来看,我们知道,全世界没有任何一个国家比中国更接近美国的技术水平,无论是人才、论文与专利、投资环境,还是国家的政策激励和支持,还包括整个民众对AI的意识(awareness)。如果要赶上或者逼近美国,除中国以外没有其他成规模的对手,包括深度学习的故乡加拿大,也包括日本、欧洲等先进国家,他们都无法与中国相比。中国人对于AI新技术的热情和投入,全民从普通百姓到各路精英对于大模型的津津乐道,在全世界都是一道风景。我们有理由相信中国的AI新时代会走在世界前列。
鲁为民:我同意李维老师的说法。中国的情况非常特殊,它拥有庞大的市场和海量的中文数据,这些都是大模型发展的必要条件。因此,我们不应该过于自卑,我们有理由自信,但同时也需要意识到距离感的存在。
从ChatGPT 到GPT-4的出现,让很多人应接不暇,甚至感到恐慌,因为人类还没有准备好应对这样一个新的物种,即大型AI模型。包括 Bengio 和 Musk等之内的美国AI界、政界和企业界的重要人物都呼吁“停止研究GPT-4这样级别的巨型人工智能至少半年”。为什么是半年?一开始我们也不知道。但起草人之一 Tegmark 教授在最近一次采访中表示,停止半年时间从国家之间技术竞争的角度来说比较安全,因为中国半年内赶上美国的大模型技术的机会比较小。这个代表一部分西方 AI 专家对于中美在大模型 AI 差距上的看法,我们至少可以参考将这个半年作为中国和美国之间距离的下限。
当然,还有各种其它的猜测,但我们不必过于纠结于这些,只需要专注于自己的工作即可,因为发展大模型 AI 技术从企业 AI 应用到国家技术发展战略等各个层面来看都是必要的。
腾讯科技:我们常讲的人工智能发展的三要素,数据、算力和模型在AI发展中分别扮演着什么样的角色?
李维:讲到大模型的三大要素,其中算法就是模型,算力则包括硬件等工程力量,最后是数据。除此之外,还有人工智能的伦理学方面的研究以及其他边缘方面的规范。但总体上,大模型本身的建设主要由这三大要素组成。
在OpenAI已经证实了大模型的威力之后,说明,这条路已经走出来了,后来者赶上只是一个时间的问题。从这三大要素来看,算法在大的层面上是学术界共享的,虽然在具体的实现中会有一些细节不同,但总体上,从国内已经经历过大模型研发的团队的报告来看,只要按照他们的路线走,大都搞定了语言模型的理解和生成能力,甚至也达到了篇章对话、思维链、多任务等重要指标。因此,从算法方面来说,总体上来说是可以追赶或者复制的。
算力方面可能会有一些硬件方面的限制,但目前看,据专家们说,它还不是最大的瓶颈。很多团队第一想到的就是算力和钱,没有钱买不了机器,根本拿不到进入赛道的入场券。有了钱,第二就是人才,有了人才就能搞定算法和工程。人才最好是过去几年实实在在做过大模型的,最好是在大厂的大模型团队做过,可以少绕弯路。很多团队忽略了第三条数据这件事儿。忽略的这一块实际上可能是对整个模型影响最大的一块。在以数据为中心(data-centric)的AI新时代,模型能不能出彩实际上主要是靠数据。前大模型时代,AI的主流是以模型为中心(model-centric)的单任务系统,数据基本保持不变。新时代的系统研发迭代的特点是,算法基本保持恒定,而数据在不断增强增大。而数据这一块也是很难缠的一块,最dirty的一块,也是有很多魔鬼细节的一块。
就拿Google和OpenAI对比,不管是从算力、算法,包括人力资源来看,Google的团队一点都不比OpenAI差,而且大模型最关键的基础 Transformer和基于人类反馈的强化学习(RLHF)算法实际上是Google发明的,它有杀手锏一般的武器,结果是为他人做了嫁衣裳,让OpenAI远远走在了前面。
怎么回事儿?感觉是OpenAI做了两件事把Google甩在了后面。首先是大模型预训练后的supervised fine-tuning(SFT,监督微调),主要是大模型训练出来以后先要做一个针对任务的监督学习,就是InstructGPT论文报告的工作,否则的话,按照大模型本身的特性,它的生成能力太强了,可以生成很多从大数据预训练所得到的可能的序列出来。而这些序列中,90% 对于人类来说既不是直接针对给定任务的,也没有什么实质价值,甚至是有害的。监督学习要把90%以上我们人类不想看见、甚至有毒的那些东西压下去,把10%能听懂人的语言指令去做任务的东西浮现上来。
这个工作是OpenAI首创的,然后Google他们开始学习,据说基本达到了OpenAI的多任务水平,国内相关的公司的这类学习效果也不错。紧接着下面一个任务,基于人类反馈的强化训练,这一工作OpenAI做得非常仔细,很多细节没有人知道,而这些“魔鬼细节”有些是决定成败的。
他们有个非常强大的数据团队。这些数据团队不仅仅是外包,用了肯尼亚的廉价劳工进行数据标注,它其实是把它的数据团队建设成为不同水平的hierarchy(层级),有些数据可以把它下放给廉价劳工去做,主要是那些需要数量大,而标注要求简单明确的。也有从设计角度考虑的高等级的数据,需要高素质的标记人员,不少是训练有素的博士。这里面蕴含了很多非常有效的探索,而目前没有任何一个团队在数据工作方面能与它匹敌,not even close。
腾讯科技:“大力出奇迹”的大模型,会有哪些特殊“超能力”?现在如何驾驭这些超能力?鲁为民:大模型的“大”是指其规模,具体表现为其参数数量的多少。由于大模型需要存储大量的知识,因此需要更多的神经元来存储这些信息,因此参数的数量大是必要的条件。但是,仅仅参数数量大并不足以支撑强大的多任务能力,必须要有足够大的数据集来支持规模化的模型的训练和学习。目前我们知道基于Transformer 的大模型技术已经可以比较有效地应用于各种自然语言和计算机视觉任务,但是训练这样的模型对于数据的质量和数量都有较高的要求,这是一个比较有挑战性的问题。此外,由于计算量和算力的限制,需要通过不同的方法来实现大模型的训练和优化。OpenAI、Google、DeepMind 等公司的不同实验和研究中基本上得到类似的结论,就是大模型的训练性能与它参数的多少以及数据量的大小是成幂等的伸缩规律,模型规模越大,它的训练损失函数值越小。在这种情况下它们满足一定的伸缩率。我们要求模型性能更好,能力更强更多,则需要的模型规模就越大,同时训练的数据量要大。
当然具体收缩率与选择的模型本身有关。进一步的研究发现指数,像指数 α和β与特征空间(或流形)的内在维度有关系。这个是细节。
但现在主要的焦点在哪里?特别是对于大语言模型的性能,主要体现在数据集;数据集是影响模型性能的关键因素。因为目前数据集是一种稀缺资源。我们可以根据幂等的伸缩率发现,增加(高质量的)数据量的大小会带来最大的性能回报。但是现在有人开始讨论通用数据是否已经用完?另外,专有数据量是否太少?特别是对于有价值的数据。例如,代码数据实际上占的比例相当小。甚至根据幂等率,人们发现 OpenAI 的 GPT-3 模型都没有得到充分训练 (见上图);因为通过这个可以看出,如果继续训练,光就性能来说,还可以进一步提高。OpenAI 在这方面可能有其它考量,但至少这些观察可能对于我们训练大模型具有一定的参考价值。
另外,我们在训练中也发现大模型的一种特殊现象,即“顿悟”(Grokking)。
顿悟的测试性能远远落后于训练性能。因为我们可以很快地发现模型训练可以达到最优值,但在测试或验证时,它需要更长的时间才能表现出模型的精度。在这种情况下,模型有一个从记忆到泛化切换的过程。
在训练开始时,模型主要依赖于记忆提供的训练数据,并通过过度拟合来实现高效的性能,然后逐渐学会泛化。因此,“顿悟”出现在训练从记忆到泛化的切换点。
我们知道AlphaZero是在ChatGPT之前非常火爆的一个应用,主要是在棋牌领域。实际上,研究人员发现在1万步到3万步的训练之间,模型学会人类棋类的概念,到2万6到6万步之间才开始发明一些开局的理论。对于这种“顿悟”,模型越大或数据越小,它就越明显。为什么要讨论“顿悟”?因为我们更关注的是测试性能,而这个影响到大模型的有效应用。
另外像 ChatGPT 的让人惊艳的地方在于大模型的各种惊人能力,而很多这些能力是 OpenAI 的工程师在设计和开发中没有考虑到。人们将这种能力称为“涌现”(Emergence)。
什么是“涌现”?模型在达到一定程度后,性能首先得到急剧提升,同时它涌现许多新的能力。特别是,任务所训练的模型适用于更多以前未经训练的任务。涌现对大型模型应用的影响非常重要,只有通过这种能力,我们才能高效地实现模型的泛化,并实现模型的迁移。因此,我们不仅关注其本身的性能,还要关注这种“涌现”能力,因为它使得模型适用于以前未经训练的任务,而这些任务可能是我们关注的应用场景。
涌现能力的体现方式有很多,其中一种是上下文学习(In-Context Learning,ICL)能力。通过提示来引导模型学习新的事例,并可以进一步询问模型新提示和问题的答案,这种能力在模型规模达到一定程度后会呈现并快速提升。
思维链 (Chain of Thoughts, CoT)学习是一种特殊的上下文学习。它提供一种结构化的上下文学习方法,对于复杂的推理问题更加高效。在许多任务中,特别是数学任务中,传统简单提示的结果并不好。但是,如果我们将问题结构化、按步骤分解,模型就能够给出正确的答案。特别是对一些比较复杂的推理问题,通过 CoT 一步步链式地提示,可以更好地让大模型具备一定程度的推理能力并逐步给出答案。
另外,基于思维链的学习也具有一定的规模优势。虽然像ChatGPT这样的标准大模型随着规模的增加展现出一定的能力,但是基于思维链的推理能力更加明显。
我们观察到这种涌现能力,并且意识到如果能够善加利用,它确实能够为我们的应用带来很多好处和优势。但是,我们也希望了解涌现能力的出现原因以及影响它的因素。在研究这个问题时,我们需要从几个方面来考虑。
首先是模型架构。涌现能力是否与Transformer有关?或者是否也适用于其他类型的神经网络模型,例如循环神经网络(RNN)?训练的目标和学习方法是否会体现这种能力?例如,自回归或对比学习等学习方法是否会影响涌现能力?
其次,涌现能力是否与数据的特点和数据集本身分布有关?比如,数据集的语言特点是否有助于展现这种涌现能力?特殊的数据集是否也会影响它的表现?因为之前的研究表明,在对代码数据进行训练后,模型的推理能力显著提高。
我们首先注意到这种涌现出来的能力是大模型的强大泛化能力,即它通过上下文提示学习 (In-Context Learning) 可以适用于多个任务中去。对于每个任务,模型内部体现一种闭环的学习过程。在训练模型时,外环是非监督学习,通过反向传播来训练学习模型。这样在推理时通过提供的实例,让系统动态生成一个临时的小型神经网络来实现这种学习能力(内环)。
从模型架构的角度来看,可以验证这个猜想是否正确。例如,斯坦福大学的Percy Liang 教授的团队进行一系列的实验验证,发现Transformer确实隐含一种学习算法。此外,Anthropic 的研究人员提出 Induction Heads 的概念,从另一个角度解释In-Context Learning确实能够学习一种可泛化的函数,并且可以保留过去的一些token。此外还研究人员还发现,在单层线性Transformer中,In-Context Learning等价于梯度下降学习机制。这些从不同的角度从理论上也进一步解释了之前的猜想。
此外,研究人员也从数据分布上也验证了涌现能力。因此,这些实验观察和理论解释给了我们使用大模型来进行上下文提示学习更多的信心 ,
腾讯科技:大模型还有一些缺陷,比如幻觉,这完全是坏事儿吗?有没有办法控制?
李维:大约几天前,我在我的NLP数字频道刚发了一篇博客,讲的就是这个问题。博客的标题是【大模型推理的细节编造是 feature,不是 bug】。所谓 “一本正经的胡说八道”,主要是指虚构的细节,用更中立的说法,就是编造细节。
实际上,编造细节是生成式大语言模型的本质特征。从本性来看,它实际上的确是一个特性(feature),而不是一个错误(bug)。
在软件工程中,这两种概念是需要区分的。特性是一种可以善加利用、有用的功能。当然,也可能会有副作用,但副作用是有限的。
那么为什么说这不是一个 bug?因为生成式大模型本质是一种语言模型,而不是一个全面系统的知识模型。语言大模型搞定了语言的方方面面,能听会说,比人类的平均语言水平要强。但是,语言模型并不等价于知识模型。知识的海洋中有一部分是深藏在底部的,只有那些漂浮在上面的细节,在训练时频繁遇到,模型能够记住,这样的细节不会有问题。那些被它编造的细节,实际上都是那些模型记不住的东西。这与人类的大脑类似,人类也不可能记住所有的细节。
人类记不住细节的时候,除少数骗子外,一般都会改用不确定的口气,或干脆略去细节,而不是编造细节。生成大模型不然,生成丝滑的语言序列是它的本性,为此它不惜编造细节。这就是大模型所谓“幻觉”(hallucination)的表现。幻觉会导致模型输出错误的答案、知识或编造信息,OpenAI已经花费了很多心力在RLHF中减少胡编乱造,例如GPT4的编造比例从GPT3的20%左右,已经降低到10%一下,但没办法让它绝迹。从通用大模型的视角,编造细节其实反映了模型的创造能力,并不总是坏事儿。
通用模型的本义就是支持各种开放式任务。这些任务可以分为两类。第一类任务是需要模型编造细节的,例如辅助写作,包括写剧本、小说、诗歌,创作有创意的广告文案等。这时,编造细节不仅不是一个问题,而且是必要的,因为只有这样才能让作品更加生动有趣。
第二类任务是需要模型回答问题,例如知识问答,还有历史和地理的教育辅导等。在这种情况下,编造细节就成为一个问题,一个副作用,特别是当编造的细节混在在事实中的时候,真假莫辨,可能会造成严重的误导后果。
Open AI发布 GPT4 之前为抑制这个副作用做了半年多很细致的强化学习和微调,卓有成效。最近,我一直在测试它,发现实际效果比宣传的10%的细节编造率要低。现在想看 GPT4的笑话,已经很不容易了。这表明,通过更多的强化学习或微调,我们可以有效抑制它的副作用,不至于给我们造成太大的困扰。
腾讯科技:看来“我们人类有时候会不正经”,这个“能力”可能是我们超越人工智能的一个很大的特性。
李维:实际上,编造细节是人类智能中的高阶能力。据《人类简史》,人类精神文明的一个里程碑就是人学会了“讲故事” ,虚拟的故事。人类从此有了宗教和哲学,有了组织和动员群体力量的精神武器,从而成为地球霸主。
Having said that,在很多场景中,编造细节和胡说八道是伤人的、甚至致命的,尤其是当它一本正经真假混杂的时候,而这正是 GPT 最为人所诟病的一个命门。作为一个大模型,它是通过语言序列学习到的那些细节和事实。如果这些细节和事实在语言训练中出现的频率不够高,从本质上它是不可能记住的。因此,在生成文本时,它就编造。除像GPT-4这样通过强化学习不断地改善,使得生成的胡编乱造的内容出现的频率持续降低外,从应用场景的角度来看,真正的解决方案被称为“外挂”。
什么是外挂?
解决方案实际上是到特定场景中去外挂所需的知识库或知识图谱。在任何一个领域中,知识图谱或知识库所表达的场景的知识深度和细节丰富度是任何一个语言模型,不管它有多么大,按照现在这种方式是不可能完全学习到的。怎么办?方案就是把这个大模型和外挂的知识库结合起来,用它来弥补大模型的细节记忆不足,这才有可能较好地解决这个问题。具体的外挂方式有多种可能,例如,把外挂的知识库查询做成一个插件(plug-in),合适的节点调用它。调回来的结果可以追加到问题提示中,这样知识库的结果可以覆盖原模型没有记忆的部分,确保细节正确。另一种方式是以领域场景的业务逻辑及其领域知识库为主体,在需要语言能力的时候调用 ChatGPT 的API。两种外挂的方式都会继续推进,值得关注其消长。两种方式其实反映了大模型供应方与大模型应用方的不同视角和利益倾斜,到底谁是主体,谁调用谁。
腾讯科技:继续扩大参数的迭代路径还能走多远?通用数据是不是有用完的时候?
李维:迄今我们没有看到大模型大力出奇迹的数据质量天花板在哪里,最新的GPT4的确在已经令世人惊艳的GPT3.5的基础上,显示出更强的接近人类专家的能力。
因此,大模型扩大参数迭代提升的尝试还会持续下去,相应的也就需要更多的训练数据来喂饱这越来越大的模型。如果以目前的速度继续发展,业界大佬估算可能需要5年或10年的时间,可以用来训练大模型的比较干净和高质量的数据有可能用完了。在AI加速发展日新月异的时代,这不是一个很短的时间,我们可以先搁置这个问题,因为到那个时候可能会有新的解决办法。
例如,可以开动大模型自己没完没了生成新数据,然后通过某种自动或半自动的质量过滤,反过来再用于训练模型。这样,模型的能力仍然可望提升。这似乎就是自我学习,或曰反哺。
模型大小与模型能力的关系一直是研究界关注的题目。鲁总谈到的模型顿悟现象,以及大模型表现出来的新能力的涌现,都是模型做大路上给我们带来的惊喜和实惠。总体而言,模型变大,首先是搞定了语言能力,然后是展示了越来越多的知识能力。
从ChatGPT发布的时候,我们很快发现它的理解和生成能力超过了人类的整体水平。语言通天塔已经在技术上建成了。我们人类具有与生俱来的语言潜力,在语言成长环境中的曝光使得我们成为母语的流利说话者,native speakers,但即便如此,我们每个人还是会犯错误,在语法、用词上出现口误笔误并不罕见。看看语言大模型,除非是你明令它生成“洋泾浜”,它正常生成的句子非常顺畅丝滑,挑不出语法或用词的错误,其生成能力显然比人类总体强。
另一方面,ChatGPT的语言理解能力也比我们强,毫无悬念。它不仅能够听懂各种不同的语言,即使不同语言混合在一起,它也能够理解。甚至你使用各种不同的语言的变形,只要大致意思在,它都能够抓住,知道如何回应,可见其超群的鲁棒性。总之,无论语言理解还是语言生成,可以说大模型完全搞定了人类语言,表现得比 native 还 native。
这是因为ChatGPT这样的模型背后是千亿级的tokens(字或词),有千亿级参数的向量空间,它有足够的数据用于训练和调参足够大的模型,它消化了世界上几乎所有稍微像样的文字材料,结果就超越了人类的语言能力。
前面提过,大模型追求两种能力:一个是语言能力,另一个是在语言能力的基础上的知识能力。现在我们知道,第二个能力难度大得多。根据对中外发布的一系列大模型的调研,我们提出下列的基于观测的初步猜想:十亿级别搞定句法,文通字顺;百亿级别搞定篇章和多轮对话,不掉链子;千亿级别搞定百科和基本推理,全科大学毕业了;而万亿级别就逼近各行高知和专家的知识水平了(能通过律师、医生这类严格的专业资格考试)。现在有不同规模的模型 available,有条件认真验证上面的假说。这个工作有很现实的意义,我们想知道什么应用场景至少需要什么规模的模型,这样投入应用会比较放心。
许多国内外团队的模型表现,说明百亿级别可以达到语言能力的天花板,你基本上无法挑出其文字的毛病,它也理解上下文,对话流畅,什么语言问题都可以解决。然而,知识是无限的,要学习越来越多的知识并将其用于不同的场景,模型需要继续向上发展,达到千亿级别,就是现在的GPT-3。当GPT-4推出时,到底是多少参数?我们不知道。可能是万亿级别,也可能是五千亿级别。
总之,它肯定比GPT-3、GPT-3.5大了不少,因为看上去它的专业能力直逼专家精英的知识水平,而且比任何一个专家更博学得多,感觉就是个全才。这并不是说它就不犯错误了,也不能保证它不编造细节。其实,进一步的探究表明:这并不是说它就不犯错误了,也不能保证它不编造细节。其实,进一步的探究表明: GPT-4 的上下文逻辑与常识还是不够稳固,还有进一步提升的不小的空间。
腾讯科技:ChatGPT被认为不是一个新鲜的事物,但是它有很神奇的工程化的能力,究竟我们大语言模型和算力模型是如何应用到真正的产业中的?
鲁为民:大型语言模型 (LLM),实际上可以解释为是一种概率模型,定义序列中单词的概率分布,并通过计算概率分布来评估该序列的好坏。因此,语言模型需要具备语言能力和世界知识。我们现在主要使用的是自回归语言模型,它根据之前生成的token来迭代产生新的token,这种生成能力也为我们带来一些新的应用。实际上,这种基于预测下一个Token的语言模型的概念最早由香农于1948年提出。但是,直到 2003年,图灵奖得主 Bengio 将神经网络用于语言模型,并经过一系列的努力,使得语言模型应用通过神经网络变得越来越计算可行。
语言模型作为一种生成模型。它通过归纳和推理,将已有的知识表示为一个类似知识图谱的结构,存储在深度神经网络中,供应用时调用。然而,在使用语言模型时,仅仅依靠该模型往往不足以生成准确的答案。
由于语言模型本身的统计特性,所以生成的答案可能是不肯定的。因此,如果我们根据该模型选择答案,就必须提供一些可能与数据无关的条件假设,这就是所谓的归纳偏差 (Inductive Bias)。因此,我们做的一切事情,包括对大型模型的训练,都是将我们自己的归纳偏差强加给模型,以便更好地训练和推理。强的 Inductive Biases 一般以降低模型的通用性为代价。
另外,我们使用ChatGPT时,了解到大模型有一种幻觉 (Hallucination)现象。幻觉是如何产生的?首先,正如前面提到,这种语言模型实际上是一个概率模型。同时,语言模型将某种知识图谱存储在神经网络权重中。因此,当它回答问题在该“知识图谱”中,找不到答案,但它得生成一个答案,则这种幻觉产生,往往是一本正经的胡说八道。第二个问题是,许多答案看似可信,但包含错误的信息。在这种情况下,就会产生幻觉。
OpenAI 在 ChatGPT 上试着解决这些问题。首先,他们试图通过监督学习微调来尝试解决包括幻觉和人类价值对齐的问题。好像收效甚微。后来,借助于 RLHF (人工反馈强化学习) 来进行微调,收到比较好的效果。它主要是通过奖赏模型来学习人类对事实的一些判断或价值的一些体现,并通过强化学习来对模型进行微调。然而,强化学习并不能根除幻觉现象,这个与语言模型特性本身有关。毕竟语言模型是一个概率模型。
将大模型适配到垂直专业场景的模式涉及到迁移学习。迁移学习为什么重要?它在不同场景的应用中提供必要的泛化能力。比如预训练大模型使用不同的数据集,训练好一个大的模型它能涵盖多个垂直领域任务。但是,我们新的目标垂域有可能不在预训练的大模型覆盖范围之内,那我们可以对它进行适配迁移,来让其覆盖目标垂域。具体来说,迁移学习有下图所示的几种形式。
。
我们目前大模型的迁移适配主要用后两种形式,即第一种通过重新调整模型参数,使其成为适用于场景的垂直模型;这方面已经有过很多好的实践,比如我们可以通过改变少量参数进行模型适配,减少训练的计算量,比如大家熟悉的 LORA等方法;另一种则是利用其具有的涌现能力,直接通过提示 (Prompt) 的设计或提示学习 (Prompt Learning),来使得模型在推理时可以动态学习来生成适合相关场景的内容。前者的优势是能充分利用垂域数据集,多样本学习性能好,同时对提示要求低,推理成本低,但可能的问题是训练成本高,且应对数据漂移等问题不灵活。
而后者基于Promp的迁移学习的优势是可以小样本学习,对数据要求不高,不需要模型进行训练,而不用改变预训练模型的参数和结构;另外通过动态地提供迁移学习能力,对数据漂移等问题可以灵活处理;但可能需要提供比较长的复杂的提示,因此推理成本可能高一些。
除了模型的迁移适配外,通过适当地接入外部的工具,来提供一系列工具链完成更为复杂的任务,目前像 LangChain,HuggingGPT,BabyAGI 和 AutoGPT 等框架做了一些有益的尝试。