2023-08-23 19:37 | 出处: 元宇宙与碳中和研究院
按照传统看法,AI与大模型等涉及到的机器学习概念主要集中在“视觉”领域,经过不懈努力,现在已经拓展到听觉领域了。清华大学与火山语音团队合作,推出认知导向的开源听觉大模型SALMONN,名称源于Speech Audio Language Music Open Neural Network的首字母缩写。Demo链接:https://bytedance.github.io/SALMONN/
如果仅以人的角度来看,视觉与听觉是既独立又配合的信息系统。但从电脑,大模型等涉及到AI的角度来说,从视觉到听觉的跨越绝非动动嘴或手指那般想象中的简单,其中的意义可以用美国登月先驱阿姆斯特朗的那句名言概括:“这是我个人的一小步,也是人类的一大步。”
与传统的语音输入或语音助手等不同,仅从名字上就不难发现,SALMONN对讲话、语音、音频、音乐等各类音频信号输入都具有感知和理解能力,相当于给大模型加上了耳朵,再以此为基础发展出多语言、跨模态推理等更复杂且高维的能力。具体说来,SALMONN的底层大模型是Vicuna 13B,即著名的“羊驼”,加一个基于Whisper Encoder的通用音频编码器,再来一个负责对齐音频和文本模态的融合器。在这套设施的配合下,SALMONN就对音频信息具有了直接感知能力。
而传统的音频处理手段较为繁琐,在接受到音频信号后先要通过API调用底层工具将音频转化为文字信息,再将文字信息输入大模型做后续处理。与之相比,SALMONN可以直接从现实世界获取知识,并在一些复杂场景中也有很好的理解和处理能力。而且由于训练数据全部基于文本指令,因此也可以说它拥有跨模态的交互能力。
官方发布的模型解析图
从目前的消息来看,SALMONN能够胜任多种多样的语音相关任务,同时又有多种在训练时没有专门学习过的多语言和跨模态能力,如不同语种的语音识别、英语到其他语言的翻译、对语音内容的摘要与提取关键词、通过音频生成故事、音频问答、语音和音频联合推理等任务。
根据官方团队的说法,SALMONN能处理的任务,依据从易到难的程度可以分为三类:1.训练中就学习过的任务,2.训练中没学过,但SALMONN能够基于文本输入完成的任务,3.训练中没学过,需要直接感知音频或视频的多模态大模型才能完成的任务。
如果仅看论文和demo很容易觉得SALMONN“不过如此”,但前面已经提到过,机器视觉与机器听觉属于两个领域,目前经常提到的AGI(通用人工智能)和机器学习等概念里,关于听觉的研究仍然以“语音助手”或类似的形式出现,比如十几年前就登上iPhone的Siri。虽然概念非常前沿,但机器听觉的发展却长期不如机器视觉那样迅速且高产,即使现在AGI,大模型等概念非常火热,但机器听觉似乎还是难以引人注目。
之所以会有如此窘境,主要是因为机器听觉与机器视觉的先天性差异,以及由此导致的一系列困难。过去曾介绍过,苹果的Siri已经算是质量很好的语音助手了,但依然经常被人嘲讽为“人工智障”。后来又有消息说苹果对Siri也有诸多不满,历次发布会里对它一直都很少提及,即使提到可能也只是“更智能”“更强大”之类的套话。之前马克·古尔曼爆料苹果在秘密开发Apple GPT时也说过,Siri部门长期陷于费力不讨好的泥沼中,苹果多年来一直想为Siri进行一次革命性更新,甚至是为此而单独规划生产线,专门出一款新产品,将Apple GPT与Siri集成到一起或许是一种好方法,能识别语音且能用语音控制的大模型,的确是比较酷的。
此次清华大学与火山语音合作推出的SALMONN可能就走在这样一条路上,也的确展示了全新的玩法,或许没多久就有更多类似的新产品问世了。