出品|搜狐科技
编辑|汉雨棣
如何从一个开放聊天的大模型,真正变成能够面对行业、解决行业复杂决策任务的大模型?
(资料图片仅供参考)
9月8日下午,复旦大学教授、博导、上海市数据科学重点实验室主任肖仰华在2023 Inclusion·外滩大会上外滩大会上对这个问题做出了回应。他指出,大模型已经不单单是一个知识的容器,更是一个认知能力的引擎。通用大模型行业的适配和优化的道路今天才刚刚开始,未来很多企业都会投身其中。肖仰华从数据层面、知识层面、架构层面、评估评测层面、生态体系为大模型的专业化等提供了解决思路。
以下为演讲全文,经编辑:
很高兴今天能在外滩大会的场合向大家汇报一下我们最近在通用的大模型,向行业落地的时候遇到的一些挑战以及应对的思路。
我们知道金融这类行业,它是一种典型的复杂的决策任务为主要内容的行业。大模型现在主要还是在开放聊天场景取得了不错的效果。那么如何从一个只能做开放聊天的大模型,真正地变成一个能够解决我们行业的复杂决策任务的大模型?事实上,这成为了现在行业当中的一个痛点。所以,今天我给大家汇报一下我们在这方面的思考。
先给大家解释一个问题,这个问题相信是很多人在使用大模型的时候都遇到过的一个困惑。我们很多的大模型是在通用语料上炼制的,所以是通用大模型,我们为什么一个复杂的垂直行业的应用场景却需要一个通用大模型?这个问题我进行解答。
自从Chat GPT发布以来,生成式大模型成为整个人工智能新底座。随着其参数量越大、训练量越充分,其能力仍然在增长,它迅速地在很多我们长期解决不好的任务当中,各类认知任务当中取得了非常不错的效果,甚至超出了人类专家的水平。可以说通用人工智能的这波新的技术革命浪潮已经袭来。
通用大模型到底给我们创造了什么价值,提供了什么能力?通用大模型首先可以视作是一类大规模的通用的知识的这样一种容器。只不过它是一个参数化的知识容器,大模型是一个参数,我们给它构造一定的查询,提出一定的稳定诱导它,它就可以回答这个问题,它就能提供相应问题所代表的指示。相比较我们传统的知识载体,我们以前在to B行业用的最重要的知识载体是知识库、知识图谱。知识图谱里面是一种符号化的知识表达,正是因为两者之间鲜明的特点,一个是参数化,一个是符号化,我们说这两类知识应该来讲在我们行业当中是一种很重要的互补关系。知识图谱中的知识因为是符号表达,所以它在可控、可理解、可编辑、可防护等很多方面是有着超出大模型的优点的。反之,我们的大模型在可控、编辑,在隐私防护,在可理解、可解释等很多方面,都仍然存在着较大的瓶颈。所以两者之间的互补是对我们很多行业来讲非常重要。
大模型已经不单单是一个知识的容器,它更成为一个认知能力的引擎。我们看今天的大模型,它能够给我们提供很多能力,而这种能力恰恰是我们很多行业的认知所需要的。它提供了很多能力,比如常识理解的能力。
我们今天去问大模型一些常识的问题"杯子放不下鸡蛋,它太小了"这个"它"是谁?或者说"杯子放不下鸡蛋,它太大了"的"它"又是谁?我们人都很擅长解决这类常识问题,但是以前我们人工智能遇到这类常识问题基本上很难解决。
今天,大模型非常擅长的就是这类通识类、常识类的问题。它的能力不仅仅是常识理解。我们各种各样的语言理解任务、语言游戏任务,做一个文本的摘要,还有什么概念理解、运筹规划、问题求解,甚至还具备了一定自识反思能力,甚至还能有一些组合泛化的能力,甚至像ChatGPT4还有很强大的评估评价能力。所以整个大模型已经成为了人类水平的认知能力的这么一个引擎,一个提供者。
今天,尤其是最近这几个月我们又看到了大模型迅速地向一个自治智能体的大佬去发展,我们不仅仅把大模型当做一个某类数据处理的基础模型了,我们已经把它当作未来适应复杂环境的自治智能体的一个大佬,另外它有非常强大的规划能力,它能够自主地发起很多API的调用能力,它有了知识又有了认知能力,又有工具的使用能力,它足够胜任一个自治智能体的大佬。
当然往这方面发展的时候,我们也看到通用大模型依然有很多缺陷,比如说它的长短期记忆,它的主动学习机制,复杂决策,还有很多跟自我相关的自我管理、自我调整、自我控制等很多方面它仍然有蛮大的发展空间。但总体而言,我们认为这个趋势不可阻挡。
正是因为大模型具备上述各种能力,那么今天一个通用语料训练出来的大模型,它已经成为了我们行业垂语认知的一个重要的基座。以往,我们做了很多年的行业认知智能,行业智能的解决方案,比如说金融的智能解决方案。我们以前的基本思路是把这个行业的所有数据收集起来,构建这个行业的数据驱动的一些智能化解决方案,或者知识驱动的一些解决方案,或者二者相结合。我们的整个关注点仍然是行业的数据、行业的知识。但是直到大模型出来之后,是颠覆了我们的认识,我们发现其实行业的很多问题、领域的很多问题恰恰是建立在通用的认知能力基础上。
我跟很多医生和金融投资的专业人士聊过,比如医生在看病时80%的情况下他是在排除那些健康的情况,可能只有20%的病例是他要真正干预治疗的。也就是说,一个医生想胜任他的工作,首先他要认知什么是健康,而不仅仅是疾病,要理解疾病这个理念,我们先要理解什么是健康。要理解某个概念,我们恰恰要先理解这个概念之外的范畴。
所以通用认知的理解非常重要,没有通识能力,我们是不可能发展出专业认知能力的。
我们当前的通用大模型是否拿来就可用?是不是开箱即用,各个行业就能直接被赋能了?其实这当中还有很多问题要解决。首先,我们的行业应用,金融领域应用的本质,它是一类复杂决策任务,而绝不是Chat GPT这一类的开放闲聊的任务,开放闲聊再擅长,它离解决我们领域中的复杂决策任务还是有漫长的距离。我们作为一个投资分析师,作为一个医生,作为一个律师,作为一个行业专家,你是需要具备非常丰富的专业知识,需要对这个行业有一个研判,我们需要对综合任务能够具备拆解能力,我们还需要精力联系着编排的能力,我们还需要对一些未知的事物做预测,因为我们并不知道明天会发生什么。我们还需要在不完全的信息前提下做出及时的决策,我们的信息是永远不可能完备的。所以,金融领域本质是一类复杂决策,它远远比我们的开放闲聊要困难得多。
作为一个复杂决策的行业应用,你就会发现通用模型里面的专业知识是远远不够的。我们的通用大模型好比是帮我们夯实了一个宽广的知识的底座,它宽广有余,但是它纵深不足。一旦我们具体到某一个具体的任务、具体的场景、具体的行业,如果它从未学过IT运维,它怎么可能胜任这个任务?如果它没有这类知识的注入,怎样能从事相关工作?所以它的专业知识的深度是有限的。
对应到知识深度有限的是它长存的复杂的专家的思维推理能力仍然有限。所以通用大模型可以说仍然不足以解决我们领域的问题。通用大模型,尤其是生成式大模型有一个根本难题就是它的"幻觉"现象。当我们问它复旦大学的校训是什么?它一本正经地给了我答案,但是你仔细去看,它的出处是它自己胡编乱造的。我们的复旦校训是出自《论语》,但是它是随便编造的。其实生成式大模型非常擅长创造,往往是创造有余,但是事实的准确性不足。
生成式大模型自身有可能解决自身的问题吗?我们认为它很难从根本上解决问题,因为创造性是生成式大模型给我们带来的独特的一个价值,而创造性和追求事实之往往就是有矛盾。我们人类最伟大的艺术家就是擅长创造,创造就可以视为是"胡编乱造"。比如说李白的诗"飞流直下三千尺,疑是银河落九天",哪有三千尺的瀑布?银河哪能落水?这个从事实上判断都是错误的,所以创造性和事实正确性之间很有可能是一对矛盾。我们可能需要发展很多外部的工具来缓解大模型的"幻觉"问题。
大模型还有一个非常重要的困难问题,就是它缺乏忠实度。我们行业中经常是希望大模型按照我们给的规范、制度、文档回答问题,而不是你从通用领域习得的知识回答问题,你必须要充分考虑到我当前给你的文档,从技术上是叫Closed QA,而不是Open QA。大模型因为擅长发挥创造,它很有可能跳出你给定的内容去胡编乱造,这也是它非常大的问题,就是缺乏领域的忠实度。
通用大模型该如何优化才能解决上述问题?首先,通用大模型行业的适配和优化的道路今天才刚刚开始,我相信我们很多的企业都会投身其中,去持续地优化通用大模型在行业中的表现的效果。我们要把这件事情当做一个系统工程,要充分意识到它的艰巨性和困难,我们要从方方面面去寻找思路解决这个问题,要从数据层面、知识层面、架构层面、评估评测层面、生态体系等各个方面来去解决这个问题。
首先,数据层面。数据是否高质量、多样化,从根本上决定了大模型在行业中的应用效果,也决定了大模型是否合规、安全。现在有多少大模型如果你不是从头训练的,那个原始语料不是自主可控的,它里面可能涉及隐私、版权、意识形态的问题。所以从数据的源头加强对数据的治理,这是大模型往行业优化非常重要的一个思路。
其次,我们可以在训练层面有很多面向领域的训练优化。比如说,我们知道现在的生成式大模型主要是基于文本中下一个词的预测这个任务来训练的。但是我们行业的数据、领域的数据是有领域的特点的,它不是简单的文本,我们为什么不在自己的监督任务当中去做一些领域特色的自监督任务的设计?
举一个例子,我这里是一个地图相关的数据,那像这样的数据做预训练,很重要的一件事情是临近位置的预测,而不是说这个商场附近一定会有停车场。像这种临近位置的预测就比你next token prediction在这类数据更有价值和意义,这个思路是非常具有启发意义的,你的行业数据有什么样的特点,你应该设计怎样的监督机制才能激发你的大模型,充分的习得你领域的数据的特点和背景知识。
我们在很多行业要把很多领域知识给用上,我们在自监督设计任务的时候也可以考虑我们领域的一些指示。比如很多行业存在一些术语,我们为什么不让大模型准确地预测出某个词的全称、简称这类任务来监督大模型?这样就可以把行业的知识注入进去。
我们还需要进一步提升大模型往行业应用时候的认知能力。比如说大家很困惑的一件事,比如说金融行业往往是长文本,大模型要对长文本进行摘要。比如说客户打电话过来7-8分钟不知道在讲什么,实际上就是两三句话,这个是很实际的一个应用。但是一旦文本输入长度变长,我们很多大模型效果就变差了,所以如何提升咱们大模型对长文本的认知能力?这里边有很多困难,因为长文本本质上是有很多全局约束,我们需要大模型可以去处理、去理解。
还有长短期记忆,行业专家经常会调教小白你这个事该怎么做,这是一种短期记忆,那这个短期记忆我们这个大模型或者这个数字人,你能否记住它,能够下一次处理类似任务的时候用上?这都是很重要的认知能力提升。还有一些复杂的数量推理、复杂的表单处理、复杂指令理解、复杂格式处理还有约束规划等等。
比如说约束规划能力在行业就特别重要。我们很多行业里面的文本任务,或者很多金融的处理任务本质上是一种带约束的规划。这里是举一个给糖尿病人做蛋糕的例子,你能否把一步一步的步骤让大模型来生成,那我们将来比如说生成一个金融文本,你实际上是要分成一步步,先生成标题、摘要,然后大纲、细节。那么这样一种规划能力,实际上是大模型在行业中应用时非常重要的一个能力,这本质上是一个带约束的能力,因为我们肯定有很多的要求和约束,那我们能否让大模型有这样的能力就非常关键。
还有让大模型具有数量推理能力。我们的文本里一定是覆盖了大量的数字和量纲的,但是大部分大模型在这方面会出问题。所以我们一定要花大力气,比如说我们构建的量纲知识库、量纲指令集来为调大模型,使得它能够胜任行业中数量的理解。
还有大模型的逻辑能力。我们的金融也是一个逻辑的游戏,我们很多的表述是一种逻辑表达,否定、与、或等表达是非常复杂的,但是你去看大模型它实际上在这种逻辑的相关表达方面是有局限有缺陷的。这时候我们怎样提升大模型相应的能力?这是很重要的一件事。
还有我们的大模型能否根据我们的行业专家的反馈,灵敏地调整我们生成的内容和策略?因为将来的行业大模型一定是跟行业专家打交道,行业专家是可以给你行业大模型一定的反馈和输入的,但前提是行业大模型能否根据行业专家的反馈适度地调整它相应的结果。尤其是要杜绝现在很多的大模型就是叫"墙头草",也要杜绝它"死鸭子嘴硬",这两类极端的错误都要杜绝。
我们尤其还要注重大模型和相关技术的协同。尤其是和我们传统的像知识图谱技术的协同。我们现在在生成式大模型的协助下,我们现在行业中的很多任务被分解成了提示、生成、评估这三个子任务,现在生成式大模型主要是在生成这个阶段,而在提示和评估阶段,仍然有我们很多传统的系统发挥价值的余地。比如说我们可以利用知识图谱里边的知识增强我们的提示,利用知识图谱的知识做事后的评测和验证,这都是进一步改善大模型的幻觉问题。
事实上,图谱中的知识往往擅长表达的是专业知识、私密知识,和可理解、可控的符号知识,它和我们大模型这种所表达的参数化的,不可理解的知识是一种紧密的互补关系,而不是对立关系。如果我们用外部的知识图谱增强它的提示,是可以缓解它的幻觉问题的。
我们还要重新架构我们的系统,其实大模型对我们整个系统架构是有很大的影响的。大家去看大模型的能力的习得,它把一个能力分成三件事,首先是底座模型的能力的习得,这时候它学的是知识。后来在指令微调阶段它学的是咀嚼任务的能力。后来在价值对齐阶段,它解决的是价值对齐的问题。所以它把整个智能分解成了知识、能力、价值三方面。这对我们是非常有启发意义的,也就是说我们将来的整个系统架构,那些负责知识的部件、系统,你就负责知识。负责能力的,你就负责能力。负责价值的,你就负责价值。
而且在这样的系统之中,我们不一定只是利用大模型。比如说我们的传统知识库,你就把我知识干好也可以。价值对齐你就用人,也行。所以把智能分解后重新架构我们的系统,这是当前行业利用大模型形成解决方案非常重要的一个任务。
在这个过程当中,我们尤其要重视传统小模型的价值。很多人认为大模型来了,小模型就被颠覆了,不然,其实小模型有小模型的作用,我们传统的很多分类模型、预测模型仍然有用,我们真正要做的是把大模型、小模型协同起来,实际上小模型往往就是我们插件应用可以显著地补足我们通用大模型能力的不足。重底座、轻应用和重应用、轻底座,我认为都是在行业里面使用大模型的一个错误,所以两者我们要兼顾,把大模型、小模型协同好。
最后,强调一下评测的重要性。事实上,我们现在很多行业大模型的炼制应用过程中,我们50%以上的时间是花在了评测。我们尤其要注重构建面向领域的评测数据。
比如说,日志运维就要构建一个运维的评测数据集。同时,你评测里面对知识本身的评测,比如金融领域有风控的、有信贷的,不同行业的知识它是否习得了。同时,我们也要注意大模型评测不能只是高分低等,如果只是关注知识的评测,那你这个大模型往往是高分低能,就是刷榜刷得很好,但是它解决问题不一定解决得好。
我们不单单要建立掌握知识的评测,还要建立起面向解决问题能力的评测。我们发现很多真实问题,比如说金融行业的指令是很复杂的,它往往不是单一任务,是多个任务交织在一起,它的指令里面有非常多很复杂的约束,有格式约束、形式约束,输入的文本往往是混杂的,是很长的,所以是非常复杂的任务。那你的大模型在这样的情况是否还解决问题,这是非常重要的,要建立起能力的评测。
我们今天谈行业大模型、金融大模型,仅仅也只是把通用大模型从通识阶段往专识阶段推动了一小步,事实上我们未来还有很多事要做。好比一个医生的养成过程是非常复杂的,除了通识到大学里边的知识外,还要实习,再然后他作为一个医生不断地从病例中获得反馈,从老师傅那边获得反馈,再然后他变成了一个具有行业敏锐洞察的专家,所以未来我们的大模型也要付诸实践,让它在环境中获得反馈,去进化,让它掌握我们行业的基础设施和能力,这样我们的大模型才能真正成为行家里手。
这一轮大模型赋能行业的本质,根本目标其实就是实现专家水平的行业智能化。
最后,我想说通用大模型一定是行业大模型发展的底座,但是如果单单停留在通用大模型是不够的,我们仍然有漫长的领域适配和行业优化的路要走,才能走完这最后的一公里。谢谢大家!
责任编辑:
标签: