当前位置: 首页 >热点 > 正文

智源林咏华:大模型开源生态应百花齐放,国内需在基础技术和系统层面补课|环球资讯

2023-07-05 10:22:58 来源:搜狐科技

搜狐科技《思想大爆炸——对话科学家》栏目第13期,对话北京智源人工智能研究院副院长兼总工程师林咏华。

嘉宾简介:


(资料图)

林咏华,现任北京智源人工智能研究院副院长兼总工程师,主管大模型研究中心、AI系统及基础软件研究、产业生态合作等。曾任IBM中国研究院院长,获评IBM全球杰出工程师。从事近20年的系统架构、云计算、AI系统、计算机视觉等领域的研究,有超过50个全球专利,多次获得ACM/IEEE最佳论文奖,获评2019年福布斯中国50位科技领导女性。

出品 | 搜狐科技

作者 | 梁昌均

未来每个行业,甚至每家公司都会有自己的大模型。随着AI大模型浪潮席卷而来,这越发成为产业界的共识。

不过,大模型毕竟是一场烧钱的“豪华游戏”,并不是每家企业都有能力从头训练自己的大模型。解决办法主要有两种,一种是利用头部大模型厂商的能力,另一种则是借助开源的力量。

“大模型产业的发展必须要有开源。”近日,北京智源人工智能研究院副院长、总工程师林咏华在与搜狐科技独家对话时强调到。

林咏华在AI领域有近20年的从业经历,从IBM中国研究院到加盟智源,她的研究重心也从小模型转向大模型。而作为国内最早开展大模型研发的机构之一,智源也是开源生态笃定的推动者。

在不久前的2023智源大会上,该机构发布了全面开源的“悟道3.0”系列大模型及算法。但不同于此前高达1.75万亿参数的“悟道2.0”,这次智源并没有继续“拼”更大的参数。

林咏华解释称,这是基于产业落地层面的考虑,模型的大小要考虑应用场景,需要“量体裁衣”,找到适合的模型尺寸,这样反而能够真正推动大模型在产业里落地成功。

林咏华认为,国内要想追赶ChatGPT,还需解决高质量和多样性数据欠缺,以及算力不足等挑战。同时她认为,计算机视觉走过了小模型阶段,现在也开始进入“大模型的GPT时代”。

业内多数观点认为,大模型将是迈向通用人工智能的关键。不过,林咏华认为,大模型并不会统一AI领域,未来大模型将和小模型长期共存。

她同样认为,AI有超越人类的潜力,且在不少维度已超越人类。但它是否未来能完全超越人类?“很难回答,人类能力的边界在哪?我们还没能定义人类的全部能力。”

在对话中,林咏华多次强调开源的重要性。在她看来,基础大模型是能力基座,通过开源,企业可以降低技术投入和商业风险,同时开源也有助于社会资源的合理使用。

“每个大模型,尤其是上百亿和千亿级别的大模型,训练要耗费大量数据,如果大家都去做基础通用模型,将会有大量的算力重复使用,带来巨大的能源消耗。如果开源的模型能够满足企业微调和持续训练的需要,没有必要每一家都去做基础通用模型。” 林咏华表示。

林咏华认为,大模型产业的发展离不开开源,但并非每家企业都要开源。企业要更多考虑商业发展的因素,保障训练大模型所耗费的上千万成本投入获得回报,而高校和科研机构在商业利益上的压力和诉求相对较小。

“智源作为非营利性机构,希望通过开源让更多企业将大模型用起来,从而扩展到更多下游生态。”林咏华对搜狐科技表示,智源不会去抢占其它大模型的市场,这不是智源的目标,而是为产业提供更好的大模型基座和工具,赋能产业可以去定制自己的大模型及应用。

为此智源还推出了FlagOpen(飞智)大模型开源技术体系,包括算法、模型、数据、评测、工具等组成部分。林咏华提到,智源希望通过FlagOpen,共建共享大模型时代的“新Linux”开源开放生态。

“智源只是FlagOpen的牵头者,目前已经有多个企业和科研团队在一起贡献。我们希望有更多的高校和企业来共建,它应该是整个产业的开源体系和开源生态。”林咏华表示。

在过去很长时间,中国科技公司曾一度较高依赖国外的开源社区,现在则到了要“补课”的时候。林咏华也在对话中表示,国内AI企业要想在AI时代实现超越或领先,要推动高质量数据集的开源开放,还要加强基础性技术的研发。

此外,还需加强系统层面的投入,包括芯片架构创新、底层软件、编译器等。“为什么这些基础性的重要创新没有发生在中国?没有更多的国内团队做这些事情?”林咏华呼吁,在这些层面,国内都需要尽快补课。

以下是对话实录(经编辑整理)

搜狐科技:智源发布悟道3.0系列大模型,其中悟道·天鹰(Aquila)语言大模型参数有多大?有哪些突出的能力?

林咏华:考虑到产业落地情况,这次悟道·天鹰(Aquila)语言大模型有两个参数,70亿和330亿参数,即Aquila基础模型(7B、33B)。70亿参数的模型可以在消费级显卡上跑起来,有望把大模型的能力推广到边缘侧,而330亿参数的模型是可以在具备80G能力的单张显卡上跑起来的最大模型。

虽然这次悟道·天鹰(Aquila) 语言大模型的参数量不是往更大规模上去做,但追求更高质量。一是中英文知识都很强;二是训练数据质量有了很大提升,更高质量的数据比量更大的数据可能更重要;三是加入代码,提升了模型的推理能力。这次也改变了模型结构,使用Decoder-only结构,使得生成能力更加出色。

搜狐科技:现在国内大模型都在迭代,您认为追上GPT-4了吗?还需在哪些方面发力?

林咏华:我们在追赶,他们也在发展。我们有很现实的制约因素,这需要合力解决。第一是我们的中文数据,尤其是在高质量和多样性方面,比起英文数据欠缺很多。第二是算力,它不但决定了是不是能做更大的模型,还决定了是否可以更激进地采用更新的算法。

搜狐科技:除了追求“大”,未来大模型的发展方向是什么?

林咏华:模型的大小要考虑应用场景,需要“量体裁衣”,找到适合的模型尺寸,能够放到要应用的行业里,这样反而能够推动大模型真正在产业里落地成功。

搜狐科技:目前行业聚焦大语言模型,智源还推出了“悟道·视界”视觉大模型系列,计算机视觉是否会迎来GPT时刻?

林咏华:深度学习过去10年基本是以计算机视觉为引领,走过“小模型”的阶段,也遇到了瓶颈。以前计算机视觉都是监督学习,智源现在训练出来了视觉大模型Painter,首创上下文视觉学习,也可以实现大语言模型的in-context learning(上下文学习),这以前在计算机视觉领域没有发生过。

计算机视觉现在也开始走入“大模型的GPT时代”。对人类来说,语言和视觉是两个重要的不同维度,语言更多跟人的思维和思考相关,视觉则是人对物理世界的认识。计算机视觉在大模型上的突破,势必也会推动AI更好地自动理解物理世界。

搜狐科技:您从做小模型转向大模型研究,您认为大模型是否会统一AI江湖?

林咏华:未来的AI时代,大模型和小模型会长期共存。小模型和大模型的差异是参数量,而不是技术,技术会融合贯通。落地的时候,要考虑对成本、实时性的要求,有些不需要那么宽广认识能力的应用领域,小模型更适合。如果要做人类助手,啥事情都能干,那必然大模型更有优势。

搜狐科技:您从事AI研究有近20年,您认为AI真的有潜力超越人类吗?

林咏华:我觉得在某些方面有。马斯克说,人类现在已处于“半机器人”状态,人类不是靠大脑来记东西,而是靠外包记忆给计算机和网络系统。当我们说AI超越人类的时候,也需要像评测模型一样去评测AI在哪些维度超越了人类。AI已经在不少维度超越了人类,十年前机器对图片的分类能力已经超过人类,今天ChatGPT在更多的范围超越了人类。

搜狐科技:AI能全部超越人类吗?

林咏华:这个很难回答,人类能力的边界在哪?我们自己到现在还没能定义人类的全部能力。

搜狐科技:国内有70多个大模型,半数已开源,高校和科研是主力,企业开源较少,造成这种现状的原因是什么?

林咏华:大模型时代,企业很愿意开源代码,不愿意开源的更多是模型本身,毕竟训练出一个高质量的模型可能需要上千万的成本。企业要保障这些投入通过商业的方式获得回报,而高校和科研机构在商业利益上的压力和诉求没那么多。

搜狐科技:企业不太愿意开源的话,对整体大模型产业的发展,会有什么影响?智源为什么愿意开源开放?

林咏华:大模型的发展必须要有开源,但是不是每家企业都要开源才能让产业发展起来,这倒未必。企业训练大模型耗资太大,很难要求企业把自己核心的东西都拿出来。同时,开源的大模型最好能商业可用,否则很多中小企业就只能重新训练,这会导致社会资源的浪费。

智源作为非营利性机构,希望通过开源大模型本身和技术栈,让更多企业能够将大模型用起来,从而扩展到更多的下游生态,抢占其它团队的大模型市场并不是智源的目标。

搜狐科技:智源希望借助FlagOpen(飞智)大模型开源技术体系,打造大模型时代的“新Linux”开源开放生态,为什么要对标Linux,而不是Wintel和安卓?

林咏华:首先是开放性,同时Linux本身有很多配套组件,包括内核、I/O等。大模型也需要很多配套组件,FlagOpen既有算法、模型及工具一站式开源项目FlagAI,数据工具开源项目FlagData,也有基础大模型评测开源项目FlagEval,以及底层系统性能评测项目FlagPerf等。这些需要有机结合,才能够支撑起整个大模型的发展,所以我们希望能够为大模型产业打造一个“新Linux”开源开放生态。

搜狐科技:大模型时代,会只有一个生态系统吗?或者说最初会有很多个,最终只有一个?

林咏华:围绕着大模型的不同方面,会有不同的生态,我们希望“向上”能有更多的深度学习框架的支撑,“向下”可以拉动更多不同的芯片架构发展。智源只是FlagOpen的牵头者,我们希望有更多的高校和企业一起共建,相当于FlagOpen不只是智源的开源体系和开源生态,而应该是整个产业的开源体系和开源生态。一个开源生态的成功应该是百花齐放的,很多厂商在里头共建,智源是不是永远走在前面不重要。

搜狐科技:未来每家企业可能都会有自己的大模型,开源会让这一趋势更容易实现吗?打造开源生态对整个大模型产业有什么样的推动作用?

林咏华:这是肯定的,这是我们开源的目的,希望能够帮助企业打造自己的大模型,让企业不焦虑怎么打造基础模型。基础模型决定了行业的垂直模型或专用模型的基础能力,它是很重要的能力基座。一方面要考虑模型在理解、生成等智能涌现的能力,另外还要考虑合规、伦理等问题。开源基础模型,可以降低企业的技术投入,并保障企业在此基础上后续训练出来的模型质量,降低企业的商业风险。

同时,打造开源的大模型生态,有助于社会资源的合理使用。每一个大模型,尤其是上百亿、上千亿级别的大模型,训练要耗费大量的算力。如果大家都去做基础通用模型,将会有大量的算力重复使用,由此带来的能源消耗巨大。如果有开源的模型,能够满足厂商微调和持续训练的需要,就没有必要每一家都去做基础模型。

搜狐科技:国内打造开源的大模型生态体系,面临哪些优势或者挑战?

林咏华:优势是“人多”:用户多、开发者多、团队多。劣势可能是文化有些差异,欧美的开源项目通常做得很好,大家愿意合力去做,愿意用别人的东西,不会造成整个开源社区的割裂。我们希望国内通过共用把生态和社区合力建起来,否则像现在大家各有各的社区,会有所割裂大家的力量和声音。

搜狐科技:中国科技公司此前高度依赖国外的技术社区和开源社区,现在外部环境也在变化,要想在AI时代实现超越或领先,应该从哪些方面补课?

林咏华:首先是高质量数据集的开源开放;第二是基础性技术,比如有没有更创新或更高效的模型结构可以超越Transformer。Transformer已经获得成功,其他人有没有勇气另辟蹊径去尝试和验证,目前国内还有差距,希望有更多的科研团队在此发力。

此外,在系统层面,包括芯片架构的创新、底层软件、编译器等,我们投入也不够。AI领域此前出来了不少很好的开源编译器工具,包括英伟达的CUDA、OpenAI的Triton、谷歌的MLIR等。为什么这些很基础性,打通了算法和芯片之间桥梁的重要创新没有发生在中国?没有更多的人在国内做这些事情?国内也很需要加强基础性创新,我们要尽快赶上。

责任编辑:

标签:

返回顶部