智源林咏华：大模型开源生态应百花齐放，国内需在基础技术和系统层面补课|环球资讯

当前位置： 首页 >热点 > 正文

智源林咏华：大模型开源生态应百花齐放，国内需在基础技术和系统层面补课|环球资讯

2023-07-05 10:22:58 来源：搜狐科技

搜狐科技《思想大爆炸——对话科学家》栏目第13期，对话北京智源人工智能研究院副院长兼总工程师林咏华。

嘉宾简介：

(资料图)

林咏华，现任北京智源人工智能研究院副院长兼总工程师，主管大模型研究中心、AI系统及基础软件研究、产业生态合作等。曾任IBM中国研究院院长，获评IBM全球杰出工程师。从事近20年的系统架构、云计算、AI系统、计算机视觉等领域的研究，有超过50个全球专利，多次获得ACM/IEEE最佳论文奖，获评2019年福布斯中国50位科技领导女性。

出品 | 搜狐科技

作者 | 梁昌均

未来每个行业，甚至每家公司都会有自己的大模型。随着AI大模型浪潮席卷而来，这越发成为产业界的共识。

不过，大模型毕竟是一场烧钱的“豪华游戏”，并不是每家企业都有能力从头训练自己的大模型。解决办法主要有两种，一种是利用头部大模型厂商的能力，另一种则是借助开源的力量。

“大模型产业的发展必须要有开源。”近日，北京智源人工智能研究院副院长、总工程师林咏华在与搜狐科技独家对话时强调到。

林咏华在AI领域有近20年的从业经历，从IBM中国研究院到加盟智源，她的研究重心也从小模型转向大模型。而作为国内最早开展大模型研发的机构之一，智源也是开源生态笃定的推动者。

在不久前的2023智源大会上，该机构发布了全面开源的“悟道3.0”系列大模型及算法。但不同于此前高达1.75万亿参数的“悟道2.0”，这次智源并没有继续“拼”更大的参数。

林咏华解释称，这是基于产业落地层面的考虑，模型的大小要考虑应用场景，需要“量体裁衣”，找到适合的模型尺寸，这样反而能够真正推动大模型在产业里落地成功。

林咏华认为，国内要想追赶ChatGPT，还需解决高质量和多样性数据欠缺，以及算力不足等挑战。同时她认为，计算机视觉走过了小模型阶段，现在也开始进入“大模型的GPT时代”。

业内多数观点认为，大模型将是迈向通用人工智能的关键。不过，林咏华认为，大模型并不会统一AI领域，未来大模型将和小模型长期共存。

她同样认为，AI有超越人类的潜力，且在不少维度已超越人类。但它是否未来能完全超越人类？“很难回答，人类能力的边界在哪？我们还没能定义人类的全部能力。”

在对话中，林咏华多次强调开源的重要性。在她看来，基础大模型是能力基座，通过开源，企业可以降低技术投入和商业风险，同时开源也有助于社会资源的合理使用。

“每个大模型，尤其是上百亿和千亿级别的大模型，训练要耗费大量数据，如果大家都去做基础通用模型，将会有大量的算力重复使用，带来巨大的能源消耗。如果开源的模型能够满足企业微调和持续训练的需要，没有必要每一家都去做基础通用模型。” 林咏华表示。

林咏华认为，大模型产业的发展离不开开源，但并非每家企业都要开源。企业要更多考虑商业发展的因素，保障训练大模型所耗费的上千万成本投入获得回报，而高校和科研机构在商业利益上的压力和诉求相对较小。

“智源作为非营利性机构，希望通过开源让更多企业将大模型用起来，从而扩展到更多下游生态。”林咏华对搜狐科技表示，智源不会去抢占其它大模型的市场，这不是智源的目标，而是为产业提供更好的大模型基座和工具，赋能产业可以去定制自己的大模型及应用。

为此智源还推出了FlagOpen（飞智）大模型开源技术体系，包括算法、模型、数据、评测、工具等组成部分。林咏华提到，智源希望通过FlagOpen，共建共享大模型时代的“新Linux”开源开放生态。

“智源只是FlagOpen的牵头者，目前已经有多个企业和科研团队在一起贡献。我们希望有更多的高校和企业来共建，它应该是整个产业的开源体系和开源生态。”林咏华表示。

在过去很长时间，中国科技公司曾一度较高依赖国外的开源社区，现在则到了要“补课”的时候。林咏华也在对话中表示，国内AI企业要想在AI时代实现超越或领先，要推动高质量数据集的开源开放，还要加强基础性技术的研发。

此外，还需加强系统层面的投入，包括芯片架构创新、底层软件、编译器等。“为什么这些基础性的重要创新没有发生在中国？没有更多的国内团队做这些事情？”林咏华呼吁，在这些层面，国内都需要尽快补课。

以下是对话实录（经编辑整理）

搜狐科技：智源发布悟道3.0系列大模型，其中悟道·天鹰（Aquila）语言大模型参数有多大？有哪些突出的能力？

林咏华：考虑到产业落地情况，这次悟道·天鹰（Aquila）语言大模型有两个参数，70亿和330亿参数，即Aquila基础模型（7B、33B）。70亿参数的模型可以在消费级显卡上跑起来，有望把大模型的能力推广到边缘侧，而330亿参数的模型是可以在具备80G能力的单张显卡上跑起来的最大模型。

虽然这次悟道·天鹰（Aquila）语言大模型的参数量不是往更大规模上去做，但追求更高质量。一是中英文知识都很强；二是训练数据质量有了很大提升，更高质量的数据比量更大的数据可能更重要；三是加入代码，提升了模型的推理能力。这次也改变了模型结构，使用Decoder-only结构，使得生成能力更加出色。

搜狐科技：现在国内大模型都在迭代，您认为追上GPT-4了吗？还需在哪些方面发力？

林咏华：我们在追赶，他们也在发展。我们有很现实的制约因素，这需要合力解决。第一是我们的中文数据，尤其是在高质量和多样性方面，比起英文数据欠缺很多。第二是算力，它不但决定了是不是能做更大的模型，还决定了是否可以更激进地采用更新的算法。

搜狐科技：除了追求“大”，未来大模型的发展方向是什么？

林咏华：模型的大小要考虑应用场景，需要“量体裁衣”，找到适合的模型尺寸，能够放到要应用的行业里，这样反而能够推动大模型真正在产业里落地成功。

搜狐科技：目前行业聚焦大语言模型，智源还推出了“悟道·视界”视觉大模型系列，计算机视觉是否会迎来GPT时刻？

林咏华：深度学习过去10年基本是以计算机视觉为引领，走过“小模型”的阶段，也遇到了瓶颈。以前计算机视觉都是监督学习，智源现在训练出来了视觉大模型Painter，首创上下文视觉学习，也可以实现大语言模型的in-context learning（上下文学习），这以前在计算机视觉领域没有发生过。

计算机视觉现在也开始走入“大模型的GPT时代”。对人类来说，语言和视觉是两个重要的不同维度，语言更多跟人的思维和思考相关，视觉则是人对物理世界的认识。计算机视觉在大模型上的突破，势必也会推动AI更好地自动理解物理世界。

搜狐科技：您从做小模型转向大模型研究，您认为大模型是否会统一AI江湖？

林咏华：未来的AI时代，大模型和小模型会长期共存。小模型和大模型的差异是参数量，而不是技术，技术会融合贯通。落地的时候，要考虑对成本、实时性的要求，有些不需要那么宽广认识能力的应用领域，小模型更适合。如果要做人类助手，啥事情都能干，那必然大模型更有优势。

搜狐科技：您从事AI研究有近20年，您认为AI真的有潜力超越人类吗？

林咏华：我觉得在某些方面有。马斯克说，人类现在已处于“半机器人”状态，人类不是靠大脑来记东西，而是靠外包记忆给计算机和网络系统。当我们说AI超越人类的时候，也需要像评测模型一样去评测AI在哪些维度超越了人类。AI已经在不少维度超越了人类，十年前机器对图片的分类能力已经超过人类，今天ChatGPT在更多的范围超越了人类。

搜狐科技：AI能全部超越人类吗？

林咏华：这个很难回答，人类能力的边界在哪？我们自己到现在还没能定义人类的全部能力。

搜狐科技：国内有70多个大模型，半数已开源，高校和科研是主力，企业开源较少，造成这种现状的原因是什么？

林咏华：大模型时代，企业很愿意开源代码，不愿意开源的更多是模型本身，毕竟训练出一个高质量的模型可能需要上千万的成本。企业要保障这些投入通过商业的方式获得回报，而高校和科研机构在商业利益上的压力和诉求没那么多。

搜狐科技：企业不太愿意开源的话，对整体大模型产业的发展，会有什么影响？智源为什么愿意开源开放？

林咏华：大模型的发展必须要有开源，但是不是每家企业都要开源才能让产业发展起来，这倒未必。企业训练大模型耗资太大，很难要求企业把自己核心的东西都拿出来。同时，开源的大模型最好能商业可用，否则很多中小企业就只能重新训练，这会导致社会资源的浪费。

智源作为非营利性机构，希望通过开源大模型本身和技术栈，让更多企业能够将大模型用起来，从而扩展到更多的下游生态，抢占其它团队的大模型市场并不是智源的目标。

搜狐科技：智源希望借助FlagOpen（飞智）大模型开源技术体系，打造大模型时代的“新Linux”开源开放生态，为什么要对标Linux，而不是Wintel和安卓？

林咏华：首先是开放性，同时Linux本身有很多配套组件，包括内核、I/O等。大模型也需要很多配套组件，FlagOpen既有算法、模型及工具一站式开源项目FlagAI，数据工具开源项目FlagData，也有基础大模型评测开源项目FlagEval，以及底层系统性能评测项目FlagPerf等。这些需要有机结合，才能够支撑起整个大模型的发展，所以我们希望能够为大模型产业打造一个“新Linux”开源开放生态。

搜狐科技：大模型时代，会只有一个生态系统吗？或者说最初会有很多个，最终只有一个？

林咏华：围绕着大模型的不同方面，会有不同的生态，我们希望“向上”能有更多的深度学习框架的支撑，“向下”可以拉动更多不同的芯片架构发展。智源只是FlagOpen的牵头者，我们希望有更多的高校和企业一起共建，相当于FlagOpen不只是智源的开源体系和开源生态，而应该是整个产业的开源体系和开源生态。一个开源生态的成功应该是百花齐放的，很多厂商在里头共建，智源是不是永远走在前面不重要。

搜狐科技：未来每家企业可能都会有自己的大模型，开源会让这一趋势更容易实现吗？打造开源生态对整个大模型产业有什么样的推动作用？

林咏华：这是肯定的，这是我们开源的目的，希望能够帮助企业打造自己的大模型，让企业不焦虑怎么打造基础模型。基础模型决定了行业的垂直模型或专用模型的基础能力，它是很重要的能力基座。一方面要考虑模型在理解、生成等智能涌现的能力，另外还要考虑合规、伦理等问题。开源基础模型，可以降低企业的技术投入，并保障企业在此基础上后续训练出来的模型质量，降低企业的商业风险。

同时，打造开源的大模型生态，有助于社会资源的合理使用。每一个大模型，尤其是上百亿、上千亿级别的大模型，训练要耗费大量的算力。如果大家都去做基础通用模型，将会有大量的算力重复使用，由此带来的能源消耗巨大。如果有开源的模型，能够满足厂商微调和持续训练的需要，就没有必要每一家都去做基础模型。

搜狐科技：国内打造开源的大模型生态体系，面临哪些优势或者挑战？

林咏华：优势是“人多”：用户多、开发者多、团队多。劣势可能是文化有些差异，欧美的开源项目通常做得很好，大家愿意合力去做，愿意用别人的东西，不会造成整个开源社区的割裂。我们希望国内通过共用把生态和社区合力建起来，否则像现在大家各有各的社区，会有所割裂大家的力量和声音。

搜狐科技：中国科技公司此前高度依赖国外的技术社区和开源社区，现在外部环境也在变化，要想在AI时代实现超越或领先，应该从哪些方面补课？

林咏华：首先是高质量数据集的开源开放；第二是基础性技术，比如有没有更创新或更高效的模型结构可以超越Transformer。Transformer已经获得成功，其他人有没有勇气另辟蹊径去尝试和验证，目前国内还有差距，希望有更多的科研团队在此发力。

此外，在系统层面，包括芯片架构的创新、底层软件、编译器等，我们投入也不够。AI领域此前出来了不少很好的开源编译器工具，包括英伟达的CUDA、OpenAI的Triton、谷歌的MLIR等。为什么这些很基础性，打通了算法和芯片之间桥梁的重要创新没有发生在中国？没有更多的人在国内做这些事情？国内也很需要加强基础性创新，我们要尽快赶上。

责任编辑：

标签：

上一篇：天天要闻：金杨股份：目前给宁德时代供应方形封装壳体

上一篇：最后一页