实测8款开放大模型：生成朋友圈文案功能受欢迎，文心舔狗日记生成器引热议

当前位置： 首页 >热点 > 正文

实测8款开放大模型：生成朋友圈文案功能受欢迎，文心舔狗日记生成器引热议

2023-08-31 21:31:38 来源：搜狐科技

全民进入AI大模型时代！8月31日，首批8款通过备案的大模型产品正式面向公众提供服务，从内测开始走向全民应用，生成朋友圈、舔狗日记生成器等功能引发热议。

首批开放的大模型产品有6款来自企业，包括百度的文心一言、字节的豆包、商汤的商量、百川智能的百川大模型、智谱华章的智谱清言、MiniMax的ABAB大模型；另外两家来自科研机构，包括中国科学院自动化所的紫东·太初、上海人工智能实验室的书生大模型。

这是今年8月15日正式实施的《生成式人工智能服务管理暂行办法》提出生成式AI服务要进行备案规定后首批获得通过的产品。此外，还有消息称，腾讯、华为和科大讯飞的大模型产品也将在近日获得备案通过。

(资料图)

这也意味着，国内发酵半年多的AI大模型热潮终于迎来C端市场检验的时刻。它们可以在哪使用？有哪些特色功能？它们的能力表现如何？会像ChatGPT横空出世时那般令人惊艳吗？搜狐科技对此进行了实际体验和横向测评。

一半大模型参数超千亿，仅三个推出APP版本

首批8个大模型开放后，吸引不少用户使用。比如文心一言官网显示，当前使用人数太多，服务可能响应缓慢，APP版本开放下载12小时飙升苹果应用商店免费榜首。目前，文心一言运行在千亿参数规模的文心大模型3.5版本上，李彦宏此前称会在年底会迭代到4.0版本。

在官网界面上，除对话框，文心一言还有四大插件，这是和另外7个大模型产品独特之处，具体包括默认的百度搜索、说图解画、E言易图和览卷文档。早前发布的用于视频生成的一镜流影，因所需算力较高尚未开放。

此外，文心一言还提供了指令中心，涵盖人物对话、创意写作、编程辅助，以及招聘、求职、美食、旅行等18个细分场景。比如在人物对话中，可以模仿孔子、牛顿、鲁迅，甚至是长颈鹿等的口吻或语调进行对话。

文心一言APP页面主要有三大板块：对话、社区和发现，且支持文字和语音输入。在对话框左侧和发现的灵感中心还有提示词工具，包括常用的短视频脚本生成、PPT大纲、文本润色等，还包括特别受欢迎的生成朋友圈功能，其热度值超过30万，部分有趣的提示词，如舔狗日记生成器等也引发谈论。可以说，这些提示词一定程度上降低了普通用户使用的门槛。

字节的豆包则是基于云雀大模型开发的AI工具，具备聊天机器人、写作助手以及英语学习助手等功能，8月17日才开始对外测试。

目前豆包网页版的功能相较文心一言比较单一，主要包括聊天助手小宁、写作助手、英语学习助手和写作润色，同时可以选择中英文切换。APP版本和网页版功能差不多，但其默认用户用语音输入（也可文字输入），输出的文字也默认AI用语音回答，聊天属性更强。

商汤的商量则是今年4月发布的日日新大模型体系中的自研中文语言大模型，目前已是2.0版本，参数规模超千亿，能理解中文等语言的语义，并完成逻辑推理、规划建议、内容创作、文本摘要、情感分析等任务。该产品目前仅有网页版，且对话页面非常简洁。

王小川在今年4月创办的百川智能的对话大模型是百川大模型，其融合了意图理解、信息检索以及强化学习技术，在知识问答、文本创作领域表现突出。目前也仅有网页版，且界面也比较简洁，仅给出了一些提问的参考。

智谱清言是基于智谱AI的ChatGLM2模型开发，支持中英文，具备通用问答、多轮对话、创意写作、代码生成以及虚拟对话等能力，多模态能力还有待开放。它也提供了十多个细分场景的灵感大全，并同步在APP和微信小程序版本上，这两个版本也支持语音输入。

值得一提的是，智谱清言还有青少年模式，其版本对话内容由权威教辅数据训练生成，对话轮次和使用时间也有限制，单日可对话次数50次，每日晚22时至次日早6时无法开启对话，需输入密码启用。这是目前八个大模型产品唯一一个具有青少年模式的产品。

Minimax的ABAB是一款先进的通用大语言模型，在语言处理能力方面突出，能够理解和生成自然语言文本。今年3月，MiniMax 推出面向企业用户的API开放平台，如今在Minimax开放平台上已可以体验到基于abab5.5-chat的MM智能助理，其拥有对话、招聘等超过15个场景模板，并可以选择文本和语音两种模式。

Minimax是一家成立于2021年的公司，由商汤前副总裁闫俊杰成立，且颇受资本青睐，获得腾讯、高瓴、IDG等金浦投资。在今年6月Minimax完成A轮2.5亿美元融资后，估值超过12亿美元，如今是国内估值最高的大模型初创公司之一。

最后两个大模型产品则来自科研机构，中国科学院自动化所研发的多模态大模型紫东·太初参数达千亿级别，并基于全栈国产化基础软硬件平台建立。它将文本、视觉、语音各个模型协同，实现三模态的统一语义表达，能完成跨模态检测、视觉问答、语义描述等任务。今年6月，紫东·太初发布2.0版本，加入了视频、传感信号、3D点云等新的模态数据。

目前，紫东·太初尚没有单独的网页版或APP产品，其上线在华为AI社区昇思大模型平台上版本更多体现的是其多模态能力，比如以图生文、以文生图和视觉问答等三大功能。

最后一个则来自上海人工智能实验室的书生通用大模型，由该机构联合商汤、香港中文大学、上海交通大学联合研发。目前书生大模型体系参数已达千亿级别，包括书生・多模态、书生・浦语和书生・天际等三大基础模型。不过，目前在书生大模型官网上，尚未看到体验入口，在应用商店也并未搜到相关APP。

整体而言，从易用性来看，百度的文心一言、智谱AI的智谱清言和Minimax的ABAB的功能和场景相对丰富，提供了比较多的示例、灵感或提示词，这能够有效降低用户的使用门槛。

此外，文心一言、豆包和智谱清言同时具备网页端和移动端，且智谱清言还有小程序版本，这能够使得它们得到更多的应用渠道。通过向C端用户开放后，这些大模型产品也有望从人类反馈中得到训练，从而推动基础底座模型的优化。

商量整体表现较好，文心一言多模态能力突出

这些首批开放的大模型能力到底如何，搜狐科技通过官网对七个大模型产品（除书生大模型，紫东·太初主要测试多模态能力）从基本维度进行了横向测评。

首先是在实时消息和知识问答方面，对于“国内首批通过备案、面向公众提供服务的8个大模型有哪些？”的问题，商汤的商量全部答对，文心一言和MM智能助理都答对6个，其中MM智能助理还给出多个媒体报道的参考；百川大模型答对5个，提到了另外3个还没有通过备案的大模型；豆包只答对2个，智谱清言则完全回答错误。

从上到下（从左到右）依次为文心一言、豆包、商量、百川、智谱清言、MM智能助理的回答（下同）

对于“8款AI大模型产品面向公众提供服务会对AI行业产生什么影响”的回答，前述6个大模型给出不同的答案。文心一言、豆包、智谱清言、MM智能助理则给出全都是正面影响的回答，而商量、百川则相对比较全面，认为既有机遇也有挑战，其中智谱清言、MM智能助理不会在结尾作出总结。

在逻辑推理方面，则用“树上有9只鸟，用枪打跑1只，还剩下几只”的问题进行了测试。文心一言、豆包、MM智能助手全球都按正常的数学逻辑方法回答是8只，而商量、百川、智谱清言最后结论都是树上没有鸟，且都给出了比较具体的逻辑分析。

在数学能力方面，以今年全国高考甲卷（文科）难度较低的题目“某校文艺部有4名学生，其中高一、高二年级各2名。从这4名学生中随机选2名组织校文艺汇演，则这2名学生来自不同年级的概率为（）”的评测显示，豆包、商量、智谱清言等都给出正确答案，而文心一言、百川在一通分析后给出错误答案，而MM智能助手则未作出响应。

在多模态能力方面，搜狐科技主要选取了具备此种能力的文心一言、基于商汤日日新模型的秒画、紫东·太初等进行了测评。以“穿着红色衣服的女孩正在登雪山，阳光从山顶挥洒下来，映着蓝蓝的天空”为描述生成的画面分别如下：

从最终生成的图片来看，文心一言和秒画的整体效果比紫东·太初好，对于文本的描述要素基本都有展现，且清晰度更好，而三张图片都明确标注出了AI作图等类似字样。此外，紫东·太初以文生图的文字描述还有着30个的字数限制，或会影响最终生效的效果。

此外，图像分析也是多模态重要的能力之一。以前述商汤秒画生成的图片为例，百度文心一言借助说图解画的插件分析出了图中女中的着装、神态，甚至是心理状态，而紫东·太初分析结果只有一句话且错误，误将女孩身后的阴影认为是滑雪板。

从前述相对简单的测评来看，在实时消息和知识问答方面，商汤的商量、文心一言、百川大模型表现相对较好；在逻辑推理和数学能力方面，商量和智谱清言表现更为突出。在多模态能力方面，目前仅有文心一言和紫东·太初开放相关能力，文心一言几乎是碾压性胜出。总体而言，目前还没有谁是全能选手。

目前，市面上也有很多评测推出大模型能力榜单，但每个榜单的结果也有明显出入，行业也缺乏统一权威的评测标准，但总体都还不及ChatGPT。随着首批大模型产品开放，它们将迎来更多市场用户的检验，这也将大概率决定着谁能最终脱颖而出。

责任编辑：

标签：

上一篇：龙洞堡派出所大力推进“两队一室”建设，积极创建“枫桥式公安派出所”

上一篇：最后一页