当前位置: 首页 >热点 > 正文

科大讯飞星火大模型迎升级:知识问答能力提升24%,实测高考数学能力几无改善

2023-06-09 19:05:08 来源:搜狐科技

发布一个月后,科大讯飞星火认知大模型迎来首次升级。在6月9日的发布会上,科大讯飞宣布星火认知大模型更新到1.5版本,在开放式问答、逻辑推理和数学能力、多轮对话能力等三大方面迎来升级,并推出APP版本。

今年5月6日,科大讯飞推出星火认知大模型,并希望今年1024实现对标ChatGPT:中文超越、英文相当。“我们不仅仅是致敬和追赶OpenAI,更要在源头上做自主创新。”

科大讯飞董事长刘庆峰表示,通用人工智能绝不是一蹴而就,既要有短期攻关的雄心,更要有长期主义的恒心,这是应该遵循的产业逻辑和科研发展应有的规律。


(资料图)

据科大讯飞总裁吴晓如在发布会上介绍,升级到1.5版本的星火认知大模在知识问答、逻辑推理、数字能力、语言理解、代码能力、文本生成等方面均有所提升,并实现了综合能力的三大升级。

在开放式知识问答方面,将大模型的语言理解能力、概括表达能力结合类搜索插件,星火大模型解决了新知识难以更新、事实类问答容易“张冠李戴”等的内在问题,实现了知识问答能力相比原来24%的提升。

根据现场演示,星火认知大模型1.5版本可以分析法律问题、写起诉状,同时它也已经知道2023年全国高考甲卷的作文题目,并可以分析其所传递的意义。

在搜狐科技此前对5款AI大模型对该题的评测中,星火认知大模型生成题目为《掌控时间,做自己的主人》的作文(如下图),经过5位名师点评平均得分41分(满分60分),在5款大模型中位居第三。

此次升级后,讯飞星火写作文的能力是否有明显提升?搜狐科技再次进行了测试,题目为《时间的仆人》,感觉不如前述题目好,但这次总体结构和逻辑则不再像前一篇显得传统呆板。

在逻辑推理和数学能力方面,星火认知大模型1.5版本将长链条思维链的推理和数理逻辑推理结合起来,从而实现了能力的提升。从现场演示来看,它可以对逻辑比较复杂的问题进行解读,甚至可以给出对应的解释。

在数学能力方面,讯飞星火1.5对演示的中学生题目都能作出正确的解答,并可以给出具体的解题步骤。

在搜狐科技此前关于10道高考数学题的测试中,讯飞星火答对一半,正确率位居测试的5款大模型首位。此次升级后,搜狐科技将讯飞星火答错的另外5道数学题在APP端进行了测试,结果显示依然答错,正确率并未有效提升。

不过,这次更新也解决了一个痛点,对于难以用语音或文字输入的多项式运算题或特殊的数学符号,可以运用讯飞星火APP的数学解题助手,通过拍照借助OCR技术识别来解题。

最后,在多轮对话方面,升级后的讯飞星火可以完成特定的复杂任务,比如模拟面试场景与考官对话,在对话交互间创造富有想象力的故事。吴晓如认为,这将给人机共创带来新机会。

此外,科大讯飞还宣布推出讯飞星火APP和小程序,支持纯语音对话、多模态输入、多终端支持、多功能小助手等功能。讯飞星火APP上就有面向职场、营销、点评、创业、编程等十多个不同场景的200多个小助手。

同时,科大讯飞在PC端上线了星火助手创作中心,只需几分钟的时间,就可以基于星火认知大模型,根据自身的需求创建属于自己的个人助手。

在本次发布会上,科大讯飞还发布了大模型落地的新成果。在学习领域,AI口语助手升级为星火语伴APP,其可以进行开放式对话、情景交流、实时口语纠错;还可以视频对话,与虚拟人老师面对面沟通。

在办公领域,科大讯飞发布了业界首个搭载大模型的会议室智能终端——讯飞听见智慧屏。它可以实现动态会议记录、会议内容自动整理输出,一键生成多种类型的会议文案。

基于迭代优化的大模型技术,讯飞还升级了医疗诊后康复管理平台。它具备多种服务能力,比如根据患者健康画像自动分析,为患者智能生成个性化康复计划,包括重点关注、用药指导、康复运动、出院随访、健康知识、患者咨询等。

在工业领域,科大讯飞羚羊工业互联网平台借助星火认知大模型,推出了工业AI羚机一动。它针对企业需求给出专业化建议策略,智能匹配方案、服务商、专家等资源。

刘庆峰还在现场宣布,开放星火认知大模型开发接口,将七大维度能力、200+小助手对应能力全面开放给开发者,并且支持多端接入快速集成,支持私有化部署。“这一次通用人工智能所带来的生态将更加繁荣,我们将与所有生态伙伴一起推动大模型时代的到来。”

责任编辑:

标签:

返回顶部