当前位置: 首页 >热点 > 正文

"AI家教"上线?搜狐科技实测好未来MathGPT:小学数学考试能拿90分

2023-08-25 16:33:50 来源:搜狐科技

8月24日,在好未来20周年直播活动中,CTO田密宣布好未来自研的数学领域千亿级大模型MathGPT正式上线并开启公测。

好未来介绍,MathGPT是面向全球数学爱好者和科研机构,以解题和讲题算法为核心的数学垂直领域的大模型,也是国内首个专为数学打造的大模型。

MathGPT是否意味着“AI家教”成为可能?搜狐科技实测后发现MathGPT能够顺利完成小学试卷并且给出清晰的解答。在与GPT-4、文心一言的横向对比中,MathGPT在数学应用题能力上表现优于文心一言、不如GPT-4。


(资料图片仅供参考)

作为垂直于教育的数学领域大模型,MathGPT比起通用大模型能够更细致地拆解题干、提供重难点提示,也将有助于学生更好地吸收知识点。

田密表示,“好未来在数学的数据和业务上有20年的积累,有大量的教育数据的积累和持续生产教育数据的能力,所以选择做这个难而正确的事情。”好未来希望用自己在数学和AI上的多年积累,做好AI大模型时代的数学基础工作。

小学数学考试能拿90分

此前,国内外巨头的大模型都被冠上“文科生”的名号,在翻译、内容概括摘要、理解文本和生成对话等方面表现出色,但涉及逻辑与计算问题时会出现胡言乱语的情况。

好未来团队指出,大模型“偏科”问题是因LLM模型的自身特点决定的。他们此前表示,“LLM大模型来自对海量语言文本的训练,因此最擅长语言处理。”

基于此,好未来的MathGPT结合大语言模型和计算引擎,大语言模型负责理解题目、分步解析,并在合适的步骤自行调用计算引擎,以提高题目解答正确率。

进入MathGPT首页,有小学、初中与高中三个不同程度的数学题难度。其中题目类型包含了找规律、逻辑分析、运算求解、随机现象、表达论述等。

用户可以选择不同类型的数学题目进行针对性训练,也可以直接通过底部的对话框向MathGPT提问。用户可以通过文字或图片方式上传数学题,即可得到对话式的解答反馈,也可以通过“随机来一题”的按钮,随机生成数学题目并由系统给出解答。

搜狐科技随机选取了一份小学数学考卷的前10题,包含简单的几何、找规律以及算数题,MathGPT能够回答正确9题,并且梳理出了解题逻辑以及考点。

会解函数,不会解方程

据MathGPT官网显示,MathGPT的数学计算能力已覆盖小学、初中、高中的数学题,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问,暂未开放数学之外的问答互动。

搜狐科技随机搜索一套高中数学题,通过图片提问的方式输入指令。

在五个题目中,仅有第三题的几何图片无法直接转化为文字指令,其他四题MathGPT均能够准确将公式与数学符号转化为文字。

在准确率上,四题答案均正确,并且解题过程完整,包含了分析题干、详解题目,也提炼出了题目所考核的知识点,但其中两题的分析过程语言出现了英文。

但在解方程时,搜狐科技输入两道简单的一元一次方程求X或Y值的题目,其中一题MathGPT答案错误,并且解题方法也是错误混乱的。

第二题虽然MathGPT给出了正确的结果,但在解答过程中的推理都是错误的。

数学应用题解答能力不如GPT-4、优于文心一言

根据MathGPT技术报告显示,在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和Math401等6个公开数学评测集合的测试结果中,好未来的MathGPT取得了多项测试的最高分数。同时,MathGPT在C-Eval的初高中的全科测试集合上也均有不错的表现。

基于此,搜狐科技选取三种不同难度的应用题,同时对MathGPT、GPT-4和文心一言进行测试。

在难倒一众大模型“文科生”的鸡兔同笼题目上,搜狐科技以“鸡兔同笼,头共20个,足共62只,求鸡与兔各有多少只?”该题目对三个大模型进行测试,均回答正确。其中,文心一言与MathGPT的解题逻辑相比GPT-4会更简洁易懂。

(文心一言答鸡兔同笼)

(GPT-4答鸡兔同笼)

(MathGPT答鸡兔同笼)

同时,MathGPT的优势在于,通过【分析】、【详解】与【点睛】三个模块拆解数学题进行解析,分析题干并且总结知识点,同时也给到了第二种解题方法“方程解答”。

第二题是以设X,列一元一次方程式解答的应用题,题干为:“杰森往池塘水面上的扔一块石头。石头在池塘表面反弹三下。如果第二次弹跳是第一次弹跳距离的一半,第三次弹跳是第二次弹跳距离的四分之一,弹跳之间的总距离是 65 英寸,那么岩石在第一次弹跳时移动了多少英寸?”

结果表明,GPT-4的答案与解题过程正确,文心一言的解题过程与答案均错误。MathGPT在设X与列出方程的步骤是正确的,但是在解方程的过程中出现错误。

(文心一言答案)

(GPT-4答案)

(MathGPT答案)

第三题能够以等量代换的逻辑解答,题干为:“1个苹果=2个梨,3个梨=4个橙子,6个橙子=7个香蕉,56个香蕉等于多少个苹果?”

结果显示GPT-4过程与答案正确,文心一言解题逻辑正确但答案错误。MathGPT能够总结出题目知识点是等量代换,但解题思路与分析均错误。

(文心一言答案)

(GPT-4答案)

(MathGPT答案)

田密认为,大模型的本质,是一种更高效的、从数据中学习知识并加以应用的方式。在AI能力的加持下,“学生自学+AI答疑”的新型学习方式成为可能。MathGPT作为垂直大模型,在答案之外能够更详细地总结出解题思路、思考方式以及对题目的考点、难点、关键点进行提示。但若要真正成为“AI家教“,辅助学生完成自学,在准确率上仍有较大提升空间。

据田密介绍,随着公测的顺利进行,MathGPT的解题能力将得到持续提升,基于MathGPT的产品级应用也正在加速研发中,将于近期发布。

责任编辑:

标签:

返回顶部