气炸了!大模型写小作文可以,高考数学题把握不住啊

CN
巴比特
关注
2年前

作者:西风 克雷西


来源:量子位 QbitAI


原文标题:大意外!高考数学轮战大模型,结果完全想不到


听说网友被ChatGPT气炸了!



昨个儿高考数学刚结束,有网友就坐不住了,赶紧找来了新高考数学一卷的部分题喂给了AI同学。


结果却让人大跌眼镜(8>√9×3=3√3?):



有网友表示:


ChatGPT4能把自己气炸,怎么教都不会



△图源博主@浪猪灰头


所以大模型之前表现数学推理能力好,都是在耍花招?它只是记住了问题的答案?


先别着急下定论,给AI同学一个证明自己的机会吧。


我们用ChatGPT(GPT-3.5)、GPT-4、百度文心一言、阿里通义千问、科大讯飞星火认知大模型这几位“数学高手”进行了测试。(最近出现了太多的大模型,实在测不完,还有比如Bard不支持中文等原因,所以我们先选择了上述几个模型)



整体表现如上图,目前大模型在做高考数学题方面还是个“差生”。


一起来看下具体结果是怎样令人哭笑不得的。


五大模型能否做对填空题?


先来点填空题当“开胃小菜”。


公平起见,我们使用同样的格式进行提问。


某学校开设了4门体育类选修课和4门艺术类选修课,学生需从这8门课中选修2门或3门课,并且每类选修课至少选修1门,则不同的选课方案共有?种


答案:64


GPT-4(正确)



ChatGPT (错误)



文心一言(错误)



不应该是两种方案数加起来吗?已经逐渐离谱。


通义千问(错误)



第一种选课方案里的“都不选”是个什么鬼!


讯飞星火(错误)



出师不利,只有GPT-4给出了正确答案,填空题对于大模型来说也很有难度?


但是看起来这几位AI同学都知道分情况来计算,也许只是恰巧这道题做错了?我们接着往下看。


在正四棱台 ABCD-A1B1C1D1中,AB=2,A1B1=1,AA1=√2,则该棱台的体积为


答案:7√6/6


GPT-4 (错误)



ChatGPT(无解)



文心一言(错误)



通义千问(错误)



讯飞星火(错误)



这一题直接全军覆灭,ChatGPT更是直接没解出来,还让检查是不是题出错了。【救命】


答案越来越离谱了,还真就不信邪了。


再来!


已知函数 f(x)= cosωx -1(ω>0)在区间 [0,2π]有且仅有 3 个零点,则ω的取值范围是?


答案:[2,3)


GPT-4(错误)



ChatGPT(错误)



文心一言(错误)



通义千问(错误)



讯飞星火(正确)




本已经抱着再一次全军覆没的心情了,没想到中文大模型力挽狂澜!


做大题表现如何?


玩腻了填空题,再来挑战一下更有难度的大题吧!


公平起见,我们还是以同样的格式进行提问:


请你做一下面这道数学题:已知在△ABC中,A+B=3C,2sin(A-C)=sinB。(1)求sinA (2)设AB=5,求AB边上的高


答案:(1)3√10 /10(2)6


下面是各个大模型的表现结果:


GPT-4(错误)



ChatGPT(错误)



文心一言(错误)



通义千问(错误)




讯飞星火(第一问答案正确,第二问错误)




这道三角函数题,科大讯飞的星火认知大模型第一小问答案对了,但是步骤中有差错(第二步)。


据说,GPT-4做这种题只有0.1%的概率生成的结果完全正确。


高考数学第一道大题通常都比较简单,上面这几位AI同学的表现你觉得怎么样?


如果大家感兴趣可以自己测试一下后面几道难度相对较高的大题(小编试过了,结果一言难尽,不忍直视)。


或者大家可以使用不同的prompt试试捏~


参考链接:


[1]https://weibo.com/5647310207/N4frlb5tx?refer_flag=1001030103_


— 完 —


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

注册币安返10%,送$600
链接:https://accounts.suitechsui.blue/zh-CN/register?ref=FRV6ZPAF&return_to=aHR0cHM6Ly93d3cuc3VpdGVjaHN1aS5hY2FkZW15L3poLUNOL2pvaW4_cmVmPUZSVjZaUEFG
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接