文章主题:人工智能, 科大讯飞, 星火认知大模型, 数学问题
今年最好的科技新闻无疑就是chatgpt的流行。这款美国OpenAI研发的聊天机器人程序于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。
在浏览网络上的这款应用程序功能时,我心中不禁感到震撼。作为一名在IT领域摸爬滚打超过十年的资深人士,我对这款应用的研发难度有着深刻的理解。它的重要性不亚于将人类送上月球(尽管美国已经成功地将阿波罗计划付诸实践,但仍有部分人对阿波罗计划的真实性表示怀疑,认为它仅仅是电影布景,因为登月任务本身就极具挑战性)。同时,我也期待着我国能诞生这样一款产品的公司。5月6日,我国领先的人工智能公司科大讯飞正式公布了一款大型的语言模型产品。我立即提交了试用申请,令人惊喜的是,我的申请很快便得到了批准。
我之前的工作是软件测试,这次拿到测试账号后,第一时间就登录上问了他几个简单的问题,讯飞大模型回答的还可以,为了测试他的能力,我不提问那些开放性的题目,比如“宇宙中有哪些目前认为可能存在生命的星球”,这些问题在搜索引擎上就可以搜到,而且还无法定量判断回答的准确性。最终我选择提问几组不同阶段有标准答案的数学题来衡量大模型的逻辑能力,以此来判断跟人类智慧的差距(以下把科大讯飞的大模型简称为“AI”)。
先确定身份,即“我是谁”
他说自己是讯飞星火认知大模型
先问了小学水平的应用题。
第1、2题回答正确
第3、4题回答正确
第5题回答错误
小学题一共5道,第1题:40个梨分给3个班,分给一班20个,其余平均分给二班和三班,二班分到多少个,答案是10个,AI回答正确。
第2题:工人叔叔3小时做24个零件, 照这样计算,他8小时做多少个零件。答案是64个.AI回答正确。
第3题:王大爷带了花1500元钱去买化肥,买了9袋化肥,找回15元。每袋化肥多少钱。答案是165元,AI回答正确。
第4题:张大爷买15只小猪用7455元,他还想再买30只这样的小猪,他还要准备多少钱。答案是14910元,AI回答正确。
第5题:买一束鲜花20元,买4束送1束。李阿姨一次买4束,每束便宜多少钱。答案是每束便宜4元。因为鲜花的原价是20元,李阿姨花了80买了4束又送了1束,相当于80元买了5束,每束16元,比原价20元便宜了4元。这道题AI回答是0元,AI回答错误。
所以,以总分100分计算,小学5道题答对了4道,AI得80分。
再看初中水平的数学题。网上找了4道题来考察AI。
第一题AI正确
第二题AI错误
第3题AI回答错误
第4题AI回答正确
初中一共4道题,AI答对2道题,得分50分。
再来看高中数学题。
高中第1题AI回答错误
高中第2题AI回答错误
高中第3题回答正确
高中一共3道题,AI答对1道得分33分。
通过使用小学、初中、高中3个维度的数学题进行测试,结果有些令人失望,科大讯飞的星火大模型并不具有跟人类类似的思考能力,回答问题也是套用模板,并不理解这些模板的底层原理。所以,它并不具有创造力。现实中遇到类似的问题还是需要人们去建模并写出相应的算法后再交给AI来计算,AI只能作为辅助工具来帮助人们而不能代替人们思考。
综上测试成绩,解数学题方面,星火大模型只能算是高中生里的学渣。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!