我作为一个普通的用户,从使用的角度来看一下结果吧。

我常用四个大模型:文心一言、通义千问、腾讯混元和讯飞星火。

我是让四个大模型帮我做同样的题目,看看是否能给提供正确答案,题目如下:

完成某信息系统集成项目中的一个最基本的工作单元A所需 的时间,乐观的估计需8天,悲观的估计需38天,最可能的的估计需20天,按照 PERT方法进行估算,项目的工期应该为(),在26天以后完成的概率大致为()

正确答案:工期是21天,在26天以后完成的概率大致为15.87%

测试方法是不断的把这个问题抛给大模型,看看是否能够给出正确答案。

文心一言:

一开始,无法给出概率的正确答案。

多问了几次,反应过来了,给出了正确答案:

但是再问一次,就又不行了,一致性不太行:

讯飞星火:

始终无法给出正确回答:

腾讯混元:

跟讯飞类似,无法给出正确回答:

通义千问:

一开始也不能给出正确答案,后面可以给出正确答案,并且多问几次也没有改变回答:

结论:综合来看,四个大模型都不能在第一次就给出正确回答,多尝试几次,腾讯混元和讯飞星火始终无法正确作答;文心一言可以给出正确答案,但是多问几次就会改口;通义千问给出正确答案之后不会改口。

然后我就测试了一下chatGPT4.0,第一次就给出了正确答案:

但是chatGPT3.5就不太行,毕竟是免费的:

总的来看,国产大模型,这几个比较有名的,聊聊天还可以,真要是让它们帮忙解决点问题,还是有点靠不住,国产崛起,路漫漫其修远兮。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注