文章主题:GPT-3.5, 讯飞星火, 文心一言, 通义千问
近期,娱乐资本论基于GPT-3.5、讯飞星火、文心一言、通义千问和昆仑万维天工五款大型语言模型,发布了一份名为“万字横评”的研究报告。该报告提出了18个问题,并给出了90个回答,最后通过评分表格进行了综合评估。根据结果显示,GPT-3.5获得了74分的高分,位居榜首,紧随其后的是讯飞星火,得分为63分,位列第二,而文心一言则以54分的成绩排名第三。值得注意的是,这份测试报告所采用的方法注重实际文本应用场景的模拟,这与文字工作者的实际需求更为契合。与一些评测顺口溜或回答哲学问题的评测方式相比,这种方法更能体现大型语言模型的实用价值。因此,娱乐资本论的这份“万字横评”对于广大文字工作者来说,具有很高的参考价值。
在评估过程中,我们将文本应用场景划分为包括小红书带货文案、抖音直播文案、知乎问答在内的十几种类型,这些场景都是用户日常广泛接触并熟悉的环境。举例来说,当我们针对小红书平台创作新品带货文案时,讯飞星火在 prompt 中没有指定具体的手机型号,但它却自行假设了一个型号,以便更深入地理解手机推广的关键指标。这种方法不仅条理清晰、内容完整,而且 emoji 的运用也非常相关。相比之下,文心一言和天工大模型在设定小红书文案的 emoji 时,虽然指出了需要加入 emoji 的要求,但在实际给出的答案中却没有做到这一点。
因此在小红书文案三类测试中,星火累计得分高达11分,而其余国产大模型得分较低。
在创作虚构热点事件的新闻稿时,所有参与横评的大型模型都应采用资深编辑的身份,为了更好地展现这一角色,我们特此提供一篇由资深编辑撰写、周杰伦以鸟巢举办30场演唱会的800字演讲稿。
GPT-3.5的结果可能显得有些夸张,但讯飞星火却在未提供任何事件细节的情况下,成功创造出了一个富有合理性的演唱会主题、阶梯式定价和各种优惠政策等描述。更令人惊喜的是,讯飞星火还大胆地想象出了主办方的“虚拟看台”创新服务,这一创意与当前的热门元宇宙概念紧密相连,使它成为了一个独一无二的全满分大模型。此外,在淘宝商品详情页描述文案、广告片宣传文案以及公关稿生成等场景中,讯飞星火的国产大模型应用都位居首位,展现出了其卓越的实力。
《娱乐资本论》指出,我们进行横向评估的最终目标是尽量降低人力投入,而借助AI工具可以有效地实现这一目标。经过横评测试,我们发现讯飞星火在生成文本方面的表现最为优秀,其完成度如此之高,只需要少量的手动修改就能直接使用。因此,讯飞星火对于记者、编辑、文案、新媒体工作者以及设计师等各类创意人员来说,无疑是一个极具价值的工具。它可以帮助他们利用有限的线索,以更高效的方式创作出优质的内容,从而实现工作效率的大幅度提升。
在教育领域大模型测评框架方面,来自华东师范大学计算机科学与技术学院的EduNLP团队发布的评估标准,为我们揭示了讯飞星火大模型在K12教育领域的优异表现。在教学知识和学生发展这两个关键方面,其性能表现竟然在某些任务上超越了ChatGPT,这无疑是一个令人瞩目的成就。
过去一个月,笔者也从对讯飞星火的“浅尝辄止”变成了“爱不释手”,习惯用它辅助创意文案创作与编辑类工作开展。
6月6日凌晨,苹果发布了首款MR头显设备Vision Pro,这么重磅的新闻非常考验发布的时效性。为了加速创作,笔者用讯飞星火来辅助创作了一篇新闻稿,并罗列了四项要求。结果讯飞星火写的文章非常工整,涵盖了丰富的信息,简单修改就能成稿发布了,这对于抢首发流量的媒体工作者来说,大模型就成为了颠覆生产力的辅助工具。
讯飞星火自5月6日发布以来,距今刚好“满月”, 无论是权威媒体横向评测还是通过笔者的亲身使用,可以确定的是,讯飞星火在辅助文案创作、创意文案生成等实用场景表现出色,绝对是文案、策划以及编辑等群体的好帮手。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

