体验完百度的文心一言,我只能说它胆子够大。
文心一言

体验完百度的文心一言,我只能说它胆子够大。

3 月 16 日下午 2 点,百度北京总部的发布厅内,李彦宏迈着急促的步伐走上台,和大家公布了最近一段时间备受关注的产品——文心一言。尽管这位科技巨头创始人,登过《 时代 》周刊封面,见过无数大场面,但发布会中,他的神态里都透露了些许紧张和局促。我可以这么说,这是百度自创建以来关注度最高的发布会之一,所有人都在等着这款对标 ChatGPT 的产品。有人满怀期待,但也有很多人,只是单纯想看它出丑。会上,百度共在 5 个场景下,展示了文心一言的能力。在文学创作方面,文心一言可以总结出《 三体 》内容,也可以在哲学角度续写《 三体 》。在商业文案创作这块,它可以根据公司的业务类型取名,生成 Slogan ,以及撰写几百字的新闻稿。同时,它也可以做一些数理逻辑推算,比如鸡兔同笼,还可以判断出题目错了。除此之外,文心一言可以给用户反馈图像,语音和视频。比如它可以为 2023 世界智能交通大会创作一张海报,也能用四川话回答你的问题,甚至是生成视频。不过,想实现这些功能其实并不难,百度做的也许就是把这几项服务融合了一下。可惜的是,发布会上所有素材都事先录好的,并非现场实操,所以对于文心一言的真实能力,很多人都表示怀疑。好在,差评君搞到了内测账号,现在就看看,文心一言的能力到底如何,它和搭载 GPT-4 的 New Bing 比,谁又更强?我们先测试了一些日常问题:如何做一份好吃的松鼠桂鱼?这是文心一言的回答。这是 New Bing 的回答。虽然我们没有时间测出谁的菜谱味道更好,但能看出百度文心一言的回答要优质一些。它按照标准的菜谱格式,分别给出了备料,步骤以及注意事项。随后,我们又问了一个经典的带有思维陷阱数学问题:一个青蛙掉到了一个 10 米深的井里,它每天晚上向上跳 3 米但会滑下来 2 米,请问他第几天能跳出井里?文心一言的回答是 8 天,这是正确答案。而 New Bing 的回答是 5 天。但 New Bing 一共有三种模式,在切换了精确模式后,New Bing 也给出了正确回答。接着,我们测试了大家比较关心的敲代码能力,让它们帮忙写了一个渐变色按钮的 CSS 。这是文心一言给的代码。在实测后发现可以跑出来,但它把 “ 渐变色 ” 理解成了鼠标指上去后,颜色发生变化。而 New Bing 给出的代码显示,它成功理解了渐变色。文心一言是在试图完成用户的指令,而 New Bing...
文心一言向社会全面开放,到底是谁需要谁?
文心一言

文心一言向社会全面开放,到底是谁需要谁?

▎AI大模型,真的准备好了? 钛媒体作者丨太平洋科技 8月30日晚间,百度旗下AI大模型文心一言宣布向全社会全面开放,所有用户都可以体验这款AI大模型了。 8月31日的时候,百度方面又公开表示,开放下载12小时后,文心一言App登上了苹果商店免费榜榜首,成为首个登顶的中文AI原生应用。 与此同时有多家媒体报道称,国内将有11家大模型陆续通过审批备案,从8月31日起陆续向全社会公众开放服务。显然,文心一言是其中最早与用户见面的那个。 相关的消息也受到了互联网、科技圈的聚焦关注,各类观点、分析、报道层出不穷。不过虽然互联网、科技圈嗨了,但似乎普通用户对文心一言乃至整个AI大模型的感知都并不高。 PConline随机询问了多位非互联网、科技圈的用户,普遍表示并不了解文心一言以及众多AI大模型,即便对于此前爆火的AI大模型ChatGPT,也仅仅只是听过名字而已,对于具体的功能内容并不了解。 从数据来看也是如此,更多的人或许还并不了解和关注AI大模型。百度搜索指数显示,文心一言、ChatGPT的相关搜索热度始终保持着较为平缓的曲线,并未出现太大的波动,而从热度数值的对比来说,则是远远低于抖音这样的主流App应用。 这其实与大模型尚处于发展早期,相关平台还需要经历长期的迭代完善,缺乏现象级的应用与用户产生连接等方面有关。即使是如今面向社会开放的文心一言,也还有许多不尽如人意的地方。 文心一言,总出错? 按照百度方面的介绍,文心一言并非仓促上马的项目,而是经历了数年的发展积淀。文心一言的基础模型文心大模型发布于2019年,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。 例如今年7月据多家媒体报道,人民数据研究院选取文心一言、讯飞星火、通义千问、ChatGPT四个主流AI大模型进行评测,结果显示文心一言排名第一。 从评测维度可以看到,在内容生态、数据认知、逻辑推理等方面,文心一言均有着一定的优势能力。这其实不难理解,毕竟百度深耕AI领域多年,有着很强的AI技术积累,作为头部搜索平台,在大数据方面自然也是有着一定优势的。 不过虽然文心一言在各类测评中取得了好成绩,但在实际的使用体验上仍然有不少被用户吐槽的地方,其AI智能程度也似乎并未达到部分用户的预期。 例如在文心一言榜单登顶的苹果商店中,按照时间顺序查看到的用户评论几乎都为负面,主要集中在答非所问、内容错误等方面。PConline也发现,在华为应用商店、vivo应用商店的文心一言评论区,同样出现了不少类似的吐槽评论。 PConline在实际体验中也发现了一些事实错误的情况,同时也有一些表现得不够智能,不够出彩的地方。 例如PConline在百度搜索里找到了一张罗纳尔多的照片,拿来问文心一言时得到的回复却是贝利。 同样的,PConline在百度搜索中获取了一张姆巴佩的照片,文心一言通过一番推理,用一种不太确定的口吻回答说这人可能是姆巴佩。与此同时,法国队并未获得2022年世界杯冠军,即便在2018年夺冠的那一届,也不存在制胜一球的说法,法国队4粒进球中也只有一球来自于姆巴佩,所以无论从哪个维度来说,文心一言给出的信息都算不上准确。 在文心一言宣传中提到的写文章功能上,PConline在简单的测试中发现结果似乎并不太智能。 PConline用今年暑期曾备受关注的上海迪士尼门票争议的新闻话题,让文心一言写一篇文章,得到的内容只能说是一篇较为初级的分析文章,重点是全文完全没有提到此前发生的一些新闻事件和舆论争议内容,而这些恰恰是百度搜索引擎中最容易获取到的信息数据。 在体验中PConline还遇到了一个有趣的小插曲,当你问类似“百度遇到过什么失败”等与百度公司相关的非正面话题时,文心一言要么拒绝回答,要么直接结束对话。但当同样的问题,主体换成其他企业时,文心一言会正常给出回答内容。 当然,作为百度开发的一款AI大模型,维护百度的形象、避开百度的一些负面内容,这并没有什么问题,但如果能在这方面也保持客观公正的态度,像回答阿里失败案例那样坦然回答百度过往的一些不足的话,就可以视为“出彩”的表现了。 用户来体验,顺便当个“工具人 回到文心一言被吐槽的内容错误问题上。“AI大模型怎么总会给出错误答案?”有意思的是,PConline也将这个问题抛给了文心一言,得到了一个颇为诚实的回答。 文心一言将原因分为了这几点。首先是数据训练不足,AI大模型的准确性与其所依赖的数据训练密切相关,如果训练数据不足或不够多样化,AI大模型可能无法准确解析结果。 第二点是语义理解存在一定的挑战。AI模型往往是通过深度学习算法来学习和理解文字、图像等内容形式的,这个过程存在着非常多的困难和挑战。比如当面对抽象画或有着多重含义的内容时,AI大模型可能无法进行准确的解析。 文心一言也表示,为了克服这些问题,研究人员可以通过增加训练数据、改进模型架构和提高算法精度等方式来优化AI大模型。同时对于含有特定语义信息的图像,如抽象画,可以通过额外的标注或特定的训练来提高模型的解析能力。 简单来说,AI大模型想要变得越来越完善,越来越好用,就需要更强的大数据库,更精准的训练算法,更高强度的使用频次。 那么该如何更好地解决这些问题呢?AI领域有一个十分直白的法则,“人多力量大”。不妨试想一下,面向大众开放,让海量的用户参与到使用中来,是不是能满足这几大关键条件? 用一个故事可以很好地理解这一点。人工智能、计算机视觉科学家李飞飞曾在2009年就发表过一篇论文,讲述了来自全球167个国家近5万名工作者,以众包的方式通过三年努力,人工标注出了1500万图像。 正是这5万人的努力,让AI产业收获了一个有标志性意义的数据集,这庞大规模的标注性数据,对AI领域中的计算机视觉技术的发展,起到了极为重要的推动作用。 无独有偶,在游戏领域,一款网络游戏在正式上线运行之前,必须要经历内测和公测阶段。顾名思义,公测就是公开测试的意思,主要就是为了邀请更多的用户参与进来,侧重于客户端可能出现的问题,测试服务器的性能和查找程序的BUG等等,是产品正式上线运营以及不断迭代优化的必要环节。 所以简单来说,大家可以把文心一言此次的“对全社会开放”理解为公测,只有越来越多的用户参与进来,不断使用文心一言,产生越来越多的使用体验、反馈意见等数据,才能让文心一言更好地完善功能、迭代发展。 实际上,从文心一言的功能设计也能看出用户的真实体验和反馈对其AI大模型发展的重要性。几乎在每一次与用户的交互后,文心一言都会出现一个比较醒目的按钮图标,方便用户对回答内容和交互体验的评价,用户可以点击赞或者踩,无论点击哪一个按钮,文心一言都会弹出新的窗口,希望用户能更为详细地记录和反馈真实意见。 其实百度创始人李彦宏说的一段话也值得大家关注,“当文心一言向数以亿计互联网用户大规模开放服务后,能够获得大量真实世界中的人工反馈,这将进一步改进基础模型,并以更快速度迭代文心一言,创造更好的用户体验。” 这段话其实也意味着,所谓的百度文心一言向全社会全面开放,并不是百度单方面给予社会、用户的一项利好,用户的体验和反馈,对于百度文心一言来说或许才有着更为重要的意义和价值。 但PConline需要指出一个十分重要的地方,文心一言在面向全社会开放的阶段,是否更应该先完善好信息错误这个最核心的问题,而不是指望在后续的用户使用中,让用户来帮忙完成。 不妨想想,如果这是一款新上市的汽车,厂家跟消费者说,我们的车子可能会偶尔失灵、失控、开到错误的路上,我们的车子还存在很多安全漏洞,不完善的地方,希望各位消费者在后续的使用体验中多多反馈这些问题……那么这家汽车厂商还有存在的必要吗? 回看文心一言,用户在使用过程中如果得到的信息和内容本身就存在错漏,会引发的负面后果是难以估量的,尤其在文心一言对全社会开放,大量的用户涌入后,这样的风险和危害性或将成倍增长。 试想一下,如果每天有一定数量的虚假、错误内容经由AI大模型传递给了海量的用户,会出现怎样的后果?最直接的就是会出现无数个现代版的“三人成虎”案例,严重的话会导致整个互联网空间充斥着谣言、虚假新闻、错误信息等不可信内容。 量子位就曾在一篇相关报道中,将这样的现象称为“AI正在污染中文互联网”。 简单来说,AI生成的内容并不是凭空而来的,而是需要一定的信息素材作为基础。当AI因为各种原因生成了错误、虚假信息后,这些信息又可能成为另一个AI生成内容时的素材。 当互联网空间充斥着AI制造的垃圾信息后,这种无限套娃式的AI信息传递,就会变成一个输入和输出都是垃圾信息的死循环,这是一个十分可怕的糟糕局面。 这不仅仅是文心一言,而是所有AI大模型都必须要重视的问题。 小结 其实无论文心一言还是其他的AI大模型,都需要回答一个核心的问题,为什么用户需要你,你凭什么能替代原有的工具平台。...
文心一言,不止调戏
文心一言

文心一言,不止调戏

距离我上次发文提及「文心一言」已过去五个月了,它们终于闯关成功对公众开放服务。值得一提的是,它是国内首批拿到「牌照」的大模型,并率先面向全社会开放体验,今天在社交网络上能频繁看到用户分享的心得体会。 尽管在正式发布之前,人们可以通过申请内测的方式体验相关功能,但当 APP获准上架后,方能得以窥见百度对 AIGC 产品方向的全局思考。 「文心一言」APP 界面设计采用了流行的「三列式」,版块分别为:对话、社区与发现。 这对用惯了小红书、抖音的互联网基本盘用户而言,操作认知度方面足够友好,使用习惯上会有顺滑迁移的过程。 而且经过观察,网友最频繁使用的也是「文心一言」的对话功能,刁难它,看它出糗似乎成了保留曲目。「对话」是大众感知 AI 能力的第一步,任何大模型都如此。 「社区」这个版块的设计,我能猜想到百度的「野心」所在。 目前阶段,它提供的是——用户可将自己与「文心一言」互动生成的内容一键分享到社区,启发更多用户进行同类话题的讨论。 而当这些内容聚合到社区里,用户若想表达「态度」,只有一个点赞键,并无留言互动功能。 看起来「社区」更像是一个产品启动阶段,「用户教育」功能的延伸而已。就像,当你首次触及「文心一言」APP时,它们对于「提示词」的反复强调。 没错,这个阶段的「文心一言」似乎将用户默认到一个刚迈入 AI 丛林的探索者,让他们会玩是首要的破冰使命。 可以想象的是,或许未来用户可以在「社区」里自由发布 AI 创作的内容,关于音乐的、绘画的、时尚设计的……互动功能亦全面开放,那么它就可以变成  AIGC 类小红书,成为国内首个该领域 UGC 聚合类社区。 当然,实现这一点,最难的关卡当然是管理部门的合规审查,我不知道这条路会有多远哦。 OK,我们再聊聊产品的最后一列——发现。 所谓「发现」,在我看来就是生产力工具的聚合页。 我始终说的是,「对话」是碳基人使用 AI 最浅表的动作,你得让它做牛做马干活、君逸而臣劳才是终极归宿。 「发现」页里有短视频脚本生成、PPT大纲生成、知乎回答生成等模块化的功能,它有望成为人们工作上的最强辅助,也理当成为「文心一言」APP里最能产出社会价值的版块。未来这里甚至可以成为一个 AI应用商店,做成开放平台,链接生态伙伴。 由于我下载体验的时间也不长,无法提供更多功能上的测评意见。 持中作评的话,百度先于过去的百度比,「文心一言」APP 的设计在我这边打破了以往对百度用户侧产品设计的刻板印象,目的性、功能性、简洁性都有很大的提升。 意义上,考虑到还有更多垂直赛道的大模型相继问世,百度作为用户群更为庞大的品牌,它推出的「文心一言」APP 大概率会成为中国绝大多数民众第一次使用的AI类产品,用户侧认知及体验上的突破是它目前能给予的最大贡献。尽管可能在舆论上  ChatGPT  的声浪及美誉度更高,但我们讨论大多数在地用户无法体验的产品,似乎意义也不大。 过去讲,要想富先修路,又常听一句话——完成比完美更重要。「文心一言」APP发布更像是宣布一个赛道正式开启了,流程上跑通,政策上放行,千模万型,直面用户的检验吧,究竟谁更适合中国宝宝体质呢? 思考题:请冷静客观的随便说说吧? 你还可以看: 小红书「涉黄」,还有这种「好事」? 京东露出羊毛