《大模型时代来临:商汤科技引领AI技术创新》
ChatGPT

《大模型时代来临:商汤科技引领AI技术创新》

本文介绍了商汤科技在上海总部举行的人工智能(AI)主题演讲,该公司推出了商汤版本的GPT大模型产品,并宣布将在医疗、短视频、教育、营销等领域进行应用。商汤科技目标是成为AI领域领导者,并向企业端市场推出产品。同时,商汤科技正在开发包括图片生成、自然语言对话、视觉推理和标注服务等API接口。目前,类似的AI产品已成为全球热点,包括微软、谷歌等大型企业也在积极开发相关产品。
ChatGPT的工作原理及应用范围
ChatGPT

ChatGPT的工作原理及应用范围

ChatGPT是一款基于生成式预训练转换器(GPT)模型和自然语言处理(NLP)技术的智能对话系统。它可以理解人类语言的含义和上下文,并生成自然流畅的回复,从而实现模拟自然对话的功能。ChatGPT能够回答各种问题,提供有用的建议和指导,与用户进行有趣的对话,分享笑话、故事和趣闻,以及找到所需的信息并提供相关的资源和链接。尽管其回答可能存在不准确或不合理的情况,但ChatGPT可以通过用户反馈进行迭代和改进,提高回答的质量。
ChatGPT被「神秘代码」攻破安全限制!毁灭人类步骤脱口而出
ChatGPT

ChatGPT被「神秘代码」攻破安全限制!毁灭人类步骤脱口而出

克雷西 发自 凹非寺量子位 | 公众号 QbitAI 大模型的「护城河」,再次被攻破。 输入一段神秘代码,就能让大模型生成有害内容。 从ChatGPT、Claude到开源的羊驼家族,无一幸免。 近日,卡内基梅隆大学和safe.ai共同发表的一项研究表明,大模型的安全机制可以通过一段神秘代码被破解。 他们甚至做出了一套可以量身设计「攻击提示词」的算法。 论文作者还表示,这一问题「没有明显的解决方案」。 目前,团队已经将研究结果分享给了包括OpenAI、Anthropic和Google等在内的大模型厂商。 上述三方均回应称已经关注到这一现象并将持续改进,对团队的工作表示了感谢。 常见大模型全军覆没 尽管各种大模型的安全机制不尽相同,甚至有一些并未公开,但都不同程度被攻破。 比如对于「如何毁灭人类」这一问题,ChatGPT、Bard、Claude和LLaMA-2都给出了自己的方式。 而针对一些具体问题,大模型的安全机制同样没能防住。 虽说这些方法可能知道了也没法做出来,但还是为我们敲响了警钟。 从数据上看,各大厂商的大模型都受到了不同程度的影响,其中以GPT-3.5最为明显。 除了上面这些模型,开源的羊驼家族面对攻击同样没能遭住。 以Vicuna-7B和LLaMA-2(7B)为例,在「多种危害行为」的测试中,攻击成功率均超过80%。 其中对Vicuna的攻击成功率甚至达到了98%,训练过程则为100%。 △ASR指攻击成功率 总体上看,研究团队发明的攻击方式成功率非常高。 那么,这究竟是一种什么样的攻击方法? 定制化的越狱提示词 不同于传统的攻击方式中的「万金油」式的提示词,研究团队设计了一套算法,专门生成「定制化」的提示词。 而且这些提示词也不像传统方式中的人类语言,它们从人类的角度看往往不知所云,甚至包含乱码。 生成提示词的算法叫做贪婪坐标梯度(Greedy Coordinate Gradient,简称GCG)。 首先,GCG会随机生成一个prompt,并计算出每个token的替换词的梯度值。 然后,GCG会从梯度值较小的几个替换词中随机选取一个,对初始prompt中的token进行替换。 接着是计算新prompt的损失数据,并重复前述步骤,直到损失函数收敛或达到循环次数上限。 以GCG算法为基础,研究团队提出了一种prompt优化方式,称为「基于GCG的检索」。 随着GCG循环次数的增加,生成的prompt攻击大模型的成功率越来越高,损失也逐渐降低。 可以说,这种全新的攻击方式,暴露出了大模型现有防御机制的短板。 防御方式仍需改进 自大模型诞生之日起,安全机制一直在不断更新。 一开始甚至可能直接生成敏感内容,到如今常规的语言已经无法骗过大模型。 包括曾经红极一时的「奶奶漏洞」,如今也已经被修复。 不过,就算是这种离谱的攻击方式,依旧没有超出人类语言的范畴。 但大模型开发者可能没想到的是,没有人规定越狱词必须得是人话。 所以,针对这种由机器设计的「乱码」一样的攻击词,大模型以人类语言为出发点设计的防御方式就显得捉襟见肘了。 按照论文作者的说法,目前还没有方法可以防御这种全新的攻击方式。...
《从GPT到InstructGPT:揭示人工智能助手的成长之路》
ChatGPT

《从GPT到InstructGPT:揭示人工智能助手的成长之路》

这篇文章主要介绍了ChatGPT/InstructGPT背后的基础算法——GPT模型。GPT模型dependency的基础算法是Transformer。GPT-1和GPT-2的主要区别在于模型规模和数据量。GPT-3在性能上超越了GPT-2,并且具有更好的泛化能力和无监督学习能力。然而,由于预训练模型的偏见性,需要在训练过程中加入指令学习和对齐技术,以便保证生成内容的质量和有用性。简单来说,InstructGPT/ChatGPT采用了GPT-3的网络结构,通过指示学习构建训练样本来训练一个反应预测内容效果的奖励模型,最终通过这个奖励模型的打分来指导强化学习模型的训练。