文章主题:关键词:ChatGPT,AI产品,视觉语言模型,通义千问
随着 ChatGPT 的快速进化吸引了全球网友的眼球,国内厂商也纷纷表示将推出相似的产品。
在不久的过去,我国人工智能领域再掀热潮, several AI 产品已经正式亮相并投入实际应用。其中,百度公司推出的“文心一言”以及阿里巴巴集团旗下的“通义千问”和“360 智脑”等产品,都备受关注。值得注意的是,百度的 AI 产品开发较早,目前已能在多种场景中实现应用落地。
就在昨晚,我国知名云计算服务商阿里云正式推出了一款全新的视觉语言模型——Qwen-VL,并已在ModeScope平台开源。此消息并非空穴来风,事实上,根据前方媒体的报道,阿里云在此之前已成功开源了通义千问70亿参数的通用模型Qwen-7B以及对话模型Qwen-7B-Chat。
据报道,Qwen-VL 是一款具备多语言支持的视觉语言(Vision Language,简称 VL)模型。与之前的 VL 模型相比,这款新模型不仅拥有基本的图文识别、描述、问答和对话功能,而且还增加了视觉定位以及图像中文字理解的能力。这使得 Qwen-VL 在处理复杂场景下的问题时,能够提供更准确、更全面的解决方案。
Qwen-VL,该模型的基础是Qwen-7B语言模型,它在架构中引入了视觉编码器,从而使得模型能够处理视觉信号输入。值得注意的是,这种模型支持的图像输入分辨率高达448,相较于之前的开源LVLM模型,其支持的图像输入分辨率仅为224。这无疑大大提升了模型的处理能力,使其在实际应用中更具优势。
官方宣称,此模型在知识问答、图像标题生成、图像问答、文档问答和细粒度视觉定位等多样化应用场景中均表现优异,其多模态任务评测及多模态聊天能力评测结果更是远胜于同规模的其他通用模型。
在Qwen-VL的基础上,通义千问团队运用对齐机制,构建了基于LLM的视觉AI助手Qwen-VL-Chat。这一创新性方案使得开发者能够迅速地搭建具有多元功能的多模态对话应用。
通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基 GPT-4 打分机制的测试集 ” 试金石 “,对 Qwen-VL-Chat 及其他模型进行对比测试,Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果。
而据之前的介绍,此前阿里云已经开源了通义千问 70 亿参数模型,包括通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat,两款模型均已上线魔搭社区,开源、免费、可商用。
在今年 4 月时,阿里云发布了最新大语言模型 ” 通义千问 “。阿里云智能 CTO 周靖人曾表示,将开放通义千问的能力,帮助每家企业打造自己的专属大模型。据悉,阿里所有产品未来将接入通义千问进行全面改造,钉钉、天猫精灵率先接入测试,将在评估认证后正式发布新功能。
周靖人还介绍,未来每一个企业在阿里云上既可以调用通义千问的全部能力,也可以结合企业自己的行业知识和应用场景,训练自己的企业大模型,” 所有软件都值得接入大模型升级改造 “。
通过阿里云一步步操作来看,正在逐渐实现其之前的说法,对后续发展感兴趣的小伙伴可以保持关注。
近期文章精选:
商务合作 kejimeixue@163.com
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!