AI创新观察：通义舞王、斯坦福炒虾机器人爆红；

文章主题：AI, 机器人, 视觉模型

AI视野：通义千问上线通义舞王；斯坦福炒虾机器人爆火；

新鲜AI产品点击了解：https://top.aibase.com/

???AI应用

通义千问上线通义舞王

近日，阿里云通义千问APP推出了一项全新功能——“通义舞王”。此功能向广大用户提供了一个便捷的方式，让用户能够轻松制作个性化的舞蹈视频。用户只需在APP内输入指定的口令并上传一张照片，系统就会自动生成一段独具特色的舞蹈视频。这一功能的推出，无疑为用户提供了更加丰富多样的娱乐方式，同时也展示了阿里云通义千问APP在人工智能领域的技术实力。

【AiBase提要】 ? 用户可以在通义千问APP内输入“通义舞王”或“全民舞王”等口令，上传照片后即可生成个性化的舞蹈视频。 ? 目前提供了12种热门舞蹈模板，用户可以让各种形象在网络上跳起热门舞蹈。 ? 这一功能是由阿里通义实验室自研的视频生成模型Animate Anyone实现的，其在Github上备受关注。

Meta发布生成式AI调试工具HawkEye

Meta公司推出了一款名为HawkEye的创新型AI调试工具，旨在帮助机器学习模型在实际应用中克服各种难题。该工具采用了分支决策系统，并通过运用决策树的方法来加快对模型异常问题的识别和解决速度。值得一提的是，HawkEye还计划开放源代码，从而推动我国AI运维领域实现重大突破。

【AiBase提要:】 ?Meta发布生成式AI调试工具HawkEye，解决机器学习模型在生产中的挑战。 ⚙️HawkEye引入分支决策系统，加速识别和解决模型异常问题。 ?Meta计划开源HawkEye，推动整个行业在AI运维方面取得进展。

Pile:一款内置OpenAI API的AI日记软件

Pile是一款独特的AI日记应用程序，其中内置了OpenAI API，能够协助用户记录生活中的点滴，包括所思所想和各种经历。这款应用的设计初衷是为了帮助用户更好地保存和回忆自己的思考与经历，从而让用户能够随时查看并反思自己的成长与变化。

项目地址:https://top.aibase.com/tool/pile

【AiBase提要】 Pile是一款整洁美观的AI日记软件，内置OpenAI API，帮助撰写和保存日记，扩展思维广度。 AI搜索功能快速查找日记内容，对话式交互帮助理解思考过程。 Pile也注重用户的隐私和数据安全，保证用户的日记内容不会被泄露。

????大模型动态

小冰大模型获备案

小冰公司宣布已获得“小冰大模型”国内备案，结束静默期，正式发布一系列产品。

【AiBase提要:】 1️⃣小冰克隆人允许创作者通过小冰框架技术克隆自己并向粉丝发布; 2️⃣歌手克隆人分支X Studio已推出4.0版本，洛天依宣布加入; 3️⃣小冰数字员工升级为小冰大模型数字员工，为企业客户提供完整的数字化解决方案。

网易有道推出子曰大模型2.0

教育科技公司网易有道推出了国内首个教育大模型“子曰”2.0版本，并发布AI家庭教师“小P老师”。

【AiBase提要:】 ? 网易有道推出国内首个教育大模型“子曰”2.0版本。 ? 发布AI家庭教师“小P老师”，提供全学段、全学科的答疑支持。 ? 推出虚拟人口语私教Hi Echo2.0和有道速读，提升英语口语能力和快速理解文档内容。

维基百科+大模型打败幻觉!斯坦福WikiChat性能领先GPT-4

在科研领域，模型性能的提升一直是学者们所追求的目标。近期，斯坦福研究团队采用了一种独特的方法，他们借助于维基百科的数据，训练出了一个名为WikiChat的大模型。这一方法在很大程度上改善了WikiChat的幻觉问题，同时在事实准确性和对话性方面也表现出了超越其他模型的优势。经过不断的优化与改进，WikiChat在各项性能上都有了显著提升，特别是在事实准确性方面，更是达到了令人瞩目的97.3%的准确率。这一成果无疑为未来的自然语言处理技术开辟了新的道路，同时也证明了利用大规模知识库进行模型训练的可能性。

这篇论文的链接为：https://aclanthology.org/2023.findings-emnlp.157.pdf。

项目代码:https://top.aibase.com/tool/wikichat

【AiBase提要:】 1. 斯坦福研究人员利用维基百科数据训练了大模型WikiChat，成功减轻了幻觉问题，并在事实准确性和对话性方面超过了其他模型。 2. 通过优化和改进，WikiChat在各个方面的性能都显著领先，尤其在事实准确性方面达到了97.3%。 3. 通过检索增强生成的方法，研究人员成功解决了大模型的幻觉问题，提高了模型的事实准确性和对话性能。

清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发

近期，在清华、浙大等知名学府的推动下，我国出现了一批性能卓越的开源视觉模型，尤其是LLaVA、CogAgent和BakLLaVA这三个模型受到了广泛关注。

论文地址:https://arxiv.org/pdf/2312.08914.pdf

【AiBase提要】 1️⃣ LLaVA、CogAgent和BakLLaVA是具有极大潜力的开源视觉语言模型。 2️⃣ LLaVA在视觉聊天和推理问答方面表现接近GPT-4水平。 3️⃣ CogAgent拥有更多功能和性能优势，支持高分辨率图像输入和OCR任务。

???AI新鲜事

斯坦福炒虾机器人爆火全网!成本仅22万元

斯坦福华人团队开发的炒虾机器人MobileALOHA成为了全网的热议话题。这个机器人能够炒菜、洗碗等各种复杂任务，仅用50个演示就能够让机器人始终如一地完成一项任务。

论文地址:https://mobile-aloha.github.io/resources/mobile-aloha.pdf

【AiBase提要】斯坦福华人团队开发的炒虾机器人Mobile ALOHA刷屏全网，能完成各种复杂任务。该机器人通过模仿学习，能够执行各种复杂的任务，并支持全身远程操控。机器人成本低廉，仅为22万元，软件和硬件全部开源。

Midjourney训练AI使用的艺术家数据库名单泄露引发争议

Midjourney训练AI用的艺术家数据库泄露，包括知名艺术家如Banksy、David Hockney等。

【AiBase提要】 ?Midjourney训练AI使用的艺术家数据库名单泄露，引发社交媒体批评和版权诉讼。 ?Midjourney首席执行官确认使用4000多位艺术家的名字进行生成式AI训练。 ?该事件引发对未受监管的生成式AI发展的担忧，可能导致更多诉讼和国会听证会。

ChatGPT在儿科疾病诊断中错误率高达83%

发表在《美国医学会儿科杂志》上的一项研究表明，ChatGPT-4在儿科医学病例的诊断方面的准确率仅为17%，较去年一般医学病例的39%更低。

【AiBase提要:】 1. ChatGPT-4在儿科医学病例诊断方面准确率仅17%，比一般医学病例低39%。 2. ChatGPT难以识别疾病关系，需在准确可信的医学文献上进行专门培训。 3. 通过特定医学数据的培训和调整，有望提高聊天机器人的诊断准确性。

商汤科技推AI台灯元萝卜SenseRobot

商汤科技发布了一款名为“元萝卜SenseRobot”的台灯产品，该台灯具备AI离座感应和自动延时关灯功能，方便节能和使用。

【AiBase提要:】元萝卜SenseRobot”外观设计灵感来源于宇航和科幻元素。台灯产品中的AI坐姿提醒和AI专注度检测功能十分关键，能够准确识别不良坐姿，并通过语音提醒孩子矫正坐姿。该台灯具备AI离座感应和自动延时关灯功能，方便节能和使用。

网友发掘最新旅游方式靠Midjourney V6“游”遍中国

知名博主“快刀青衣”利用Midjourney V6生成了9个国内著名景点的效果图，包括少林寺、天坛、长城、桂林山水、九寨沟、兵马俑等，通过AI“游”遍中国。

【AiBase提要】 1️⃣ 利用Midjourney V6生成的景点效果图让网友可以“游”遍中国的著名景点。 2️⃣ Midjourney V6版本更真实、更详细，但保留了对景点最美好的想象，不再有明显的AI痕迹。 3️⃣ Midjourney V6更倾向于使用光影效果增加图片的真实感，吸引了大量网友参与讨论、分享和二次创作。

?‍???聚焦开发者

面部图像修复突破性AI方法Dual-Pivot Tuning

加利福尼亚大学洛杉矶分校和Snap Inc.的研究团队开发了一种名为“Dual-Pivot Tuning”的个性化图像恢复方法。其主要目标是确保恢复的图像对个体的身份和降质输入图像具有高保真度，同时保持自然外观。

项目体验网址:https://top.aibase.com/tool/personalized-restoration-via-dual-pivot-tuning

【AiBase提要:】 1. ? 图像修复是一个复杂的挑战，研究人员提出了名为“Dual-Pivot Tuning”的突破性AI方法，可以实现人脸模糊变高清。 2. ? 该方法使用有限的高质量个体图像集，以保持图像对个体身份的高保真性。 3. ? 实验证明，“Dual-Pivot Tuning”技术在盲目和少数样本的个性化面部图像修复方面优于其他方法。

香港大学和微软推高效声音转换方法CoMoSVC

CoMoSVC是一种创新技术，可以将一个人的歌声转换成另一个人的歌声。这个项目由香港大学和微软亚洲研究员共同开发，通过一步采样实现快速高质量的声音转换，为音频转换领域带来重大进步。

项目地址:https://top.aibase.com/tool/comosvc

论文地址:https://arxiv.org/pdf/2401.01792.pdf

【AiBase提要:】 ? CoMoSVC设计了基于扩散的教师-学生模型，能理解和模仿不同歌手的声音特征，并快速有效地进行声音转换。 ⚡️ CoMoSVC实现了一步采样，加快了处理速度，同时保持音频质量。 ⚡️这项技术的出现将为音频转换带来更加高效和方便的解决方案。

HandRefiner:解决AI生图手部畸形难题

HandRefiner是一种可以修正形状不正常的手部图像的方法。在生成图像方面，目前的图像生成模型已经非常出色，但是在生成人类手部的图像时常常会出现问题，例如手指数量不对或者手形怪异。

模型下载地址:https://top.aibase.com/tool/handrefiner

项目地址:https://github.com/wenquanlu/HandRefiner/

【AiBase提要:】能够精确地识别和修正生成图像中的畸形手部，保持图像其他部分的一致性利用合成数据进行训练，学习不同手的样子来修正手部。也可以用来修正脚或耳朵

视觉编码器VCoder:提高模型在识别图像方面的能力

VCoder是一个视觉编码器，旨在提高多模态语言模型（MLLM）在识别图像中的对象和理解图像场景方面的能力。它能够帮助模型更好地理解和分析图像内容。

项目地址:https://top.aibase.com/tool/vcoder

【AiBase提要】 ?VCoder提供额外的视觉编码器，使多模态语言模型（MLLM）能够更好地理解和分析图像内容。 ?VCoder能够处理特殊类型的图像，如分割图和深度图，提升模型识别和理解图像中不同物体的能力。 ?VCoder在对象识别任务中优于基线模型，在复杂场景中表现出更高的准确性和对象计数能力。

AiBase副业搞钱交流群

欢迎大家加入AiBase交流群，扫码进入，畅谈AI赚钱心得，共享最新行业动态，发现潜在合作伙伴，迎接未来的赚钱机遇！。返回搜狐，查看更多

责任编辑：

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关文章

发表回复 取消回复

发表回复取消回复