【天天时快讯】PandaGPT:统一六模态
机器之心专栏机器之心编辑部近日,来自剑桥、NAIST和腾讯AILab的研究者
机器之心编辑部
近日,来自剑桥、NAIST 和腾讯 AI Lab 的研究者推出了一款名为 PandaGPT 的跨模态语言模型,展示了在人工智能领域的创新尝试。通过结合 ImageBind 的模态对齐能力和 Vicuna 的生成能力,同时实现了六种模态下的指令理解与跟随能力。虽然 PandaGPT 的效果尚有提升空间,但展示了跨模态 AGI 智能的发展潜力。来自剑桥、NAIST 和腾讯 AI Lab 的研究者近期发布了一项名为 PandaGPT 的研究成果,这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。PandaGPT 可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频的问题等复杂任务。它可以同时接收多模态输入,并自然地组合它们的语义。
项目主页: https://panda-gpt.github.io/
(资料图片仅供参考)
代码: https://github.com/yxuansu/PandaGPT
论文: http://arxiv.org/abs/2305.16355
线上 Demo 展示: https://huggingface.co/spaces/GMFTBY/PandaGPT
为了实现图像 & 视频、文本、音频、热力图、深度图、IMU 读数六种模态下的指令跟随能力,PandaGPT 将 ImageBind 的多模态编码器与 Vicuna 大型语言模型相结合(如上图所示)。 为了使 ImageBind 的多模态编码器和 Vicuna 的大型语言模型的特征空间对齐,PandaGPT 使用了组合 LLaVa 和 Mini-GPT4 发布的共 160k 基于图像的语言指令跟随数据作为训练数据。 每个训练实例包括一张图像和相应一组多轮对话。 为了避免破坏 ImageBind 本身的多模态对齐性质和减少训练成本,PandaGPT 只更新了以下模块:在 ImageBind 的编码结果上新增一个线性投影矩阵,将 ImageBind 生成的表示转换后插入到 Vicuna 的输入序列中;
在 Vicuna 的注意力模块上添加了额外的 LoRA 权重。两者参数总数约占 Vicuna 参数的 0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在 8×A100 (40G) GPUs 上完成训练需要约 7 小时。
值得强调的是,目前的 PandaGPT 版本只使用了对齐的图像 - 文本数据进行训练,但是继承了 ImageBind 编码器的六种模态理解能力(图像 / 视频、文本、音频、深度度、热量图和 IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。 在实验中,作者展示了 PandaGPT 对不同模态的理解能力,包括基于图像 / 视频的问答,基于图像 / 视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子: 图像:音频:视频:与其他多模态语言模型相比,PandaGPT 最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。 视频 + 音频:图像 + 音频:总结作者们也总结了目前 PandaGPT 的诸多问题以及未来的发展方向。尽管 PandaGPT 在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升 PandaGPT 的性能。PandaGPT 可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用 ASR 和 TTS 数据来进行音频 - 文本模态的模态理解和指令跟随能力。
文本以外的其他模态仅仅使用了一个 embedding 向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。
PandaGPT 目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个 AIGC 统一到同一个模型之中,即一个模型同时完成图像 & 视频生成、语音合成、文本生成等任务。
需要新的基准测试来评估多模态输入的组合能力。
PandaGPT 还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。
最后,作者们强调,PandaGPT 仅仅是一个研究原型,暂时还不足以直接应用于生产环境。©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
关键词:
机器之心专栏机器之心编辑部近日,来自剑桥、NAIST和腾讯AILab的研究者
目前市场担忧供应进一步收紧,油价被推升至120美元以上,最高触及130美
1、罡组词后有一以下两个意思;1天罡----古时对天星的名字,即北斗七星
什么的荷花,如何填空?1、圣洁的荷花、美丽的荷花、含苞待放的荷花、亭
记者从黑龙江省人力资源和社会保障厅获悉2023年上半年全省事业单位公开
黄子佼承认性骚扰。曝大s姐妹猛料。炎亚纶现身邱耀乐记者会……这两天
2023年武汉中考试卷、答案公布!---湖北日报讯(记者张倩倩)6月22日上
1、长寿花开花时能晒太阳,也必须要晒太阳,光照足才可更好的开花,才
人民网儋州6月22日电(记者李学山)千年古郡,和美环湾。6月21日,儋州市
智通财经APP获悉,丰田汽车(TM US)周三宣布,开始销售全新的汽油和混合
图虫创意供图“跟团游太嘈杂,自驾游车技又不行,请司机兼导游最安心。
最近因为觉得太无聊,想给自己找点事情做,然后就想,如果我能开始一个
1、首先请确定的电脑开了aero效果。第一步、下载下个小软件Windows7-Dr
还有几天,京多安就将恢复自由身,由于和曼城的续约谈判没有结果,这位
科技、数码、互联网新闻如今都成为了大众所关注的热点了,因为在我们的
我们都知道澳柯玛是是品牌,品质值得信赖,而且在家电制冷上具有完整的
1、MBS:Mortgage-BackedSecurity,抵押支持债券或者抵押贷款证券化。
1、巨幼细胞性贫血是指由于缺乏造血物质,即叶酸和B12而引起的贫血。除
1、“给马克基雷的货物”任务当中的npc“海狼”马克基雷位于荆棘谷地图
心静,能离尘嚣,细胞活跃,思维敏捷,记忆增强,智能增长。念佛,乃种