中金：多模态可能是未来数年大模型产业技术突破和产业催化较为集中的领域-和讯网

智通财经APP获悉，中金发布研究报告称，近年来，以GPT为代表的大模型在语言领域取得了重大突破，人类探索AGI的路径初见曙光。而在大模型兴起之后，产业也试图在图像、视频、音频等更多模态领域复现“Scaling Law”的成功，继续实现大模型的“智能涌现”。持续看好全球AI产业浪潮，并判断多模态可能是未来数年大模型产业技术突破和产业催化较为集中的领域，建议重点关注相关产业趋势进展。

前言：

本文中从技术脉络、产业趋势、应用展望等多个角度，遍历海外和国内的一二级进展，对多模态这一方向进行全面的阐释分析，看好在全球AI浪潮延续，期待攻克多模态这一AI产业发展的下个高地。

▍中金主要观点如下：

多模态是迈向通用人工智能的“必经之路”。

多模态的本质要利用视觉、听觉、触觉、味觉等语言之外更加丰富的感知通道，去模拟人类理解与表达信息的能力。理想中的多模态大模型具备跨模态的泛化理解和生成能力，其更符合人类感知世界的方式，其或能进一步打开AI能力的上限。产业界也在积极探索多模态大模型可行的技术路径，在多模态领域“复刻”大语言模型的成功。但目前多模态大模型的技术栈也尚未收敛，多模态学习和跨模态对齐仍为技术难点，未来产业发展仍有无限可能。

产业探索步步为营，视觉等模态领域进展不断。

图像方面，技术路径已经逐步成熟，扩散模型成为图像生成领域的主流架构，而后产业界也开始将Transformer架构引入，产生了ViT、DiT等扩展性更好的生成模型，过去数年产业界也已诞生多款文生图流行应用;视频方面，文生视频基于文生图像的技术路线，而今年年初Sora的出现也在视频领域延续了DiT架构与“Scaling Law”的成功;音频方面，Transformer加持下的语音合成技术发展也更趋成熟;3D模型方面，初期探索下技术方向已逐渐清晰，3D生成也可能成为未来视觉多模态领域取得突破性进展的下一场景。

多模态AI进展带来更多应用场景的全新可能。

自动驾驶领域，多模态模型具备零样本学习(zero-shot)等泛化能力，其或能加速多模态模型和世界模型在学术界的前沿探索;AI Agent领域，多模态进展能够为AI Agent带来更为丰富的信息感知来源与任务处理范式，也是其未来大规模商业化落地的前提条件;具身智能领域，多模态AI迭代有望进一步提升机器人(300024)的感知决策能力，结合伺服驱动和运动控制技术的提升，加速人形机器人的产业化落地。

风险

技术进展不及预期;应用落地不及预期;行业竞争加剧。

（责任编辑:崔晨）

中金：多模态可能是未来数年大模型产业技术突破和产业催化较为集中的领域

标签推荐

推荐频道