下载app

扫码下载

扫码关注

新华报业网  > 聚焦 > 正文
多模态大模型“上车”,商汤绝影再迎新突破

从单模态到多模态,大模型赛道正掀起新一轮技术军备竞赛。

与过去基于单一类别数据进行模型训练不同,所谓多模态大模型,能够将语音、文字、图像、手势、视频等多种模态的数据进行联合训练和学习,从而充分捕捉不同模态之间的关联和互补信息,实现更全面、准确的分析和预测。

比如对于智能汽车而言,通过多模态大模型出色的分析、推理能力,不仅能实现更加安全、类人的智驾体验,还可以打造更加丰富且自然的人机交互体验。

近日,在WAIC 2024上,商汤绝影就展示了多款基于全新发布的商汤“日日新5.5”原生多模态大模型打造的智能驾驶和智能座舱产品,包括可解释、可交互的自动驾驶大模型DriveAGI,以及车载生成式交互界面“随心界面”(FlexInterface)、“随意操控”(AgentFlow)等,以多模态大模型为核心,驱动智能汽车加速向真正的超级智能体进化。

双线布局,加速大模型上车

在多模态大模型与智能汽车深度融合方面,商汤绝影主要聚焦两大应用场景:智能驾驶和智能座舱。

其中在智能驾驶方面,早在2022年底,商汤绝影曾率先于业内推出了首个感知决策一体化自动驾驶通用模型UniAD,大幅提升智驾体验的连续性和舒适性。

不过,商汤绝影认为,纯粹的端到端自动驾驶模型并非自动驾驶的最终答案,进一步具备对开放世界的感知、推理、决策及交互能力,将是智能汽车走向超级智能体的重要标志。

图片来源:商汤绝影

为此,在已有UniAD基础上,商汤绝影基于多模态大模型进一步打造了用于驾驶决策规划的智驾大模型DriveAGI,增强端到端系统可解释性的同时,让车辆能够更像人一样理解复杂的现实世界,甚至向用户解释驾驶决策的推理过程。

根据商汤绝影在WAIC 2024现场演示,得益于DriveAGI出色的分析推理能力,搭载了该模型的测试车能在无限宽标识的道路上,安全顺利穿过两个石墩形成的狭窄通道,同时还能准确辨识并理解包括公交车道、潮汐车道及施工车道等各类交通标识,并自主进行变道或规避,甚至当后方有救护车接近时,DriveAGI也会通过思考推理及时变道避让。

不仅如此,多模态大模型还赋予了DriveAGI强大的可交互性,用户不仅可以通过问询让DriveAGI解释自己的决策过程,还能通过语音或手势指令来控制自动驾驶行为。

而在智能座舱方面,商汤绝影则正在打造多模态大模型引擎产品“座舱大脑”(CockpitBrain),目标构建一系列AI大模型座舱产品矩阵。

图片来源:商汤绝影

在本届WAIC上,商汤绝影就发布了首个生成式交互界面产品“随心界面”(FlexInterface)以及“随意操控”(AgentFlow)等多个车载 AI Agent,以通过AI技术改变用户与车载系统的交互方式。

依托AI大模型的即时生成和修改交互界面能力,FlexInterface在大模型解析用户需求的基础上,结合设计系统的框架和范式,可以实现高度动态和个性化的界面生成。无论天气、时间、节日、纪念日,还是周围环境变化,FlexInterface 都能自动变换界面风格,提供最佳用户体验。

AgentFlow 通过大模型的推理能力,则可以模拟人类点击操作,实现对APP和网站的直接操作。用户只需使用自然语言,就能让AI自主选择多个工具完成复杂任务,无需主机厂进行额外的研发适配。例如,用户能让AgentFlow自动搜索并预约适合看球的酒吧,提供从搜索到预订的一站式服务。

此外,在传统智能汽车哨兵模式基础上,商汤绝影还打造了“多模态哨兵”,能够全面理解并应对开放世界中可能对车辆造成损害的各种潜在随机危险行为,诸如划车、喷涂车身、拍打砸车、拉拽门把手、撬门以及踹车等,确保车辆安全无死角。

多模态车端部署,商汤绝影有“杀器”

作为复杂的智能移动终端,智能汽车由于深度融合了先进感知技术、AI算法、大数据及高性能计算平台等应用,同时在人机交互上天然具备触觉、视觉、语音等多模态融合交互的特点,可谓多模态大模型落地的绝佳场景。

不过,由于智能汽车本身的独特性,对安全和实时响应要求非常高,决定了难以完全依靠云测大模型来满足车端的多样化需求,端云结合势在必行。

图片来源:商汤绝影

针对这一趋势,商汤绝影专为多模态大模型打造了一个高性能计算引擎HyperPPL,通过集成大语言模型、多模态模型、CNN模型等,为多模态大模型落地车端提供强大的计算底座。

图片来源:商汤绝影

据商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚介绍,HyperPPL可以适配包括英伟达、高通、英特尔等在内的多个主流车载计算平台,并兼容多种主流操作系统。

同时,HyperPPL支持flash decode、segment prefill等400多个硬件算子,并对算子进行性能优化,同时量化支持int8、int4模式,并支持训练后量化,从而实现极致推理效率。不仅如此,商汤绝影HyperPPL还针对车载多人场景进行了专门优化,使得车内多人并发情况下,车端多模态大模型的模型推理效率相比单人没有明显降低。

在本届WAIC上,商汤绝影就对外展示了在3个不同算力平台上运行2.1B或8B端侧多模态大模型的适配能力。据悉,相较于动辄就有几秒钟延迟的云上部署方案,商汤绝影车载端侧8B多模态模型可以实现首包延迟低至300毫秒以内,推理速度40Tokens/秒。

值得一提的是,除了持续推进大模型技术和应用革新,在量产落地方面商汤绝影也已经取得了不错的进展。

在智能座舱领域,商汤绝影的大模型产品已经在多家车企的量产车型中广泛应用。例如,商汤的大模型已全面助力小米SU7的小爱语音助手车载语音场景应用。6月25日,翼真 L380正式上市,该车也搭载了商汤绝影定制化打造的AI闲聊、美图壁纸、童话绘本、AI问诊等AI大模型座舱产品和功能。

而在智能驾驶领域,商汤绝影的量产智驾产品也已落地包括广汽埃安LX Plus、哪吒S、昊铂GT、红旗等品牌及车型,且商汤绝影目前的多个量产智驾方案在未来均可升级为端到端架构。

责编:于燕
版权和免责声明

版权声明: 凡来源为"交汇点、新华日报及其子报"或电头为"新华报业网"的稿件,均为新华报业网独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"新华报业网",并保留"新华报业网"的电头。

免责声明: 本站转载稿件仅代表作者个人观点,与新华报业网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。

专题
视频

扫码下载

交汇点新闻APP

Android版

iPhone版

分享到微信朋友圈
打开微信,点击底部的“发现”,使用 “扫一扫” 即可将网页分享到我的朋友圈。
分享到QQ
手机QQ扫描二维码,点击右上角 ··· 按钮分享到QQ好友或QQ空间