当前位置：首页 > 详情

毫末出席BAAI2023大会，顾维灏：自动驾驶大模型是必然趋势

田溪 2023-06-13 11:30:00 3495

6 月 9 日-10 日，被誉为「AI 春晚」的 2023 北京智源大会举行。在为期两天的 AI 技术盛宴上，「大模型」毫无疑问成为了最火的那个概念。

作为率先在行业推出了自动驾驶生成式大模型的公司，毫末智行受邀出席了本届智源大会，毫末 CEO 顾维灏在现场分享了题为《DriveGPT 雪湖·海若驱动自动驾驶 3.0 时代加速到来》的主题演讲，详细阐释了基于 AI 大模型所实现的端到端自动驾驶方案的最新成果。

在演讲开始，顾维灏首先分享了毫末对于当前自动驾驶发展趋势的判断：2023 年智能驾驶产品进入了一个全线增长的爆发期，正出现三个趋势，即城市导航辅助驾驶产品将围绕量产交付发力、行泊一体将成为自动驾驶公司深耕的重点以及低速无人车市场走向商业化落地，末端配送在商超、快递等场景迎来全面爆发。以上趋势的背后是 AI 技术生态、AI 数据生态、AI 算力生态的加速升级，推动自动驾驶技术与商业发展走向成熟。

顾维灏认为，经过近二十年的发展，自动驾驶技术先后经历了以硬件驱动为主的 1.0 时代、以软件驱动为主的 2.0 时代，目前正在进入由数据驱动的自动驾驶 3.0 时代。进入自动驾驶 3.0 时代，至少需要一亿公里以上的数据规模，感知模型进入到多模态传感器联合输出的模式，认知模式也从人工规则方式发展到可解释、场景化，具有驾驶常识的模型中。因此自动驾驶 3.0 的模式一定是大数据、大算力、大模型的。而毫末正在以数据驱动的方式，实现从自动驾驶 2.0 向 3.0 时代的加速冲刺。

顾维灏表示，毫末智行从 2019 年底创立之初，就定下以数据驱动自动驾驶技术升级的公司技术战略，提出了「自动驾驶发展三定律」，并确立了以「数据智能」为核心，以乘用车辅助驾驶、末端物流自动配送车、智能硬件三大业务作为叶片的风车战略，形成产品、数据、技术闭环的良性循环。

毫末以领先的 AI 技术和量产智能驾驶作为核心优势，在 2021 年底，率先发布国内首个全栈自研的自动驾驶数据智能体系 MANA（雪湖），开始建立数据驱动的闭环体系。截止目前为止，毫末辅助驾驶的用户行使里程超过 5000 万公里，MANA 学习时长达到 67 万小时。在 2022 年底，毫末又建成国内自动驾驶行业最大的智算中心 MANA OASIS（雪湖·绿洲），每秒浮点运算达到 67 亿亿次，为 AI 大模型训练建立起算力基础设施。

基于数据智能体系和智算基础设施，以及早在 2021 年就对 Transformer 大模型前沿探索的基础上，毫末在 2023 年 1 月，在行业率先推出了视觉自监督大模型、3D 重建大模型、多模态互监督大模型、动态环境大模型、人驾无监督认知大模型等五大大模型，也成为行业首个将 GPT 大模型技术引用到自动驾驶认知决策当中的自动驾驶公司。

2023 年 4 月的第八届 HAOMO AI DAY 上，基于 GPT 大模型所具有的生成式预训练、人类反馈强化学习（RLHF）等技术优势，毫末发布了行业首个自动驾驶生成式大模型 DriveGPT 雪湖·海若。

顾维灏认为，AI 大模型成为这场自动驾驶技术升级背后的关键因素。随着 ChatGPT 火爆全球，使得 AI 大模型技术价值被全行业看到。ChatGPT 作为生成式语言大模型的代表，带给 AI 科技行业很大启示，就是通过对海量多模态数据的大规模自监督学习，借助「预训练+微调」的方式，就可以完成各种复杂自然语言任务。现在大模型正在从文本、语音、视觉等单一模态智能向跨场景、多任务的多模态方向演进，AI 大模型在跨领域内容学习和能力获取方面实现了质的飞跃。

顾维灏指出，以传统深度学习的小模型以及人工规则的方式难以突破完全自动驾驶所要求的能力瓶颈，而基于大模型的方式对自动驾驶感知、认知算法进行训练和部署，将使得端到端自动驾驶成为实现，并且会逐步达到超过人类老司机水平的驾驶能力，最终成为自动驾驶机器人，实现无处不在的机器智能移动。

目前，毫末 DriveGPT 采用了 Decoder-only 模型架构，参数规模达到 1200 亿，预训练阶段引入 4700 多万公里量产车驾驶数据，RLHF 阶段引入 5 万段人工精选的困难场景接管 Clips。同时，毫末正在将感知能力融入到 DriveGPT 大模型训练当中，形成一整套的端到端的自动驾驶能力模型。DriveGPT 也将具备道路驾驶场景的理解和识别、道路驾驶场景的重建与生成，以及智能驾驶辅助、驾驶能力测评等能力。

在场景理解能力上，DriveGPT 可基于多模态理解能力，具备对话式文搜图能力。在场景识别能力上，可实现对单帧图片、环视 Bundle、4D Clips 自动化标注。基于毫末 DriveGPT 所建立的 4D Clips 驾驶场景识别方案，可以使得单张图片的标注成本降到 0.5 元，相较目前行业平均成本的 1/10。在场景重建能力上，可实现对单趟或多趟视频的纯视觉 NeRF 三维重建。DriveGPT 在感知数据生成方面，实现不同场景的感知数据生成和障碍物、交通元素编辑，同时在认知数据生成上，可以生成各类接管场景的驾驶决策真值。

基于 DriveGPT 实现的驾驶辅助能力，可包含通用感知能力和驾驶决策能力，提升驾驶效果。DriveGPT 颠覆传统的感知逻辑，通过构建统一的空间计算 Backbone 实现通用视觉感知能力，在一个大模型中同时完成图片纹理、三维结构深度信息、实体语义信息、实体跟踪的学习，试图与人脑对物理世界的感知一样实现通用的视觉感知能力。在认知阶段，将空间计算 Backbone 对接驾驶决策，采用更丰富、更全面的感知信息来训练驾驶决策模型，结合海量的真实驾驶数据训练，最终实现端到端自动驾驶甚至达到无人驾驶。

在云端驾驶决策测评上，DriveGPT 本身的驾驶水平非常高，可以在云端通过大模型输出驾驶决策真值，来对比车端小模型的驾驶效果，实现大规模云端自动化测评，形成一种「Teacher-Student」模式。在多智能体仿真能力上，由于 DriveGPT 具备很强的自主化能力，相当于一个独立智能体，通过在驾驶仿真场景中布置多个智能体，就可以模拟非常复杂的真实交通场景，尤其是复杂场景的多车交互与博弈场景，能给出更真实、有效的测评结论。

在毫末看来，毫末 DriveGPT 大模型技术将使得自动驾驶技术产生质的飞跃，成为实现真正无人驾驶的全新技术路线。顾维灏表示，DriveGPT 的训练成果距离最终的产品体验还有差距，但是进步飞快，自动驾驶大模型最终在终端的落地也会加速到来。

据介绍，毫末 DriveGPT 雪湖·海若大模型的相关技术成果将逐步落地在搭载毫末 HPilot3.0 的新摩卡 DHT-PHEV、魏牌蓝山 DHT-PHEV 以及末端物流自动配送车小魔驼 3.0 上。同时，毫末也正在与多个行业生态伙伴共同探索 DriveGPT 的四大应用能力，包括智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。DriveGPT 大模型也正在将云端的能力对外开放，包括大规模数据的自动化标注，自动驾驶场景仿真测试等能力。

标签：毫末顾维灏自动驾驶大模型

本文为汽车之心原创文章，作者：田溪，如需转载，请联系授权。违规转载法律必究。

好文章，需要你的鼓励

参与评论

请您注册或者登录汽车之心社区账号即可发表回复

去登录

登录或注册

绑定手机

毫末出席BAAI2023大会，顾维灏：自动驾驶大模型是必然趋势

参与评论

相关评论(共0条)

相关推荐