您的位置:首页 > 互联网

华为、特斯拉带头,车企卷入「大模型」军备竞赛_特斯拉汽车军事秘密

发布时间:2023-06-16 16:33:52  来源:互联网     背景:

综合报道

9min read

华为、特斯拉带头,车企卷入「大模型」军备竞赛

周永亮2023/06/16


摘要

智能驾驶,还未出现类似 ChatGPT 的「涌现」能力。

自动驾驶的进程,因为大模型又起波澜。

近几年,自动驾驶近年发展迅猛,硬件预埋软件持续迭代的风潮下,车载算力急剧增长快速普及,但软件端功能进化滞后于算力。人们似乎开始接受要经过很长时间才能发展到自动驾驶。

但 ChatGPT 的出现带给自动驾驶行业很大启示。

ChatGPT 作为大语言模型的代表,通过对海量多模态数据的大规模自监督学习,借助「预训练+微调」的方式,让 AI 可以完成各种复杂自然语言任务,甚至通过了图灵测试——自动驾驶,被认为是下一个可能实现突破的领域。

北京智源人工智能研究院院长黄铁军甚至预测,三年之内可以实现高级别自动驾驶。

目前,在产业界很多公司都在「大模型上车」上进行探索。一部分自建大模型,商汤发布的日日新大模型,毫末智行发布了自动驾驶生成式大模型 DriveGPT——雪湖·海若;另一部分公司走联合路线,比如小鹏汽车联合阿里的大模型建立自动驾驶智算中心、斑马智行接入阿里大模型等。

特斯拉 军方

「大模型上车」目前重点进展:

数据标注——特斯拉等公司,通过大模型优化数据标注,降低了人工标注比例和成本;

仿真优化——提升虚拟训练环境的真实性,优化虚拟训练数据;

目前最好的骁龙855手机

优化感知——利用大模型能力,优化多个环节的小模型,提高感知效果;

端到端——利用生成式预训练大模型技术,让自动驾驶模拟类似人脑驾驶的能力。

大模型会如何影响智能驾驶?现在有哪些公司和团队,已经开始实践「大模型上车」了?它真的能让无人驾驶更快到来吗?

特斯拉军用车

小模型 VS 大模型

智能驾驶行业,经历了一个模型「从小到大」的过程。

目前已量产的智能驾驶,绝大多数采用的是模块化架构。简而言之,模块化是将智能驾驶系统拆分为多个典型任务,并由专门的 AI 模型或模块处理。

现阶段的自动驾驶模型框架主要由感知、规划决策和执行三个部分组成。感知模块就像是人的眼睛和耳朵,负责对外部环境进行感知;控制模块就像人的双手和双脚,负责最终的加减速、转向等操作;而决策规划模块就像人的大脑,基于接收到的感知等信息进行行为决策和轨迹生成。

在此架构下,每个大模块可能包含多个小模型的组合。如感知模块可能包含分类、追踪和定位等不同 AI 模型,各司其职。

不过,随着软硬件升级与逐步深入,自动驾驶对于计算能力和海量数据处理能力的需求暴增,传统各个小模型「堆叠」的方案,已经无法满足城市自动驾驶的需求。比如,「堆叠」造成信息失真以及算力浪费,而每个小模型的技术「天花板」也会导致整体解决方案受限。

举个简单例子,小模型就像一个小孩,他非常擅长看图和听故事,可以快速地找到图片中的物品或者听懂一段故事的意思。但是,如果这个故事太长或者太复杂,他可能就会听不懂或者忘记了。


特斯拉自动驾驶技术架构 | 特斯拉

这个时候,大模型开始进入业界视野。

2021 年 8 月,特斯拉的 AI 高级总监 Andrej Karpathy,在特斯拉 AI DAY 上展示了一项新技术——基于 Transformer 的 BEV(鸟瞰视角) 感知方案。相当于车辆正上方 10-20 米有一个直升机俯视车辆与周围环境,这是大模型技术首次应用于自动驾驶领域,也是特斯拉实现纯视觉智能驾驶方案的关键。

华为、百度 Apollo、蔚小理、毫末智行、商汤等一众厂商,甚至像地平线这样的芯片公司,也都在 BEV+Transformer 上有所布局。例如华为的 ADS 1.0,据称已实现基于 Transformer 的 BEV 架构,而最新发布的 ADS 2.0 进一步升级了 GOD 网络,类似于特斯拉的占用网络算法。

而大模型则可以比喻成一个大人,他非常聪明,可以同时处理许多信息,包括看图片、听故事和听音乐等。他可以处理很长的故事或音乐,同时处理多个任务。不过,他需要更多时间和精力学习和处理这些信息。

值得注意的是,Transformer 不等于大模型。它是模型的底座,大模型的架构可以基于 Transformer。

大模型时代的数据和算法

在特斯拉使用 Transformer 之后,大模型早已经不限于智能驾驶感知领域。

目前,智能驾驶已从仅使用模型进行图像感知,使用规则算法的方式,转变为感知、融合、预测全面使用模型。

其中,这是大模型在智能驾驶领域最先落地的几个场景。

数据标注

自动标注是大模型最直接的应用之一,可以大大降低数据标注成本。海量高效的数据标注是算法模型的基础。随着智能驾驶的发展,激光雷达 3D 点云信息和摄像头采集的 2D 图像信息增加,道路场景更丰富,自动驾驶的数据标注类型和数量不断增加。

然而,数据挖掘难度大,数据标注成本高。所以,智能驾驶厂商通过自动标注优化系统效率。例如,特斯拉从 2018 年以来不断发展自动标注技术,从 2D 人工标注转为 4D 空间自动标注。随着自动标注技术的成熟,特斯拉的人工标注团队规模不断缩小。2021 年该团队超过 1000 人,2022 年裁员超过 200 人。


毫末智行发布的自动驾驶生成式大模型 DriveGPT——雪湖·海若 | 毫末智行

小鹏汽车和毫末智行也相继推出自动标注工具。据毫末智行 CEO 顾维灏表示,目前获取车道线、交通参与者和红绿灯信息,人工标注成本约每张图 5 元,而毫末 DriveGPT 的成本仅 0.5 元。

优化仿真

除此之外,自动驾驶需要大量的数据支持,数据积累将长期内是自动驾驶的核心竞争点。目前,数据来源主要有真实数据、虚拟仿真和影子模式。

除真实数据外,仿真场景是弥补训练大模型数据不足的重要方式。虚拟仿真通过 AI 生成道路场景、车辆和行人等信息,对模型进行训练。可用于对行车采集的 corner case 进行反复模拟和训练,弥补现实场景采集信息不足的问题。

目前仿真场景主要由游戏引擎生成,基于现实世界数据保证仿真场景与真实场景的相似度,依靠交通要素的重新组合提高泛化能力。理论上,优质仿真可替代实车数据收集,降低算法搭建成本并提高迭代速率,但逼真的仿真环境构建和许多长尾场景的复现难度大。

大模型有望推动仿真场景大幅提升泛化能力,帮助主机厂提升仿真场景数据的应用比例,从而提高自动驾驶模型的迭代速度、缩短开发周期。

比如特斯拉基于虚幻 4 引擎渲染的仿真环境,测试自动驾驶系统在极端情况和复杂环境中的效果。毫末智行选择与阿里和德清政府合作,将真实交通流导入仿真引擎,用于路口场景的调试和验证。

优化小模型

除了数据层面,在模块化的算法部署模式下,感知算法和规控算法可通过大模型的加强实现感知精度和规控效果的提高。例如,大模型作为车端算法的「老师」,通过「蒸馏 (教授)」帮助小模型实现优异的性能。所谓「蒸馏」,就像老师教学生,将大模型或多个模型集学到的知识迁移到另一个轻量级的模型上。

rtx3060 3070 3080买哪个

比如百度将文心大模型的能力与自动驾驶感知技术结合,提升车载端侧模型的感知能力百度利用半监督方法,充分利用 2D 和 3D 数据训练一个感知大模型。通过在多个环节对小模型进行蒸馏,提高小模型的性能,同时通过自动标注为小模型定制化训练。大模型可以增强远距离视觉 3D 感知能力、提高多模态感知模型的感知效果。

端到端一体化端到端的感知决策一体化算法被认为是自动驾驶算法终局,预测、规划、决策都在这个模型里。所谓「端到端」并不是自动驾驶领域独有的说法,本身是深度学习的一个概念,英文为「End-to-End(E2E)」,简单说就是一个 AI 模型,只要输入原始数据就可以输出最终结果,与 ChatGPT 类似。

在智能驾驶领域,端到端并不是新概念,1988 年面世的 ALVINN 自动驾驶试验车基于端到端架构,在大学校园实现最高 70km/h 的自主行驶。目前,许多厂商研发端到端智能驾驶技术,除特斯拉外,还有英伟达和 comma.ai 等。

这一驾驶方案更接近真实人类驾驶,只需要一个人来开车,从眼睛看到双手转方向盘、脚踩刹车或制动板,整个过程一气呵成,关键因素是人类的大脑中枢神经系统,端到端大模型的作用类似于人类的大脑中枢神经系统。

毫末 DriveGPT 底层模型,同样采用 GPT 这种生成式预训练大模型技术,首先通过引入大规模驾驶数据进行预训练,然后使用奖励模型 (Reward Model) 与 RLHF(人类反馈强化学习) 技术对人驾数据进行强化学习,对自动驾驶认知决策模型进行持续优化。

端到端自动驾驶,只是实现自动驾驶的最理想技术方案,带有研究者的理想主义情感。目前,端到端大模型还存在许多痛点,最大的痛点是可解释性差。

从 PPT 到落地

然而,大模型和智能驾驶的融合并非一蹴而就。

理想汽车创始人、董事长兼 CEO 李想认为,大模型和智能驾驶可以分为三个阶段:

  • 第一阶段是赋能,也就是智能辅助驾驶,赋能驾驶员,让驾驶更安全、便捷。这个阶段需要进行人机共驾的过程来训练大模型;
  • 第二阶段是半机器人。随着越来越多的人使用辅助驾驶,智能驾驶会形成半机器人。它可以解决酒驾、疲劳驾驶等问题,相当于垂直领域的专家,可以看作是真正免费的司机;
  • 第三阶段是 AGI(通用人工智能)。行为学习和认知学习会二合为一,大脑和小脑同时具备,机器可以独立获取信息,形成自主迭代。虽然无法预测这个阶段何时到来,但我们对此充满期待。


大模型发展时间线 | 网络

不过,大型模型在智能驾驶领域面临着众多挑战:

多模态数据

主要体现在多模态数据、训练和部署等几个方面。比如,自动驾驶所需传感器数据包括激光雷达、毫米波雷达、超声波雷达,以及高清摄像头、IMU、GPS 以及 V2X 等。这些数据来自不同的坐标系,带有不同的触发时间戳,以及要考虑到硬件损坏等问题时;同时,需要大量的场景数据,比如交通标志线、交通流、行为模型等等。

算力+芯片难题

从部署方面看,大模型需要高规格的硬件配置,包含高性能计算能力、大容量内存和低时延等特点。但车载设备的硬件条件相对有限,无法提供足够的计算资源支撑大模型运行。

具体来说,大型模型需要超过 10 亿级的 GPU 计算能力,例如在自然语言处理领域的 GPT-3 模型就需要数万亿次浮点运算(Tops)的计算能力。这要求芯片的算力至少要在万级 Tops 以上才能够胜任大型模型的计算任务。但是,在车载部署场景下,芯片的算力往往只有数百 Tops 左右,远远达不到大型模型的要求。

同时,大型模型需要大量的内存来存储模型参数和中间状态。例如,在自然语言处理领域的 GPT-3 模型中,需要使用 350GB 的内存来存储模型参数。但是,在车载部署场景下,芯片的内存容量通常只有几十 GB。

时延问题

此外,大型模型的部署还需要考虑时延的问题。例如,在自动驾驶场景下,需要对海量数据进行实时处理和分析,因此需要保证模型的推理速度和响应时间。但是,在车载部署场景下,要求模型的推理时延要控制在 10ms 级别。

总的来说,大型模型在智能驾驶领域仍是一个初级探索阶段,需要进行算法优化和硬件进一步改进才能真正落地应用。但它给业界带来的期望也很大——有望在未来让自动驾驶成为真正的「老司机」。

特斯拉汽车军事秘密

一个邀请:

目前正在、或者计划将大模型与汽车行业进行结合的团队或个人,不论是否已有产品落地,欢迎联系本文作者 周永亮(Wechat:zhouxizi77),咱们一起聊聊「大模型上车」!

智能驾驶ChatGPT


返回网站首页

本文评论
surface duo 2 中国「DuoWOA新进展:Surface Duo 2即将可以运行Windows 11系统」
通过 DuoWOA 项目最新版本,Surface Duo 2 距离运行 Windows 11 系统这个目标又近了一步。该项目负责人古斯塔夫·蒙塞(Gustave Monce)已经发布了 SurfaceDuoPkg 2209.90 版本,在...
日期:10-04
360数科三季度财报_360数科第二季度营收41.832亿元 净利润同比下降37%
查看最新行情   讯 北京时间8月19日凌晨消息,360数科(Nasdaq:QFIN)今日公布了该公司截至2022年6月30日的2022财年第二季度未经审计财报。财报显示,360数科...
日期:08-20
怀念中国速度了吗?苹果印度iPhone制造难题曝光_苹果 印度建厂
凤凰网科技讯 北京时间2月14日消息,苹果公司目前正寻求实现生产的多元化,增加印度的iPhone产量,但是这一努力遇到了绊脚石。知情人士透露,苹果一直在从美国加州和中国向印度南部...
日期:02-15
车主为三轮车装空调配发电机  网友:这空调系统奔驰、宝马都服
夏季烈日炎炎,没有空调的车辆着实是煎熬。即便是轻型三轮车这样的非机动车,无法安装空调,民间也有大神车主”强行制冷。快科技6月7日讯,网友上传视频显示,一辆电动三轮车在路上行...
日期:06-07
“大鳄”合作力度空前 免费正版能否解救中小企业
  近日,国际软件巨头微软与国内领先的互联网应用服务提供商中国万网达成战略合作,所有使用万网云计算服务、虚拟主机、云主机的用户,都将直接享用到IDC服务器操作系统的正版...
日期:07-30
苹果启用双代工 曝富士康失去独家代工iPhone 15 Ultra资格
近日,有爆料人称,苹果已经邀请立讯和富士康两家代工厂共同代工iPhone 15 Ultra以及iPhone 15 Pro机型。苹果此举意在避免2022年富士康独家代工iPhone 14 Pro系列导致的该系列...
日期:12-29
天猫ip形象介绍「各自为战的IP衍生品市场,什么是淘宝天猫理解的平台能力」
声明:本文来自于微信公众号 新声Pro(ID:xinsheng-pro),作者:张一童,授权转载发布。衍生品已经进入新的上升周期。和2017年前后由VC和创业者推动的创业潮不同,新的阶段,IP衍生品在...
日期:04-06
「流浪地球2」破亿众筹背后,还有这样一家公司不为人知「流浪地球的公司」
声明:本文来自于微信公众号 新声Pro(ID:xinsheng-pro),作者:张一童,授权转载发布。从2019年的《流浪地球》到2023年的《流浪地球2》,星环重工都深度参与了衍生品的设计、开发和生...
日期:02-25
又贵又重的折叠机,到底值不值得买?(最便宜的折叠机)
文丨闫妍出品丨网易科技《态℃》栏目组当下,折叠机似乎成为了手机厂商们寒夜里的一线曙光,使得大家一拥而上。上周接连两天,折叠屏手机市场迎来发布高峰,先是三星带来了Galaxy Z...
日期:08-19
女子存款5万需提供个人收入证明引热议:回应来了「存款超50万要收入证明」
近日,浙江湖州一市民发布视频称,去银行存5万元现金,遭遇工作人员对于职业、现金来源等诸多问题的问询,并被要求提供收入证明等材料。高通能摆脱arm架构吗此事引发高度关注,并登上...
日期:02-08
从傅盛360任职私办可牛 看员工职业操守
  国庆长假,但360与前员工现金山网络CEO傅盛的纷争却没有停止,360副总裁石晓虹所公布的一系列证据截图让这场此前各执一词的论战变得清晰起来。   石晓虹在微博公布四张...
日期:07-23
今年科技公司IPO后平均跌20% 人人网秦表现最差_科技公司ipo的估值翻多少倍
  IPO Dashboards博客编辑丹尼尔·霍(Daniel Hom)在一篇文章中分析了今年IPO的24家科技公司。到目前为止,这些公司的平均股价下跌了19.4%。这使得科技行业成为IPO的“重灾...
日期:07-23
华为智慧屏V官宣 CPU性能提高3倍_华为智慧屏v系列对比
华为今日公布了一款新品华为智慧屏V,号称计算音画新成员”,将在11月2日与华为Pocket S一同发布。官方没有公布任何细节,不过据数码博主看山的叔叔”消息,华为智慧屏V系列将有V65...
日期:10-29
比亚迪盘活腾势!全新猎跑SUV腾势N7盲订7天订单破万_腾势400和比亚迪e6
快科技4月25日消息,一款D9成功让腾势品牌重新回归主流,不得不说,这个由奔驰和比亚迪共同成立的品牌,在奔驰退位”后,反而重获了新生。就在今日,腾势汽车发布了旗下第二款车型N7的...
日期:04-25
微软的云业务要依靠Linux进行合作(云计算与linux的关系)
5月18日消息,据国外媒体报道,微软Windows市场部平台战略总监桑迪·古普塔(Sandy Gupta)日前在其博客中写道,“微软的云业务要依靠Linux,微软的云计划看起来需要依靠与Linux进行...
日期:07-28
华为Mate Xs 2将支持北斗卫星消息!余承东称技术比苹果更强
在今天下午的华为开发者大会上,余承东提到了华为Mate50系列首发的北斗卫星消息功能。怡亚通供应链总经理手机恢复出厂设置卖掉pico多久发布新产品他表示,这个北斗卫星消息功能...
日期:11-06
iPhone 14 Plus遇冷Pro卖爆:价格差1000元 你觉得值吗_iphone12pro max低价
10月7日,iPhone 14 Plus迎来首销,至此,iPhone 14全系机型已全部发售。与iPhone 14 Pro系列热火朝天的销售情况不同,iPhone 14、iPhone 14 Plus遭遇了前所未有的市场寒意,后者首发...
日期:10-24
预计Groupon上市时间或推迟至夏末秋初_Groupon股票
  6月17日消息,据国外媒体报道,自从Groupon提交IPO文件以来,业内权威人士和分析师一直很关注它的财务数据,同时对其长期增长性提出了严重质疑。   虽然Groupon自己希望快速...
日期:07-30
科幻片不再科幻,三星如何让“机器管家”走进现实?
  《机器管家》,这部在二十多年前上映的欧美科幻大片,曾让很多人对未来智能生活充满无限遐想。影片中,机器人安德鲁具有高度的人工智能(AI)特性,不仅可以像人类一样灵活...
日期:07-10
2022年依旧解决不好!iPhone 14 Pro被网友吐槽信号差_iphone11pro信号很差吗
苹果手机的信号问题多年来一直是网络的热点话题,甚至到了2022年,苹果依旧没有将这个致命问题很好的解决掉,并将“祖传手艺”延续到了iPhone14系列身上。今天,一则#iPhone14Pro被...
日期:09-30