他用计算机视觉驱动自动驾驶@“上海科技35U35”张力

文章正文
发布时间:2024-08-08 09:02

为什么我们现在能够谈论自动驾驶?

这背后的计算机视觉技术

起到了非常关键的作用。

复旦大学大数据学院青年研究员、2021上海科技青年35人引领计划(35U35)获奖者张力,在2022复旦大学管理学院科创周系列论坛之“科创先锋论坛·未来力量”上,围绕计算机视觉与自动驾驶进行了阐述。

“What”和“Where”

一般来说,

人工智能的视觉算法,

主要解决两个基本感知问题:

What 和 Where。

What  即识别物体是什么,而 Where 指回答物体在哪里。“如果我们粗略地框出物体的位置,就是一个比较经典的目标检测问题,如果我们用一个非常精细的像素级标明它的位置,这就是一个图像分割问题。”张力解释说,“如果我们能够回答这两个最关键的问题,我们就能够解决最根本的视觉感知问题。”

张力的课题组,

致力于回答“What”和“Where”,

不仅对图像分类与图像分割感兴趣,

还关注自动驾驶场景,

从传统的卷积神经网络,

到自注意力机制神经网络;

从静态的网络到动态的网络,

从静态的图像到动态的视频;

也包括从二维感知

到三维感知。

计算机视觉对于自动驾驶的成功起到了非常关键的作用。2012年开始,图像的准确识别让我们能够通过计算机完成视觉感知,并输入到下游帮助判断下一步的动作。

让计算机看到一只猫

识别到到图片上有一只猫,

这一对人类而言非常简单的任务,

对于计算机却是非常难的。

因为计算机看到的并不是一只猫,

而是一个非常高维的矩阵。

图像识别就是计算机将一个高维的矩阵识别成一只猫。张力介绍说,如果相机或者摄像机旋转一个角度,这个矩阵就会发生剧烈的变化,这时人工智能系统或者计算机视觉系统依然不能出错,识别结果必须还是那只猫。

图像识别分类会细化到这是一只什么猫。“如果猫的背景很嘈杂、有不同光照、或是猫的身体有遮挡,我们都希望计算机还是能识别出这只猫。”张力说,“庆幸的是这个领域在2012年就突破了这些挑战,计算机总是能够识别出那只猫。”

当然,仅仅识别一只猫是远远不够的,2012年的一项突破性技术就是科学家用到神经网络、深度学习技术,在100万数量级的图像分类比赛中,打败了当时所有非深度学习的方法,这个成就加速了计算机视觉的发展,也直接推动了深度学习与人工智能技术的突破。

不断驱动技术创新

推动计算机视觉在自动驾驶领域的落地应用

2021年,张力的科研团队第一次提出解决视觉稠密预测问题的序列到序列网络架构模型 SETR (CVPR 2021) ,并且提出线性复杂度方法 SOFT  (NeurIPS 2021) 解决了 Transformer 模型计算复杂度二次增长的难题。他说:“当时我们在 MIT ADE20K 这个数据集取得了世界最好的成绩,排名第一”。 目前 SETR 一年多时间 Google scholar 的引用数已经超过了1000次。

纯视觉的自动驾驶只依赖于RGB相机输入,能够推理出物体在三维空间中的位置,这对自动驾驶是一个非常关键性的技术。“这位同学离我多远?人类可以很简单地回答出来,但对计算机来说这是一个很难的问题。”张力介绍说,

“我们提出一个纯视觉的解决方案

Ego3RT (ECCV 2022)。

只依靠RGB的输入,

不仅能检测到周围物体的三维位置,

而且能直接构建出鸟瞰图(BEV),

就是在一个上帝视角感知

哪个是车道线、哪个是行驶路面、哪个是车辆。”

完成鸟瞰图的构建后,张力的科研团队又提出了PolarFormer的方法 (AAAI 2023),通过笛卡尔坐标系转化到极坐标系,相当于上帝视角不再是一个标准的矩形,而是一个射线状的表征空间,能够更好地帮助回答What和Where的感知计算任务。为了解决如何融合RGB相机以及和激光雷达的问题,张力团队又提出了多传感器融合的工作DeepInteraction (NeurIPS 2022),并且取得自动驾驶权威数据集 nuScenes 3D目标检测榜单第一的成绩。张力介绍说:

在自动驾驶权威数据集nuScenes的

3D目标检测任务中,

我们几乎是唯一取得

前列成绩的高校团队。

我们的代码也已经全部开源。

当时,张力团队把新开发出的技术SiamMask (CVPR 2019, TPAMI 2022) 应用在牛津的生物实验室的小白鼠实验中。“他们以前对小鼠的活动记录只能通过人工去标记。”张力介绍说,“用了我们的算法以后,AI能够自动地跟踪多个小白鼠的活动并记录下来。”

“生物科研人员的原话是他们看到这项技术后‘泪流满面’,因为AI改变了他们过去几十年以来繁冗的工作方式,这是一个AI赋能多学科的例子。”张力说。

上海科技根据张力在2022复旦大学管理学院科创周系列论坛上的报告整理