710公海寰宇(中国)有限公司-温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法

编纂 | 青暮
2021 年 10 月 13 日,来自麻省理工学院、加州年夜学伯克利分校、伊利诺伊年夜学喷鼻槟分校、华盛顿年夜学、帝国理工学院的六名顶级人工智能科学家、计较机视觉科学家于 ICCV 2021 年夜会时期举行了题为「A discussion about deep learning vs classical methods and their roles in computer vision」的学术会商。
介入会商的佳宾包括 Aude Oliva(MIT-IBM Watson 人工智能试验室)、Svetlana Lazebnik(伊利诺伊年夜学喷鼻槟分校)、Jitendra Malik(加州年夜学伯克利分校)、Andrew Davison(帝国理工年夜学)、Richard Szeliski(华盛顿年夜学)、Alexei Efros(加州年夜学伯克利分校)。
1深度进修 vs 传统要领
Richard Szeliski 起首抛砖引玉,发表了题为「Deep vs Classical Methods」的简短演讲。Richard 提到,于设置人工智能专业课程时,一个广为会商的话题是:咱们是否应该教学深度进修以前的传统要领?还有是直接经由过程深度进修解决所有的问题?
为此,Richard 于已往的四年中连续更新他的计较机视觉教科书(https://szeliski.org/Book)。相较在早先的版本,该书插手了旌旗灯号处置惩罚、优化技能等章节,这些常识常常被用在计较机视觉的各个范畴。于「Deep Learning」及「Recognition」两个章节中,Richard 别离先容了深度进修的基来源根基理(传统的收集架构),以和一些越发繁杂的技能(例如,支解、方针检测、视觉及语言)。

现实上,于华盛顿年夜学「计较机视觉」的课程摆设中,教员们会起首先容经典的旌旗灯号处置惩罚算法,接着先容神经收集及深度进修。于此基础上,教员们会进而解说一些经典的技能及运用(例如,3D 计较摄影、神经衬着等)。

密歇根年夜学的计较机视觉课程 EECS 442 将期中的很年夜一部门内容设置为深度进修相干的内容,但于此以前也会先容经典的旌旗灯号处置惩罚、特性提取技能。末了,西席会解说 3D 视觉及经典计较机视觉的内容。此外,这门课的任课西席 Justin Johnson 还有专门针对于神经收集开设了一门课程,更为具体地先容了轮回神经收集、Transformer 等内容。

只管深度进修已经经成了计较机视觉范畴的主流要领,可是仅仅依赖深度进修技能是否能解决所有的计较机视觉问题呢?于论文「What Do Single-view 3D Reconstruction Networks Learn?」中,于基在 ShapeNet 举行 3D 重修时,收集只是于辨认对于象的种别,然后细化外形,并无很好地使用图象的底层信息。

以视觉定位使命为例,一些基在深度进修的要领只是记住了图片呈现的场景,于定位时举行预测。假如查询并无沿着路径,则回归的成果可能始终会被指导到起点。该历程中并无任何的 3D 推理,没有益用 3D 几何布局。

另外一方面,使用语义信息完成 3D 重修等使命也是一条很好的思绪。论文「Joint 3D Scene Reconstruction and Class Segmentation」发表在 2013 年,那时是深度进修鼓起的初期阶段。经由过程辨认修建及树的部位,该要领可以更好地举行 3D 重修,这申明有时引入语义信息是十分有用的。

于单目深度预计使命中,咱们往往于 KITTI 数据集或者一些驾驶场景中举行练习及测试。年夜大都的神经收集模子只是辨认物体于图象中的位置,然后为其付与一个响应的深度。假如咱们将一个收集没见过的物体(例如,冰箱或者狗)放于路的中间,神经收集可能会彻底纰漏失该物体。于驾驶场景下利用这类神经收集模子的安全性值患上商议。

当咱们可以用一个很年夜的数据集练习时,神经收集往往可以体现出很好的机能。然而,假如咱们于某个数据集上练习收集,该收集于不被从头练习的环境下会于别的的数据集上体现出如何的机能?

经典要领(例如,光流法)及用在提取特性的神经收集技能可以很好地联合起来。是以,很多深度进修技能使传统要领得到了新生。论文「PWC-Net」的作者利用前馈神经收集取代了经典的能量最小化要领,该模子运行速率更快,也更靠得住。此外,于论文「Fast Image Processing with Fully-Convolutional Networks」中,作者利用全卷积收集取代一系列经典的计较摄影技能,加快了其运算历程。

于论文「Animating Picture with Eulerian Motion Fields」中,Richard 等人经由过程提取神经收集特性,接着将这些特性解码为彩色像夙来合成图象。

于 Richard 看来,从事 CV 研究的学生及工程师不单单要会利用深度进修要领,也要进修其它类型的 CV 技能。假如咱们可以从数学上对于几何、光学、物理等性子建模,就要斗胆地利用这些要领,它们的机能及泛化能力更强。特别是当咱们拥有的数据十分有限时,利用基在进修的要领就要尤其小心。有时,神经收集和其特性提取历程相较在传统要领更快。

Richard Szeliski 是华盛顿年夜学的兼职传授、美国国度工程院院士、ACM Fellow及 IEEE Fellow。Szeliski 于计较机视觉、基在图象的建模、基在图象的衬着及计较摄影的贝叶斯要领范畴举行了创始性的研究,这些范畴处在计较机视觉及计较机图形的交织点。
Szeliski 1988 年得到卡内基梅隆年夜学计较机科学博士学位。他在 2015 年插手 Facebook,担当计较摄影小组的开创董事,并在 2020 年退休。于插手 Facebook 以前,他于微软研究院以和其他几个工业研究试验室事情了二十年 。
他于计较机视觉、计较机图形学、神经收集及数值阐发方面发表了 180 多篇研究论文,并撰写了《计较机视觉:算法与运用》及《初级视觉不确定性的贝叶斯建模》。他是 CVPR 2013 及 ICCV 2003 的步伐主席,曾经担当 IEEE Transactions on Pattern Analysis and Machine Intelligence 及 International Journal of Computer Vision 编委果副主编,以和Foundations and Trends in Computer Graphics and Vision的开创编纂。
2于马尔CV三条理以前,先回覆廷伯根四问
计较机视觉是「数学」、「科学」、「工程」的联合。很多论文将这些元素交融于了一路。
David Marr 最主要的不雅点是将视觉作为一种科学来思索。上世纪 70 年月末期,他指出咱们应该从三个条理理解计较机视觉使命:(1)计较理论:底层的物理约束(2)算法(3)硬件上的算法实现。现实上,早于上世纪 50、60 年月,1973 年的诺贝尔心理及医学奖患上主、生物学家廷伯根就做了一系列事情,有助在咱们于如今思索基在进修的计较机视觉及传统要领之间的瓜葛。
简而言之,廷伯根最为闻名的孝敬是缭绕动物揭示出特定举动的方式及缘故原由提出了四个基本问题:(1)举动的动因及机理(2)举动随春秋、经验、情况的成长(3)进化对于举动的影响(4)举动对于保存的作用。
试想一下,人类视觉体系怎样感触感染到「深度」?
从机理层面上来讲,神经收集中存于视网膜、感光神经元等组件,它们会孕育发生多层计较。咱们看到的两幅(双目)图的不同让咱们可以感触感染到「深度」。
从举动成长(发育)的角度来讲,婴儿初生之时,其感官体系其实不能很好地事情,跟着时间的迁徙,孩子会学会一些技术,学会不雅察物体的运动。那末,于实际世界中,咱们应该怎样练习如许的神经收集?
以上两个问题与举动的方式(How)有关,可是咱们还有需要回覆关在「Why」的问题,探究人类为何会成长出如许的举动。从生物进化的角度来讲,成长出双目体系的捕食者可以捕捉只有一侧有眼睛的猎物。从功效的角度来讲,这些举动对于物种的保存是有利的。
从计较机视觉的角度来看,咱们需要思索怎样构建某种神经架构来捕捉这些信息,还有需要思量毕竟是利用监视进修、无监视进修,还有是自监视进修来完成该使命。上述这些问题是互补的。

于 Jitendra 看来,咱们可以经由过程练习一个年夜型的神经收集来得到工程运用所需要的能力。可是其暗地里的道理需要经由过程光学及天然世界中的统计成果来注释。这有助在咱们应答计较机视觉范畴发生的巨年夜变化。如今,咱们正处在从监视进修范式转向自监视进修、弱监视进修等范式的历程中。
此外,咱们正处在年夜数据的「陷阱」中。将来,监视旌旗灯号将从「人工」走向「天然」,咱们利用的「年夜数据」于更多环境下将改变为「小数据」。是以,少样本进修是十分主要的,而这就要求咱们设计更多新的收集架构。
温故而知新,相识智能学科的成长汗青有助在咱们成为更好的研究者!

Jitendra Malik 1986 年 1 月插手加州年夜学伯克利分校,他今朝是电气工程及计较机科学系的 Arthur J. Chick 传授。他还有是生物工程系、认知科学及视觉科学组的老师。2002-2004年任计较机科学系主任,2004-2006年及2016-2017年任EECS系主任。2018 年及 2019 年,他于 Menlo Park 担当 Facebook AI Research 的研究总监及站点卖力人。
Malik 传授的研究小组致力在计较机视觉、人类视觉计较建模、计较机图形学及生物图象阐发等很多差别的主题。
他在 1980 年得到 IIT Kanpur 电气工程最好卒业生金奖,并在 1989 年得到总统青年研究员奖。他的论文得到了无数最好论文奖,此中包括五项时间查验奖 - 因于 CVPR 发表的论文而得到的 Longuet-Higgins 奖(两次)及于ICCV发表的论文而得到的 Helmholtz 奖(3次)。他得到了 2013 年 IEEE PAMI-TC 计较机视觉卓异研究员奖,2014 年 K.S.国际模式辨认协会傅奖、2016年ACM-AAAI艾伦纽厄尔奖、2018年IJCAI人工智能卓着研究奖、2019年IEEE计较机学管帐算机前锋奖。他是 IEEE Fellow及 ACM Fellow 。他是美国国度工程院院士及美国国度科学院院士,美国艺术与科学院院士。
3会商环节Q1:这十年来,从经典要领到深度进修要领的改变是怎样发生的?请问 Svetlana,于你的研究历程中,这一历程是自顶向下的,还有是自底向上的?也就是说,导师们发明了深度进修的强盛,并将其先容给了学生们;还有是学生们将这一技能保举给了导师?
Svetlana:我的履历或许与很多研究者相似。我记患上「Alexnet」是深度进修时代到来的主要里程碑,它于 ImageNet 竞赛中一举夺冠,并于 ECCV 2012 上发表了研究论文。Alexei 其时还有及 Yann LeCun 等人就此事举行了争辩,Alexei 对于神经收集持思疑立场,他认为用这些收集举行分类使命其实不具备说服力,利用神经收集完成检测使命才可以说服他。就我小我私家而言,一最先我也思疑本身是否可以或许介入这种研究,由于这些要领就似乎邪术,此中有太多的秘密。我不知道这些成果是否可以复现,是否会被研究社区所接管。
使人兴奋的是,这些年已往了,我的思疑被证实是过错的。人们发现了 Caffe 等好用的步伐包,201三、2014 年先后,学生们最先研究此类要领,那时你甚至只需为本身的特定命据集练习一个 Alexnet 或者者利用现成的特性就能够发表研究论文。而如今,研究走进了深水区,竞争愈来愈激烈,我又变患上灰心了起来。

Svetlana Lazebnik 于2006 年得到伊利诺伊年夜学计较机科学博士学位。2007 年至 2011 年于北卡罗来纳年夜学教堂山分校担当助理传授后,她返回伊利诺伊年夜学任教,今朝担当计较机科学系正传授。她得到的奖项包括 NSF CAREER 奖(2008 年)、微软研究院研究奖(2009 年)、斯隆研究奖(2013 年),并被选 IEEE Fellow(2021 年)。她在2006年发表于 CVPR 的关在空间金字塔匹配的论文得到了 2016 年 Longuet-Higgins 奖,该论文对于计较机视觉有庞大影响。她曾经担当 ECCV 2012 及 ICCV 2019 的步伐主席,今朝担当国际计较机视觉杂志的主编。她的重要研究主题包括场景理解、年夜范围照片集的建模、图象及文本的结合暗示以和视觉辨认问题的深度进修技能。
Q2:Lana 提到了昔时 Alexei 及 Yann 争辩的轶事,请问 Alexei 此刻回过甚怎么对待其时的争辩?
Alexei:
2011 年先后,我曾经去纽约年夜学呆了几个月,于 Yann LeCun 那里试图理解神经收集。那时,我认为人们还有没有预备好步入深度进修时代,神经收集于 ImageNet 上的效果其实不能说服我,我认为分类使命比检测使命简朴患上多。然而,年夜概一年以后,RCNN 横空出生避世,他们证实了深度进修于检测使命上也是可行的。
我是一个很是守旧的研究者,不会容易投身在所谓的研究潮水(例如,图模子、VAE 等)中。只管我及 Jitendra 等人做了许多与深度进修的降生相干的要害事情,可是我那时没有马上开展深度进修研究。我一直于等候深度进修成为一种东西,我所擅长的是解决视觉问题,而非研究收集架构。
厥后,我及同事们据说神经收集受益在 ImageNet 预练习,于 Pascal 数据集上有很好的效果。然而,Pascal 数据集中的数据漫衍与 ImageNet 是大相径庭的。是以,我料想预练习所带来的机能晋升可能其实不是因为 ImageNet 的标签,而是因为像素中的信息。
那时,我对于 Jitendra 说 1 年以内会呈现一些无需 ImageNet 的标签来预练习 RCNN 的事情,这现实上也是自监视进修的念头之一。于 ICCV 2015 上,年夜量有关自监视进修的文章涌现了出来。如今,自监视进修成了主要的预练习方式。

Alyosha Efros(Alexei Efros)是加州年夜学伯克利分校的传授。他在 2003 年从加州年夜学伯克利分校得到博士学位,并于牛津、CMU 及 INRIA/Paris 渡过了一段时间,然后在 2013 年回到伯克利。Alyosha 是数据、像素、近来邻及简朴有用的事物的忠厚粉丝,而对于繁杂(特别是几率)模子、语义标签及语言持思疑立场。
Q3:Andrew Davison 是 SLAM 范畴的专家。请问深度进修对于你们研究小组的事情有何影响?
Andrew:
我很早就据说过深度进修相干的研究,但那时这与我的研究兴致相去甚远。直到 2016 年,我才于论文中插手了深度进修的相干技能,用它来解决一些以前难以解决的问题,向 3D 舆图插手一些语义信息。于深度进修呈现以前,咱们可能会经由过程随机丛林等要领来完成该使命。于其时,深度进修这种新的技能取患了巨年夜乐成,人们最先知识利用该技能举行深度预计等使命。相较在传统要领,深度进修技能有时更快也更正确。
是以,咱们最先研究怎样于 SLAM 范畴利用深度进修技能取代手动设计的先验,于这个标的目的发表了一系列文章。详细而言,咱们经由过程深度进修举行深度猜测及多视图优化等事情。然而,约莫 2018 年以后,人们发明深度进修技能存于一些体系性偏差,收集猜测出的深度及标的目的多是过错的,咱们需要经由过程多视图的方式来解决这些问题。于我看来,经由过程深度进修提取的像素级特性向量比手动设计的特性要越发强盛,但有时咱们也需要回到更传统的几何学、几率化的多视图优化研究上来。

Andrew Davison 是伦敦帝国理工学院呆板人视觉传授兼戴森呆板人试验室主任。他的持久研究重点是 SLAM(同步定位及映照)和其向通用“空间 AI”的蜕变:计较机视觉算法,使呆板人及其别人工装备可以或许映照、定位并终极理解周围的 3D 空间并与之交互。他与他的研究小组及互助者一直于开发具备冲破性意义的体系,包括 MonoSLAM、KinectFusion、SLAM++ 及 CodeSLAM,近来的奖项包括 ECCV 2016 最好论文及 CVPR 2018 最好论文声誉提名奖。他还有踊跃介入将这项技能转化为现实运用,尤其是经由过程他与戴森互助设计了戴森 360 Eye 呆板人吸尘器内部的视觉映照体系。他被选了2017年英国皇家工程院院士。
Q4:Oliva 是人类感知及认知神经科学范畴的专家,就你们的范畴而言,深度进修对于你们的研究带来了哪些变化?有何远景?
Oliva:于认知神经科学范畴,咱们对于此持乐不雅立场,踊跃拥抱这类转变。事实上,早于 2011 年我很幸运地将试验室的研究范畴从神经科学拓展到了计较机科学。那时,咱们最先会商 Alexnet。
从神经科学家的角度出发,咱们认为神经收集是繁杂的黑盒。咱们开发了一系列要领来研究年夜脑黑盒的功效。当咱们看到一些关在人工神经收集的论文时,一些神经科学家认为人工意义上的年夜脑为咱们带来了一个新的研究范畴。他们利用神经科学的要领来研究深度进修模子。
我的研究小组试图为对于深度进修模子中的每一一层举行评估,提供一些可注释性,并于神经科学的开导下设计一些深度进修模子。此外,我有一些从事计较神经科学的同事最先比力各类物种及人造神经收集,我认为深度进修极年夜促成了计较神经科学的成长。

Aude Oliva博士 是 MIT-IBM Watson AI Lab 的 MIT 主任,也是 MIT Quest Corporate 及 MIT Schwarzman 计较学院的主任,带领与行业的互助,将天然及人工智能研究转化为更广漠世界的东西。她还有是计较机科学及人工智能试验室的高级研究科学家,她卖力带领计较感知及认知小组。她的研究是跨学科的,涵盖人类感知及认知、计较机视觉及认知神经科学,并专注在所有三个范畴交织的研究问题。
Q5:于呆板呆板进修、计较机视觉、天然语言处置惩罚等使命中,有一些不容易察觉的研究范畴正于悄然萌芽。「几何深度进修」就是此中一个研究标的目的,相较在传统的 CNN,几何深度进修引入了一些其它类型拓扑的归纳偏置,为编码先验常识提供了新的方式。几何深度进修有助在传统要领于深度进修时代焕发新生。另外一方面,「具身人工智能」(举动主义人工智能)也是具备广漠远景的研究标的目的。请问于深度进修范畴中,将来有哪些具备潜力的研究标的目的?
Jitendra:
我曾经经与同事们针对于图神经收集开展过一些研究。我认为,这一范畴的研究将会与如今的 Transformer 联合起来,这是由于 Transformer 可以更将矫捷地经由过程位置编码等方式构建各类约束。我认为,人们对于此类架构的研究正于举行中,咱们还有没有看到其终极的形态。CNN 及 Transformer 于最近几年来掀起了两波研究海潮,此后还有会有更多新的思绪会引入其它的归纳偏置。于我看来,引入适合的归纳偏置对于在解决少样本进修问题十分主要。
就我小我私家而言,我对于具身人工智能的研究布满热忱,我认为深度进修与其是相辅相成的。如前文所述,计较机视觉范畴的问题可以被划分为多个条理,咱们不该混合它们。深度进修的强盛的地方于在,咱们可以将一些可微的参数化的功效模块毗连起来,利用 SGD 等要领举行梯度降落练习。神奇的地方于在,这些过参数化的模子确凿见效,它们往往不会被困于局部最小值,可以于很多使命上取患上乐成。深度进修的乐成与你是否利用监视进修、自监视进修、强化进修无关。
我认为,具身人工智能是人工智能的另外一个条理,它将视觉及动作联合了起来。典型的运用场景包括呆板人、AR 等,人们需要投入更多的资金及数据,来实现这个 1950 年月就孕育发生的胡想。
Q6:之前,计较机视觉工程师们需要破费年夜量时间设计针对于特定范畴、特定物体的算子、时空器量。但此刻,「特性工程」于有些研究者眼中也许已经经稍显后进了。此刻风行的对于比进修等要领用到了一些特性加强手腕。也许,将来特性加强也会后进,怎样对待这类变化?
Svetlana:
我对于此持开放立场。从久远的角度来看,研究社区需要连结忙碌。15 年前,各人都于设计手工的算子,此刻各人都于做手工的神经收集设计、数据加强,或许于下一个 5 到 10 年,各人城市投身得手工设计元进修技能。我认为这都是可以接管的,重点于在要连结年夜的研究愿景。
现实上,及计较机视觉同样,神经收集也有着悠长的汗青,Alexnet 等模子的降生也有其汗青渊源。神经收集只是咱们可以使用的东西之一,咱们要做的是维持适合的观点框架,让各类东西阐扬作用。
Alexei:
除了了 ICCV 以外,计较机视觉范畴还有有一个顶级集会叫做 CVPR(computer vision and pattern recognition)。我认为这个名字起的很是好,由于咱们的研究一方面触及计较机视觉、另外一方面也触及模式辨认。于我看来,这两个部门别离对于应是否需要利用数据。
我曾经经去牛津年夜学做过博士后研究,VGG 组确凿是做几何计较机视觉的好处所,可是计较机视觉及模式辨认其实不应该严酷地被二分隔来。咱们需要意想到的是,数据长短常主要的,但数据也其实不是全数,咱们要将 CV 及 PR 联合起来。
Q7:相对于而言,深度进修对于 SLAM 研究社区的影响好像还有没有那末年夜。现实上,方针跟踪及各类滤波器也能够被用在 SLAM 范畴。怎样对待 SLAM 范畴中各类东西的变化呢?
Andrew:
我认为这些东西仍旧于成长中。可是显然,深度进修于 SLAM 范畴中并无完胜传统要领。我小我私家喜欢从总体运用的角度来思索 SLAM 问题,它是具身 AI 或者及时感知、三维场景理解的一部门。于拥有充足的数据、收集范围充足年夜的环境下,人们或许会经由过程端到真个进修辨认舆图,成立模子。详细的实现细节(基在进修技能某人工设计)都只是一些计较的模式,相较在此,我越发存眷总体历程的可行性。我越发存眷怎样将这些技能融入到总体的计较框架中,解决有趣的问题。
Richard:
正如 Lana 所说,神经收集的汗青可以追溯到上世纪 50 年月。可是神经收集技能直到 2012 年才于年夜量真实使命上具有可不雅的机能。传统的计较机视觉课程中并无深度进修的部门,那时咱们会讲授生怎样设计线性、非线性滤波器。而深度进修要领可以经由过程多层收集进修出滤波器的权重。
咱们可以从阐发及经验两个方面来对待视觉辨认使命。「经验」指的是神经收集可以记住数据,构建一个于数据中完成内插的体系。然而,这类体系其实不必然具备很好的外推能力。假如你可以经由过程经典的数学、调集、光学要领建模,我认为你需要踊跃测验考试这些要领,而不该该假定神经收集可以解决任何问题。
Jitendra:
咱们没关系思量一下经济学范畴。人类是经济学中繁杂的实体。咱们往往会经由过程呆板进修等基在数据的技能来解决经济学中的猜测问题。可是当咱们想要理解猜测成果时,咱们会利用一些简化的模子举行阐发。
我认为,对于在将来的深度进修研究而言,对于模子的理解是十分须要的。呆板进修理论好像其实不能胜任这项事情(例如,双降落征象)。神经收集好像于进修历程中会记住数据,形成经验。此刻很多论文所做的事情是针对于以往的事情举行数据加强、调解练习参数,而取患上的 1-2 个百分比的机能晋升多是因为彻底无关的因素,而不是因为论文所提出的焦点思惟。
如今深度进修模子正变患上愈来愈年夜,如许一来,只有google、Facebook、亚马逊、微软如许的单元可以从事下一代研究,这对于研究社区来讲其实不是一个好的征象。我但愿研究社区可以呈现一些立异的思绪,咱们也许可以从汗青中寻觅一些灵感。
Q8:此刻的深度进修模子参数目愈来愈年夜(例如,GPT-3),练习成本愈来愈高,咱们是否有须要回过甚研究那些曾经经看似繁杂的传统要领?怎样对待影象引擎?
Oliva:
十年前,咱们举行了年夜量的影象试验,让人们于数小时内看上千张图片,然后测试他们的影象。使人惊奇的是,他们可以记住 90% 的图象。咱们可以构建一种繁杂的体系来研究人类的年夜脑,构建起认知科学到计较机科学的桥梁,经由过程试验的要领来研究这些模子。

雷峰网雷峰网(公家号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





