710公海寰宇(中国)有限公司-谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

作者：710公海寰宇文化更新时间：2026-04-15 20:32:27 点击数：

作者| 杏花编纂 | 青暮

于一样平常糊口中，咱们需要一些「尺度」来权衡小我私家的举动。

而于科研事情中，研究职员也需要一些「基准」来评估模子的机能。

是以，不论是遍及的「尺度」还有是特定的「基准」，它们都有必然的参考意义。

然而，假如有一天咱们发明这些「参照物」与现实糊口渐行渐远时，它们该往那边去？

近日，由加州年夜学伯克利分校、华盛顿年夜学及google研究院合著的论文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基准界说的恍惚使命于促成智能理解上的局限性，就像用有限的博物馆来代表整个世界同样。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

论文地址：https://openreview.net/pdf?id=j6NxpQbREA1

于这篇论文中，研究职员论述了呆板进修（ML）对于通用使命框架（CTF）的过分依靠，由于这个框架不得当地蜕变成咱们今天所理解的这些声称评估「通用能力」的基准。值患上留意的是，研究团队其实不否定这些基准的实用性，而是但愿指出将其作为框架存于的固出缺陷。

1展示「整个世界」的博物馆 VS ImageNet

这篇论文最能引起共识的一点就是用故事书作为引子，且将情节贯串全文，使患上论文的研究内容更为直白易懂。

这本书就是1974年出书的《Grover and the Everything In the Whole Wide World Museum》，书中的主人公Grover观光了一门风称展示「整个世界」的博物馆。

该博物馆的每一个展厅都陈设着差别种别的工具，有些种别是随便及主不雅的，好比「你于墙上看到的工具（ Things You Find On a Wall ）」及「房间里能让你挠痒痒的工具（ The Things that Can Tickle You Room ）」；有些种别则很是详细的，例如「胡萝卜屋（ The Carrot Room ）」，而另外一些则暗昧不清，如「高峻的厅堂（ The Tall Hall ）」。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

当Grover认为本身已经经观光完博物馆的一切时，他来到写着「其他工具（Everything Else）」的年夜门前。打开门后，却发明本身置身在外面的世界。

作为儿童故事，Grover的履历是怪诞的。然而，于现实的研究中，例如人工智能特别是ML范畴，也存于近似的固有过错逻辑，此中很多风行的基准依靠在固有的过错假定。

这篇论文的研究职员认为，于诸如「视觉理解」或者「语言理解」之类的恍惚使命中，作为权衡一般能力进展的基准，与有限的博物馆于代表「整个世界的一切」方面同样无效，且这两个谬论的缘故原由是相似的，即素质上是基在特定的、有限的且局限在上下文的情况。

GLUE或者ImageNet之类的基准测试经常被提议为验证任何给定模子机能的基本通用使命的界说。其成果是，经由过程这些基准数据集证实合理的结论往往远远逾越了它们最初设计的使命，甚至凌驾了最初的开发方针。

只管作为迈向「通用方针」的标记，这些基准存于较着的局限性。事实上，这些基准的开发、利用及采用注解了一个布局有用性的问题，此中触及的基准——因为它们于特定命据、器量及实践中的实例化——不成能捕捉任何具备代表性的关在它们的遍及合用性的结论。

论文的作者们认为丈量通用能力的方针（即通用对于象辨认、通用语言理解或者范畴自力推理等方针）不克不及充实表现于数据界说的基准中。研究职员留意到，当前的趋向不得当地扩大了CTF范式，以将其运用在与实际世界方针或者配景差别的抽象体现使命。

从汗青上看，CTF的开发恰是为了引入实用导向及严酷规模的人工智能使命，即主动语音辨认（ASR）或者呆板翻译（MT），此中所需的验证是基准是否正确地反应了计较机于实际情况中所要求的现实使命。这一波界说不明确的「通用」方针则彻底倾覆了其引入的用意。

与其把Grover的履历当做儿童故事来看，倒不如说这是一则深刻的寓言故事。当Grover打开「其他工具」的年夜门时，却发明本身置身在博物馆外的年夜千世界。故事的末端也许已经经预示了这个研究的结论，ImageNet之类的基准界说一定不克不及代表顺应所有实际世界恍惚使命的「通用方针」。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

是以，这篇论文确凿有很多值患上会商及寻思之处。ImageNet存于不足，那其他基准界说就是完善完好的吗？除了了ImageNet，今朝于通用对于象辨认上还有有更好的参照基准吗？该怎样对待以和解决基准界说愈来愈「不基准」这个问题？

生手看热闹，老手看门道，这么头疼的问题就应该交给专业人士。

2OpenReview官方怎么评

迎面向咱们走来的是第一名评委，该评委发出了“否决CV及NLP的“通用”基准中使人信服的不雅点！（A compelling argument against general monolithic benchmarks in vision and NLP）”的惊叹，由于他感觉这篇论文史料详确，不雅点明确，阐发到位，着实使人信服。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

论文的研究职员先于文中铺垫了年夜量的配景常识，向读者揭示了通用人工智能及基准测试的相干研究，并阐发了ML的基准测试什么时候最先作为评估规模狭小的使命机能的尺度化要领。末了，结论就迎刃而解了：通用语言理解及通用对于象辨认的基准素质上是出缺陷的，由于它们运用在狭小的规模。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

末了，这位评委朴拙地但愿计较机视觉及NLP社区能当真看待这篇论文，由于他认为该论文对于于这两个范畴取患上更成心义的进展做出了名贵的孝敬，而不单单是寻求开始进的技能。

但美中不足的是，既然发明了ImageNet基准存于局限性，那有甚么措施可以削减对于这些通用尺度的过分依靠？看来论文的研究职员也还有没找到这个问题的谜底。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

而第二位评委对于这篇论文的评价是：通用人工智能基准的谬论（The Fallacy of Benchmarks for General Artificial Intelligence ）。由于这篇论文的受众重要是AI范畴的研究职员，以是作者于前文回首了通用AI的相干基准，一下拉近了与读者的间隔。此外，援用Grover的故事也使患上该论文有趣易懂。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

纵然这篇论文的开首存于表述问题，未能无缝跟尾主题，但白璧微瑕，评委二号高度赞扬了这篇论文为ML范畴的研究指了然标的目的。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

接着，评委三号也带着他的不雅点款款走来：好论文！但改一下布局就更好了（Well argued paper, with some reorganization suggested）。这位评委指出，这篇论文最年夜的亮点是不雅点怪异且论据足够。但也发出了及第一名评委不异的迷惑：以是，有甚么解决方案可以削减对于通用尺度的过分依靠？

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆