710公海寰宇(中国)有限公司-Bengio 终于换演讲题目了!生成式主动学习如何让科学实验从寻找“一个分子”变为寻找“一类分子”?
Bengio 终究换演讲标题问题了!天生式自动进修怎样让科学试验从寻觅“一个份子”变为寻觅“一类份子”?

2021 年 11 月 1 日至 11 月 2 日,三星于线上进行为期两天的 2021三星人工智能论坛(Samsung AI Forum 2021)。本年是论坛举办的第 5 年,主题为「将来的人工智能研究」,堆积了世界知名的人工智能范畴学者及行业专家,交流思惟、看法及研究结果,切磋人工智能将来的标的目的。
三星人工智能论坛第一天的主题演讲由蒙特利尔年夜学的 Yoshua Bengio 传授发表,Bengio 也是三星人工智能论坛的结合主席,是三星人工智能传授。于题为 GFlowNets for Scientific Discovery 的主题演讲中,Bengio 提出了一种名为 GFlowNets 的新算法,不局限在于单一性子指标下寻觅某一个最好匹配的份子,而是将方针放年夜,基在天生模子,进修到满意性子指标的充足好的多种份子候选,更一般地说,是满意此性子指标的份子布局的几率漫衍函数。
也就是说,联合天生模子来进修科学试验数据,GFlowNets 使患上获取的可行试验设置不局限在于单一的量化方针下的单一候选,而可以天生多样化的试验候选漫衍,不仅可以提高对于科学试验及测试数据的猜测精度,更主要的是提高试验设置的多样性。

实现这一点的要害于在“流”的建模,也就是从一个侯选最先,慢慢采样其它候选,同时于采样历程中,要经由过程奖励函数设置包管流入及流出是均衡的,也就是流守恒。详细而言,如上图所示,就是从初始候选 s_0 达到终端候选 s_12 的奖励,与从第二候选 s_1 达到终端候选 s_12 的奖励,是相等的。
Bengio 暗示,这类采样方式与 MCMC 有相似的地方,可是比拟之下少了许多随机性,从而计较量年夜幅降低。
此外,这类基在汗青候选慢慢天生新候选的采样方式,与人类于举行科学摸索时,参考前人结果的方式有相似的地方,也就是浏览及进修——构建世界模子——提出问题(试验候选)——向实际世界发问及查询——获取反馈——修改世界模子——提出新问题。对于在这类差别在传统的、静态的监视进修的范式,Bengio 将其称为天生式自动进修,它让咱们再也不局限在寻觅“一个份子”,而可以寻觅“一类份子”。
相干论文已经经发表于arXiv上,代码也已经经开源。

项目地址:http://folinoid.com/w/gflownet/
Yoshua Bengio:蒙特利尔年夜学的全职传授,也是魁北克人工智能研究所 Mila 的开创人及科学主任,全世界公认的人工智能范畴的领先专家之一。因于深度进修方面的创始性事情而著名,与 Geoffrey Hinton 及 Yann LeCun 一路得到了 2018年AM 图灵奖。2019年,Yoshua Bengio 得到了闻名的基拉姆奖,并在 2021 年景为世界上被援用次数第二多的计较机科学家。
Yoshua Bengio 传授作为高级研究员配合引导 CIFAR 呆板及年夜脑进修规划,并担当 IVADO 的科学总监。他是伦敦及加拿年夜皇家学会的会员,也是加拿年夜勋章的官员。
如下是陈诉全文,AI科技评论举行了不转变原意的收拾。
1论文择要这篇论文是关在从一系列动作中进修天生对于象(如份子图)的随机计谋的问题,如许天生对于象的几率与该对于象的给定正奖励成正比。虽然尺度回报最年夜化趋势在收敛到单个回报最年夜化序列,但于某些环境下,咱们但愿对于一组差别的高回报解决方案举行采样。
例如,于黑盒函数优化中,当可能有几轮时,每一轮都有年夜量查询,此中批次应该是多样化的,例如,于新份子的设计中。也能够将其视为将能量函数类似转换为天生漫衍的问题。虽然 MCMC 要领可以实现这点,但它们很昂贵而且凡是只履行局部摸索。
相反,练习天生计谋可以分摊练习时期的搜刮成本并快速天生。利用来自时间差异进修的看法,咱们提出了 GFlowNets ,基在将天生历程视为流收集的不雅点,使患上处置惩罚差别轨迹可以孕育发生不异终极状况的棘手环境成为可能,例如,有许多要领可以挨次地添加原子以天生一些份子图。咱们将轨迹集转换为流,并将流一致性方程转换为进修方针,近似在将 Bellman 方程转换为时间差分要领。
咱们证实了提议方针的任何全局最小值城市孕育发生一个计谋,该计谋从所需的漫衍中采样,并证实 GFlowNets 于奖励函数有多种模式的简朴域及份子合成使命上的改良机能及多样性。
2弁言强化进修 (RL) 中预期回报 R 的最年夜化凡是是经由过程将计谋 π 的所有几率质量放于最高回报的动作序列上来实现的。于本文中,咱们研究了如许一种场景,咱们的方针不是天生单个最高奖励的动作序列,而是采样轨迹漫衍,其几率与给定的正回报或者奖励函数成正比。
这于摸索很主要的使命中颇有用,即咱们想从返回函数的前导模式中采样。这相称在将能量函数转化为响应的天生模子的问题,此中要天生的对于象是经由过程一系列动作得到的。经由过程转变能量函数的温度(即乘法缩放)或者获取返回的幂,可以节制发生器的选择性,即仅于低温下从最高模式四周孕育发生或者摸索更多更高的温度。
这类设置的一个激励运用是迭代黑盒优化,此中进修者可以拜候一个 oracle,该 oracle 可以为每一一轮的年夜量候选者计较奖励,例如,于药物发明运用中。当 oracle 自己不确按时,天生的候选者的多样性特别主要,好比,它可能由细胞检测构成,这是临床实验的廉价代办署理,或者者它可能由对于接模仿的成果构成(预计候选者小份子与方针卵白联合),这是更正确但更昂贵的下流评估(如细胞检测或者小鼠体内检测)的代表。
当挪用 oracle 很昂贵时(例如触及生物试验),Angermueller 等人(2020年)已经证实于此类摸索情况中运用呆板进修的尺度要领是获取已经经从 oracle 网络的数据(例如一组( x, y) 对于,此中 x 是候选解,y 是来自 oracle 的 x 的标量评估)并练习一个监视代办署理 f(被视为模仿器),它从 x 猜测 y。函数 f 或者 f 的变体包罗其值的不确定性,如贝叶斯优化(Srinivas 等人,2010 年;Negoescu 等人,2011 年),然后可以用作奖励函数 R 来练习天生模子或者一项政策,这将为下一次试验测定孕育发生一批候选物。
搜刮使 R(x) 最年夜化的 x 是不敷的,由于咱们但愿为一批查询采样具备高 R 值的一组代表性 x,即缭绕 R(x) 的模式。请留意,存于得到多样性的替换要领,例如,利用批量贝叶斯优化(Kirsch 等人,2019)。所提出的要领的一个长处是计较成本与批次的巨细呈线性瓜葛(与比力候选对于的要领相反,这至少是二次的)。因为可使用合成生物学对于十万个候选物举行阐发,线性缩放将是一个很年夜的上风。
是以,于本文中,咱们专注在将给定的正奖励或者回报函数转换为天生计谋的特定呆板进修问题,该计谋以与回报成正比的几率举行采样。于上面提到的运用中,咱们只于天生一个候选后才运用奖励函数,即除了了终端状况外,奖励为零,返回的是终端奖励。咱们处在 RL 所谓的情节情况中。
咱们的要领将给定状况下分配给动作的几率视为与节点为状况的收集相干联的流,而该节点的输出边是由动作驱动简直定性转换。进入收集的总流量是终端状况(即分区函数)中奖励的总及,可以显示为根节点(或者最先状况)的流量。咱们的算法遭到 Bellman 更新的开导,并于流入及流出每一个状况的流入及流出流量匹配时收敛。选择一个动作的几率与对于应在该动作的输出流成正比的计谋被证实可以到达预期的成果,即采样一个终端状况的几率与其奖励成正比。
此外,咱们注解由此孕育发生的 RL 设置是离计谋的;纵然练习轨迹来自差别的计谋,只要它有充足年夜的撑持,它也会收敛到上述解决方案。本文的重要孝敬以下:
• 咱们提出了 GFlowNets ,这是一种基在流收集及当地流匹配前提的非归一化几率漫衍的新天生要领:进入状况的流必需匹配输出流。
• 咱们证实了 GFlowNets 的要害特征,包括流匹配前提(很多练习方针可以提供)与天生的计谋与方针奖励函数的匹配成果之间的接洽。咱们还有证实了它的离线特征及渐近收敛性(假如练习方针可以最小化)。此外,咱们还有证实了Buesing 等人以前(2019 年)将天生历程视为一棵树,当存于很多可致使不异状况的动作序列时,该事情将掉败。
• 咱们于合成数据上证实了从追求一种回报模式,而是追求对于整个漫衍和其所有模式举行建模的有效性。
• 咱们乐成将 GFlowNet 运用在年夜范围份子合成范畴,并与 PPO 及 MCMC 要领举行了对于比试验。
3演讲全文今天,我想向各人先容一种用在科学发明的新呆板进修东西 GFlowNets。于人们所谓的黑盒优化,或者者应该称为黑匣子摸索的配景下,GFlowNets 可以运用在科学发明的很多范畴,好比,发现新药物、发明新质料或者者摸索未知黑盒历程的优良节制设置。

我采用这类要领的念头之一,是于因果发明的配景下发明优良的因果模子及对于不雅察的优良注释。于这些情况中,咱们拥有一个 oracle,或者一个黑匣子,或者实际世界,或者一个试验装配,咱们可以对于它举行查询,举行实验,或者者可以测验考试输入 x 的一些配置。
这些输入是查询 x,它们进入这个黑匣子,然后咱们获得一个输出 f(x)。f 是一个标量,是咱们选择的 x 的优劣指标。例如,一种份子的某个性子有多好?谜底一般经由过程试验阐发获得。咱们不知道 f 内里发生了甚么,但咱们想找到 f 的高值。也就是说,咱们想找到使患上 f 很年夜的 x。更一般地说,咱们但愿得到年夜量好的解决方案。
这里还有触及到一个“多样性”的观点,以和一个“摸索”的观点,由于咱们将可以或许经由过程很多路由屡次查询该 oracle。
最初,当咱们不太相识 f 时,咱们更多处在摸索模式。咱们将测验考试差别的 x 值,并让进修器对于 f 内部发生的工作有所相识。于这些历程行将竣事时,从而得到有限信息时,咱们可能更多处在强化进修的“使用”模式
基在池的自动进修
是以,这类要领与强化进修之间存于接洽,但也存于差异,并与自动进修有关。经典的自动进修,也称为基在池的自动进修(Pool-based Active Learning),就是如许事情的。咱们有一个像上述同样的 oracle,它是一个从输入 x 到某个标量的函数。咱们也有一个例子池 s,咱们不知道谜底,并但愿挪用 oracle 来找出谜底。

以是于自动进修的每一个阶段,进修器城市自动提出问题。而于传统的呆板进修中,咱们只是不雅察一组例子,然后从中进修。
于这里,除了了已经有的例子,咱们还有可以提出问题。例如,“对于在一张图片,准确的标签是甚么?”这就是自动进修。
这类要领的问题于在,于很多环境下,咱们并无一组固定的x配置。相反,咱们但愿可以或许于高维空间中提出任何问题,但这又可能遭受指数爆炸。
咱们从自动进修文献中学到的主要教训是怎样选择这些查询,这里的基本思惟是:咱们想要预计猜测变量f的不确定性。换句话说,对于在要预计的函数,咱们但愿选择可以或许提供尽可能多信息的问题。
正如我所说,基在池的自动进修的问题是没法穷举,例如,没法穷举所有的份子,然后只需查询那些具备高不确定性的份子。咱们需要以某种方式处置惩罚数目呈指数级增加的可能问题。
天生式自动进修
以是,我提议遵照的原则是天生式自动进修(Generative Active Learning),这是本次演讲最主要的内容,当进修器可以选择其但愿实际世界提供谜底的问题时,应该举行哪些试验?

于高维空间中,一个不错的方案是:练习一个天生模子,该模子将对于好问题举行采样。
要怎么练习这个模子呢?起首,咱们不雅察实际世界,然后提出一些问题,接下来举行一些试验,将这些试验成果加载到一个数据集中。
是以,有了该数据集,咱们就能够举行传统的呆板进修要领。咱们可以进修一个模子,好比给定 x 猜测 y,咱们也能够利用该模子来筛选潜于问题。
按照该模子,假如咱们发明一个问题患上分很高,好比很高的不确定性,那末这多是一个好问题。
正如我所说,坚苦于在潜于的问题太多了。是以,仅凭猜测候选试验的优劣水平是不敷的,以是咱们要练习这个天生模子。不外,咱们将以一种与凡是的天生模子不太不异的方式来练习它。
凡是的练习天生模子的方式是使用一组固定的例子。但于这里,咱们有一个由世界模子计较的函数,它会告诉咱们特定的试验有多年夜用场。咱们将采用这类非凡的方式来练习天生模子,寻觅天生具备高f值的配置。
可能有许多要领可以做到这一点,但若方针不单单是优化,而是找到差别的好的解决方案,那末合理的做法就是将分数换算。接下来,咱们将基在世界模子得到一种奖励函数,使患上天生模子不是最年夜化奖励,而是得到具备高回报的样本问题。

是以,以与奖励成正比的几率对于它们举行采样。可以界说任何咱们想要的奖励,那末这个解决方案就适合了。但此刻有一个数学问题:怎样将奖励函数转换为天生模子,使患上这个天生模子可以以与该奖励函数成正比的几率举行采样?
原则上,咱们可以将该函数写下来。P_T(x) 是从天生模子中采样的几率,应该等在 R(x) ,即对于所有可能的奖励举行归一化。但归一化是很坚苦的,这是咱们起首碰到的问题。几率东西箱中有一个东西原则上可以做到这一点,它被称为蒙特卡罗马尔科夫链。
独一的问题是,于这些高维空间中,对于在咱们凡是体贴的数据类型,这类 MCMC 要领可能很是慢,事实上,因为所谓的模式混淆挑战,很难真正找到一组多样化的解决方案。

MCMC 要领的事情方式是从初始预测最先。它们会对于初始预测做一些小转变,然后凡是会接管或者拒绝这些转变,如许咱们就会偏向在朝着更可能的配置、更高的奖励配置迈进,假如用准确的数学要领做到这一点,终极,样本链就会收敛到来自准确漫衍的样本,但这个历程很长。
事实上,让这条链拜候所有模式可能需要指数时间,或者者先定位年夜部门模式是高几率奖励的区域。问题于在,当两种模式相距较远时,从一种模式切换到另外一种模式可能需要破费年夜量时间,就像穿越戈壁同样。
假如是十年前,我会说这是不成行的。咱们不克不及将 MCMC 运用在图象或者份子之类的工具,或者者有许多模式的高维物体,它们可以被年夜跨度分隔,而且这些模式仅盘踞极小的体积,以是咱们不克不及随意测验考试。但此刻有了呆板进修要领,咱们可使用呆板进修来取代这类堆集实验而不从中提取有效信息的盲目历程。

是以,假定咱们已经经拜候了三种模式,如咱们于右边所见。幸运的是,漫衍中有布局。事实上,进修器留意到咱们发明的这三种模式都位在网格的点上。以是或许这个网格上的第 4 点是一个测验考试的好处所。这就是泛化,或者者现实上被称为体系泛化,咱们于阔别数据之处举行泛化。
GFlowNets
咱们将利用呆板进修从模式中泛化,通俗来讲,咱们基在它运行优良之处看到的模式来预测它运行优良的其他处所。咱们一直于为此开发一种非凡的要领,我称之为 GFlowNets,天生流收集,这是一种天生模子。
它用在天生问题或者布局化的对于象,以是咱们组织对于象的方式是经由过程一系列动作。咱们不是一次性天生,而是于一系列动作中天生。例如,于份子的环境下,将碎片添加到图形中,或者者将值附加到一组高维值。
咱们称其为天生流收集的缘故原由是它的整个理论基在对于非规范化几率的思索,哪些是流过路径的流,此中一条路径告诉咱们怎样组织一个问题,一个对于象x。所有的路径都从一个根节点最先,到同步节点竣事,可是有差别的几率——咱们将去选择一些动作,然后选择其他动作。

假如看一下这个有向图,它的路径数目呈指数级增加。一般来讲,以和咱们想要得到的是,咱们按比例对于对于象举行采样,对于在给定的函数,长短归一化几率的数目,或者于近似在终端边沿上流动——这是咱们组织对于象的末了一步,恰是咱们想要的奖励函数。以是于某种水平上,咱们可以做的是修复这些流。
咱们怎样摆设其他边沿的流?这象征着构建对于象的计谋,使患上整个事物是一个流收集。假如咱们能做到这一点,咱们就会获得咱们想要的,也就是说,采样对于象的几率将与给定的奖励函数成正比。
这就是这张幻灯片要会商的内容。这是一系列取自行将于线的技能陈诉的界说及命题,所有这些数学都注解流程是对于应的。对于在事务的非归一化几率,这些事务对于应在轨迹上一组属性,告诉咱们怎样组织一个对于象,是以咱们也能够界说与这些流的比率相对于应的传统几率。
最主要的是,这些流有局部前提,以是咱们将进修一个流函数,进修一个新的收集,它输出一个数字,一种暗示有几多畅通过特定边沿或者特定节点的分数。假如咱们查看每一个节点和其输入边及输出边,而且进入的流等在流出的流。假如所有节点都是云云,则流函数是准确的,它学到了一些工具,使整个包具备很是好的特征。
假如是如许,那末采样对于象的几率将与该奖励函数成正比,并起首使流具备这些属性,它是特定点发生的工作的局部下性,咱们将这些轨迹上的状况称为当咱们构建这些对于象时的状况。

咱们可以界说一个名为流匹配练习方针的丧失函数,还有有其他可以界说的丧失函数,但它们都是局部的,只是说于此处的状况 s_t 中一些流入的流应与退出的流的总及相匹配。好动静是,假如从强化进修的角度思量,这个练习方针可使用咱们想要的任何方式采样的轨迹来运用,只要它们为所有可能的轨迹付与非零几率。换句话说,这可以离线练习,没必要利用来自按照收集流量拜候的计谋的样本举行练习。
此刻,我想谈一些很酷的工具及意想不到的工具。假如咱们对于这些界说举行推广,那末咱们的神经收集猜测流入边沿或者节点的流此刻是有前提的,就像分外的变量输入。固然咱们可以计较前提几率,并利用前提计谋举行采样。

这有点眇乎小哉,但出乎意料的是,当咱们以轨迹自己发生的事务为前提时,例如,以于问题构建历程中碰到过的状况为前提,就能够计较一种现代化情势,也称为自由能。换句话说,这个新收集此刻可以输出一个难以处置惩罚的数字。这象征着咱们还有可以计较前提几率,由于咱们已经经最先构建。咱们处在动作序列中的特定点,可以计较及采样从动作序列下流达到其他一些状况的几率。
并且,事实上,咱们可以用它来计较看起来难以处置惩罚的工作,例如熵、前提熵及互信息。所有这些难以处置惩罚的数目,你可能会问咱们怎么可能计较出它们?假如与蒙特卡罗马尔科夫链举行比力,又怎样?咱们是否碰到了一个底子上难以解决的问题。这里可以按照能量函数或者奖励函数对于几率举行采样。咱们已经经把它酿成了一旦收集颠末练习就很轻易的问题。

咱们已经经把一个棘手的问题酿成了一个简朴的问题。可是咱们隐蔽了练习自己的繁杂性,也就是所有这些我说的可以计较的成果。咱们可以用准确的几率举行采样,计较这些自由能及边沿化。
所有这些成果只有于咱们可以或许练习 GFlowNet 的环境下才有可能。是以,假如咱们试图进修的奖励函数中没有布局,就不成能了,准确练习这个收集可能需要指数级的时间。可是假如有布局,假如模式以一种进修器可以泛化的方式构造起来,那末就不需要拜候整个空间。例如,假如咱们可以预测,假如查看 GAN 或者 VAE 等等天生模子,它们会泛化到从未拜候过的像素配置,而且不需要对于其举行练习。
它们不需要于所有可能的像素配置上接管练习,就能够做到这一点。天生之以是发生是由于底层世界有布局。以是咱们可使用这些布局来潜于地边沿化高维结合几率。咱们可使用这些几率来暗示图上调集的漫衍,由于图只是非凡类型的调集。
假如咱们有数据,也能够练习能量函数。到今朝为止,咱们已经经有了这个 GFlowNet,它将进修从一个世界模子中为科学发明历程采样问题,该模子可以提供奖励函数。可是咱们从哪里获得这个奖励函数呢?谜底是从数据中练习它。
此刻事实证实,假如想进修高维空间上的结合漫衍,进修完备的结合是很坚苦的。咱们可以使用从能量函数中采样的能力来练习模子的能量函数。此外,还有可使用 GFlowNets 利用经典最年夜值(如梯度)从数据中练习能量函数。于发明新份子的科学问题中,咱们一直于对于此举行一些试验。
咱们已经经对于此举行了练习,并与我提到的 MCMC 要领以和强化进修要领举行了比力,咱们发明,假如看一下回合挨次,于练习体系之处练习有监视的进修器,然后练习 GFlowNet 利用新模子对于新试验举行采样,作为奖励函数,咱们于 GFlowNet 练习后发送这些查询。
咱们发明,比拟其他要领,GFlowNets 能更快地收敛到好的解决方案。此外,它还有找到了更多样化的解决方案。于一些咱们知道模式于哪里的问题中,咱们可以计较 GFlowNets 是否找到了与现有模式靠近的工具,但它甚至发明了更多模式。以是这长短常使人鼓动的,咱们对于发明中的潜于运用感应很是高兴。
参考链接:
https://news.samsung.com/global/samsung-ai-forum-2021-day-1-ai-research-for-tomorrow

雷峰网雷峰网(公家号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





