时间:2018-09-20 13:52  来源:利来国际最给利的老牌博彩

DeepMind

DeepMind

  文章来历:大众号 量子位

  DeepMind刚刚宣告,他们在多使命学习上取得了巨大的发展,也就是让单个智能体学会许多不同使命:

  DQN现在能够用相同的算法一口气学会玩57个雅达利游戏了,并且玩得还不差,能到达人类中位数水平。

  这意味着,人类离创造出会做许多不同作业的通用人工智能又进了一步。

  此前,每个智能体只会玩一个游戏,有专门玩《吃豆人》的,有专门玩《打砖块》的,有专门玩《乒乓球》的。假如让学会了《打砖块》的AI去玩《吃豆人》,那就会捡了芝麻丢了西瓜,等它学会《吃豆人》,就把《打砖块》给忘了。

  直到上一年3月,DeepMind才研讨出新的算法,让AI学会《吃豆人》后不忘掉《打砖块》怎样玩。

  但在让1个AI学57个游戏时,DeepMind遇到了问题:

  每个游戏的计分机制不同,奖赏标准也不同,AI只挑得分高的玩。

  △乒乓球

  拿玩乒乓球的游戏来举栗,每一步有三种可能的奖赏:

  -1:AI没接住对方发来的球,不只没挣分,反而倒贴一分;

  0:AI接住了球,进入了敌我双反循环往复的弹球进程,尽力却没有收成;

  +1:AI费了半响劲,总算让对方失手一次,才干得1分,名义上是1分,实践这1分来之不易。

  但假如AI挑选去玩吃豆人,只需一出门,就能够吃到一连串的豆豆,轻轻松松取得几十上百分,分多、事少、易上手。

  之后每走一步 ,可能的奖赏就有许多种了:或许往前一格就死了,或许走十几格都没遇到敌人,或许无敌状态下吃掉几只敌人,分数会很不相同。

  所以,只需不被敌人抓到,吃豆的奖赏显着比打乒乓球高得多。

  AI每天沉浸吃豆,忘掉打球,醉心于一小部分游戏,全然不顾身上还肩负着代表全AI界、学会悉数57个雅达利游戏的重担。

  这该如何是好?

  DeepMind想了想,推出了给智能体“修正KPI”的大杀器:

  PopArt。

  详细怎样玩?

  PopArt技能,能够让不同游戏的奖赏标准相互习惯起来,两个游戏就能遭到相对对等的对待。

  如此,就算分值的数量级相差许多,也没关系。

  研讨人员用PopArt调教了当时最先进的强化学习智能体,使得一只AI能够学会57种雅达利游戏了,体现超过了人类的中位数。

  其实,深度学习靠的是不断更新的权重。这样,输出的动作就会越来越挨近抱负的动作。

  这在深度强化学习里,也相同适用。

  PopArt的作业原理,就是预算各种方针动作之间的均匀值,以彼此之间的距离有多大。经过游戏分值来预算。

  然后,在更新权重之前,用这些统计数据,把方针动作归一化。

  这样一来,学习进程就会变得比较稳定,不简单由于奖赏标准之类的要素而发作改动。

那么,怎样才干估量得准?

  那么,怎样才干估量得准?

  网络的输出值,能够从头调回实在方针的规划 ,只需把归一化进程倒过来就好了。

  假如写代码不细心,统计数据会把一切没归一的输出全改了,就算是用不着归一就现已很好用的那种,也会改掉。

  要防备这种状况,DeepMind找到了一个办法,每次更新统计数据的时分,都把网络朝着反方向更新一下。

  这种操作会成功,标明调整奖赏标准 ,仍是有用的。

  团队说,之所以给AI起名PopArt ,意图就是保存老的,加上新的。

PopArt替代的是奖赏取舍 。

  PopArt替代的是奖赏取舍 。

  一般来说,遇到奖赏标准不同的状况,研讨人员会挑选取舍一下奖赏。

  把太大的和太小的,都调整到 [-1, 1] 的区间里,这是归一化的粗糙版。

  尽管,这个办法学习起来更简单,但学习方针也会发作改变。

  仍是吃豆人的游戏,方针就是吃豆和吃敌人,每颗豆10分,吃掉敌人会取得200到1,600不等的分数。

  取舍奖赏的话,吃豆和吃敌人可能就没区别了。这样练习出来的AI,很可能只吃豆,彻底不去追敌人,究竟吃豆简单。

  这时分用PopArt归一化,来替代取舍过程,练习作用就天壤之别了。智能体会去追敌人了,得的分数也高了许多。

  试验成果

  最终,研讨人员将PopArt运用于Importance-weighted Actor-Learner Architecture 中,这是DeepMind此前提出的、最常用的深度强化学习智能体。

  在ALE模拟器中,研讨人员测试了57种Atari游戏中,智能体在奖赏取舍和未取舍两种状况下,运用PopArt前后的得分状况。

  △奖赏取舍后的得分状况

  △奖赏未取舍的得分状况

  能够看出,橙色的PopArt-IMPALA均匀体现为人类正常得分中位数的110%,未取舍版中的均匀得分为人类水平的101%,能够看出,不管取舍与否,PopArt都能进步智能体在游戏中的得分。

  蓝色未运用PopArt的IMPALA智能体体现比较糟糕,不管是否经过了取舍。取舍后的基线总水平缺乏人类得分中位数的60%,未取舍时的得分挨近0%,与PopArt-IMPALA的体现形成了明显的比照。

  此外,由于多使命PopArt运用了特定等级值添加了网络容量,因而研讨人员进行了额定的试验,想解开添加网络容量对自习惯归一化的影响。图中粉色的MultiHead-IMPALA走势,就是研讨人员用特定等级的值猜测,但不运用PopArt自习惯标准化学习得到的成果。

  试验标明,不管是否取舍,MultiHead-IMPALA的体现都比IMPALA略差,这证明了PopArt-IMPALA的功能提高确实是源于自习惯规划的改变。

  研讨人员还研讨了每种智能体处理的总帧数的曲线。此前,DeepMind发布了使命调集DmLab-30,包括公共动作空间的视觉一致环境中的多种挑战性使命,练习智能体再好不过。

  在这里,研讨人员仍是用自家的DmLab-30基准衡量运用了PopArt战略的作用优异程度。图中每一片色彩区域代表了最优得分和最差得分区间。能够看出,在家DMLab-30使命调集上练习时,依然为PopArt战略下的智能体体现最好。

  综上所述,与没有PopArt的基准智能体比较,PopArt大大进步了智能体的功能。不管奖赏是否取舍,PopArt智能体在游戏中的中位数得分高于人类中位数,远远高于结合了取舍奖赏的基准智能体。而具有未取舍奖赏的基线无法得出有意义的体现,由于它无法有用处理游戏中奖赏规划的大幅度改变。

  传送门

  最终,附DeepMind官方博客地址:

  https://deepmind.com/blog/preserving-outputs-precisely-while-adaptively-rescaling-targets/

  论文Multi-task Deep Reinforcement Learning with PopArt地址:

  https://arxiv.org/abs/1809.04474

相关内容:

上一篇:加速创新药研发 中联肝健康促进中心推出药物创 下一篇:没有了