迁移强化学习
然而,AlphaGo虽然功能强大,但是其仅适用于围棋这专门领域,甚至我们只需把围棋的棋盘从19×19改成21×21,就能使它的现有算法失效。
如何利用已经学到的知识,来帮助它学习更多的其他相似任务?这就是迁移强化学习(transfer reinforcement learning)。
迁移强化学习指的是把迁移学习的技术应用到强化学习的智能体训练过程中。强化学习本质上是一种学习从环境到决策的映射从而使效益最大化的方法。目前,强化学习的研究面临着多重挑战,如难以从环境中获取足够反馈,以及面对复杂任务或多项任务时的糟糕表现。而迁移强化学习从源任务选择、知识迁移、任务映射等多个角度对解决这些问题产生了至关重要的影响。
迁移强化学习的应用十分广泛,例如任务导向型的对话系统。任务导向型的对话系统正在成为智能语音交互领域的一大热门,京东智能客服、谷歌语音助手都属于这一范畴。它可以被看作是一个以用户满意度最大化为目标的智能代理,因此用强化学习的方法来训练模型是合适之举。然而,每个人的对话习惯各不相同,这使得大样本数据的分布很不一致。搭建个性化的对话系统是一个很好的解决办法,却又面临数据量不够的问题。迁移学习的介入有效地解决了两者之间的矛盾。它把其他所有人的对话样本看作源数据,把当前用户的对话样本看作目标数据,先从广泛的大众群体对话中学习出一种通用的策略,再利用当前用户的对话数据使得策略精益求精,从而满足个性化需求。
终身迁移学习
终身学习(lifelong learning)研究一个智能系统如何处理不断到来的各类任务,从而实现终身不间断的学习。
而终身迁移学习则指在终身学习不同任务的过程中自适应地使用各种迁移学习技术来提高终身学习的有效性。
然而,传统的迁移学习都是由人来确定使用哪种迁移学习算法。一个终身学习的智能系统可能会面临各种需要迁移学习的场景,而不同算法也有各自擅长的领域,无法一概而论。同时,我们也不希望有太多的人为干预,不必每当遇到新的场景,就由专家来指导智能系统该选用哪种算法。这就促成了自迁移学习(learning to transfer)的诞生。
自迁移学习是一种能由算法自主选择用什么来迁移以及如何去迁移的框架。它的核心思想是从过去已经实施过的一系列迁移学习任务中学习总结经验,并把这些经验应用到未来可能出现的迁移学习任务中。
自迁移学习旨在从过去的经验中学习两件事:一是源数据和目标数据之间的差别对提升迁移学习效果的影响;二是目标数据的判别力强弱如何反映迁移学习的效果。当我们遇到新的数据时,只要计算出了上述两个衡量标准,就能推算出使得提升效果最大化的迁移学习策略是什么。如此一来,智能系统只需要预先学习少量知识,便可以在无须专家的帮助下自主进行有效的终身迁移学习。