强化学习:原理与Python实现
上QQ阅读APP看书,第一时间看更新

1.7 本章小结

本章介绍了强化学习的概念和应用,学习了强化学习的分类,讲解了强化学习的学习路线和学习资源。我们还学习了强化学习环境库Gym的使用。后续几个章节将介绍强化学习的理论,并且利用Gym库实践相关理论。

本章要点

·强化学习是根据奖励信号以改进策略的机器学习方法。策略和奖励是强化学习的核心元素。强化学习试图找到最大化总奖励的策略。

·强化学习不是监督学习,因为强化学习的学习过程中没有参考答案;强化学习也不是非监督学习,因为强化学习需要利用奖励信号来学习。

·强化学习的应用包括棋牌运动、自动控制、电动游戏。

·强化学习任务常用智能体/环境接口建模。学习和决策的部分称为智能体,其他部分称为环境。智能体向环境执行动作,从环境得到奖励和反馈。

·按智能体的数量分,强化学习任务可以分为单智能体任务和多智能体任务。按环境是否有明确的终止状态分,强化学习任务可以分为回合制任务和连续性任务。按照时间是否可以离散可以分为离散时间和连续时间。动作空间可以划分为离散动作空间和连续动作空间。环境可以划分为确定性环境和非确定性环境。按照环境是否完全可以观测分,可以分为完全可观测环境和非完全可观测环境。

·强化学习算法可以按照学习的策略和决策的行为策略是否相同分为同策学习和异策学习。按照是否需要环境模型,分为有模型学习和无模型学习。按照策略更新时机可以分为回合更新和时序差分更新。更新价值函数的学习方法称为基于价值的学习,直接更新策略的概率分布的学习方法称为基于策略的学习。如果一个强化学习算法用到了深度学习,则它是深度强化学习算法。

·Python扩展库Gym是OpenAI推出的免费强化学习实验环境。Gym库的使用方法是:使用env=gym.make(环境名)取出环境,使用env.reset()初始化环境,使用env.step(动作)执行一步环境,使用env.render()显示环境,使用env.close()关闭环境。