
第2章 多臂老虎机 17
2.1 探索–利用权衡 17
2.2 什么是多臂老虎机问题 18
2.2.1 问题定义 18
2.2.2 一个简单多臂老虎机问题
的实验 19
2.3 案例研究:在线广告 22
2.4 A/B/n测试 23
2.4.1 符号 23
2.4.2 应用于在线广告场景 24
2.4.3 A/B/n测试的优缺点 27
2.5 ε-贪心策略行动 27
2.5.1 应用于在线广告场景 27
2.5.2 ε-贪心策略行动的优缺点 29
2.6 使用置信上界进行行动选择 30
2.6.1 应用于在线广告场景 30
2.6.2 使用置信上界的优缺点 32
2.7 汤普森(后)采样 33
2.7.1 应用于在线广告场景 33
2.7.2 汤普森采样的优缺点 36
2.8 总结 36
2.9 参考文献 36
第3章 上下文多臂老虎机 37
3.1 为什么我们需要函数近似 37
3.2 对上下文使用函数近似 38
3.2.1 案例研究:使用合成用户
数据的上下文在线广告 39
3.2.2 使用正则化逻辑斯谛回归
的函数近似 42
3.2.3 目标函数:悔值最小化 45
3.2.4 解决在线广告问题 46
3.3 对行动使用函数近似 50
3.3.1 案例研究:使用来自美国
人口普查的用户数据的上
下文在线广告 51
3.3.2 使用神经网络进行函数
近似 55
3.3.3 计算悔值 57
3.3.4 解决在线广告问题 57
3.4 多臂老虎机和上下文老虎机的
其他应用 59
3.4.1 推荐系统 59
3.4.2 网页/应用程序功能设计 60
3.4.3 医疗保健 60
3.4.4 动态定价 60
3.4.5 金融 60
3.4.6 控制系统调整 60
3.5 总结 61
3.6 参考文献 61
第4章 马尔可夫决策过程的制定 63
4.1 马尔可夫链 63
4.1.1 具有马尔可夫性的随机
过程 63
4.1.2 马尔可夫链中的状态分类 65
4.1.3 转移和稳态行为 66
4.1.4 示例:网格世界中的n-
步行为 67
4.1.5 示例:一个可遍历马尔可
夫链中的样本路径 69
4.1.6 半马尔可夫过程和连续时
间马尔可夫链 70
4.2 引入奖励:马尔可夫奖励过程 70
4.2.1 将奖励附加到网格世界
示例 71
4.2.2 不同初始化的平均奖励之
间的关系 72
4.2.3 回报、折扣和状态值 72
4.2.4 解析式地计算状态值 73
4.2.5 迭代式地估计状态值 74
4.3 引入行动:马尔可夫决策过程 75
4.3.1 定义 75
4.3.2 网格世界作为马尔可夫决
策过程 76
4.3.3 状态值函数 77
4.3.4 行动值函数 77
4.3.5 最优状态值和行动值
函数 78
4.3.6 贝尔曼最优性 78
4.4 部分可观测的马尔可夫决策过程 79
4.5 总结 80
4.6 练习 80
4.7 参考文献 81
第5章 求解强化学习问题 82
5.1 探索动态规划 82
5.1.1 示例用例:食品卡车的库存补充 82
5.1.2 策略评估 85
5.1.3 策略迭代 90
5.1.4 值迭代 94
5.1.5 动态规划方法的缺点 95
5.2 用蒙特卡罗法训练智能体 96
5.2.1 蒙特卡罗预测 97
5.2.2 蒙特卡罗控制 104
5.3 时间差分学习 111
5.3.1 一步时间差分学习 112
5.3.2 n-步时间差分学习 117
5.4 了解模拟在强化学习中的
重要性 117
5.5 总结 118
5.6 练习 119
5.7 参考文献 119
第二部分 深度强化学习
第6章 规模化的深度Q-学习 122
6.1 从表格型Q-学习到深度Q-
学习 122
6.1.1 神经网络拟合的Q-迭代 123
6.1.2 在线Q-学习 127
6.2 深度Q网络 128
6.2.1 DQN中的关键概念 128
6.2.2 DQN算法 129
6.3 DQN扩展:Rainbow 130
6.3.1 扩展 130
6.3.2 集成智能体的性能 134
6.3.3 如何选择使用哪些扩展:Rainbow的消融实验 134
6.3.4 “死亡三组合”发生了什么
编程语言与程序设计
Python编程 从入门到实践 第3版(图灵出品)
编程语言与程序设计
Hello算法(图灵出品)
编程语言与程序设计
C++ Primer Plus 第6版 中文版(异步图书出品)
编程语言与程序设计
C++ Primer(中文版 第5版)(博文视点出品)
编程语言与程序设计
高效C/C++调试