线性代数基础46
3.1标量、向量、矩阵和张量46
3.2矩阵初等变换47
3.3线性相关与向量空间48
3.4范数49
3.4.1向量范数49
3.4.2矩阵范数53
3.5特殊的矩阵与向量56
3.6特征值分解57
3.7奇异值分解58
3.8迹运算60
3.9样例:主成分分析61
4概率统计基础64
4.1样本空间与随机变量65
4.2概率分布与分布函数65
4.3一维随机变量66
4.3.1离散型随机变量和分布律66
4.3.2连续型随机变量和概率密度函数67
4.4多维随机变量68
4.4.1离散型二维随机变量和联合分布律69
4.4.2连续型二维随机变量和联合密度函数69
4.5边缘分布70
4.6条件分布与链式法则71
4.6.1条件概率71
4.6.2链式法则73
4.7多维随机变量的独立性分析73
4.7.1边缘独立74
4.7.2条件独立74
4.8数学期望、方差、协方差75
4.8.1数学期望75
4.8.2方差76
4.8.3协方差76
4.8.4协方差矩阵78
4.9信息论基础81
4.9.1信息熵81
4.9.2条件熵83
4.9.3互信息84
4.9.4相对熵与交叉熵84
5概率图模型87
5.1生成模型与判别模型89
5.2图论基础90
5.2.1图的结构90
5.2.2子图91
5.2.3路径、迹、环与拓扑排序92
5.3贝叶斯网络95
5.3.1因子分解96
5.3.2局部马尔科夫独立性断言99
5.3.3I-Map与因子分解100
5.3.4有效迹103
5.3.5D-分离与全局马尔科夫独立性108
5.4马尔科夫网络108
5.4.1势函数因子与参数化表示109
5.4.2马尔科夫独立性111
5.5变量消除114
5.6信念传播116
5.6.1聚类图116
5.6.2团树120
5.6.3由变量消除构建团树123
5.7MCMC采样原理126
5.7.1随机采样127
5.7.2随机过程与马尔科夫链128
5.7.3MCMC采样132
5.7.4Gibbs采样134
5.8参数学习137
5.8.1最大似然估计137
5.8.2期望最大化算法138
5.9小结140
6机器学习基础142
6.1线性模型143
6.1.1线性回归143
6.1.2Logistic回归148
6.1.3广义的线性模型150
6.2支持向量机151
6.2.1最优间隔分类器152
6.2.2对偶问题155
6.2.3核函数156
6.3朴素贝叶斯160
6.4树模型162
6.4.1特征选择163
6.4.2剪枝策略165
6.5聚类166
6.5.1距离度量167
6.5.2层次聚类168
6.5.3K-means聚类171
6.5.4谱聚类172
7数值计算与最优化177
7.1无约束极小值的最优化条件177
7.2梯度下降179
7.2.1传统更新策略181
7.2.2动量更新策略183
7.2.3改进的动量更新策略184
7.2.4自适应梯度策略187
7.3共轭梯度188
7.4牛顿法192
7.5拟牛顿法194
7.5.1拟牛顿条件194
7.5.2DFP算法195
7.5.3BFGS算法196
7.5.4L-BFGS算法197
7.6约束最优化条件200
第3部分理论与应用篇205
8前馈神经网络206
8.1生物神经元结构207
8.2人工神经元结构208
8.3单层感知机209
8.4多层感知机212
8.5激活函数217
8.5.1激活函数的作用217
8.5.2常用的激活函数219
9反向传播与梯度消失225
9.1经验风险最小化227
9.2梯度计算228
9.2.1输出层梯度228
9.2.2隐藏层梯度230
9.2.3参数梯度234
9.3反向传播235
9.4深度学习训练的难点237
9.4.1欠拟合——梯度消失237
9.4.2过拟合240
10自编码器及其相关模型243
10.1自编码器243
10.2降噪自编码器245
10.3栈式自编码器247
10.4稀疏编码器250
10.5应用:cifar10图像分类254
11玻尔兹曼机及其相关模型258
11.1玻尔兹曼机258
11.2能量模型261
11.2.1能量函数261
11.2.2从能量函数到势函数262
11.2.3从势函数到概率分布263
11.3推断264
11.3.1边缘分布265
11.3.2条件分布267
11.4学习270
11.4.1最大似然估计271
11.4.2对比散度274
11.5应用:个性化推荐276
11.5.1个性化推荐概述276
11.5.2个性化推荐架构与算法279
11.5.3RBM与协同过滤285
12递归神经网络291
12.1Elman递归神经网络292
12.2时间反向传播295
12.3长短时记忆网络299
12.4结构递归神经网络302
12.5应用:语言模型308
12.5.1N元统计模型308
12.5.2基于LSTM构建语言模型312
13卷积神经网络318
13.1卷积运算319
13.2网络结构320
13.3卷积层324
13.4池化层329
13.5应用:文本分类333