时光漫步

时光漫步

图书全部分类
套装书
婚恋与两性
字典词典/工具书
棋牌麻将
青少年素质培养

资源详情

线性代数与优化:机器学习视角

线性代数与优化:机器学习视角-电子书下载封面


作者: Charu C. Aggarwal
出版社: 机械工业出版社
副标题: 机器学习视角
原作名: Linear Algebra and Optimization for Machine Learning
译者: 薄立军
出版年: 2025-7-1
页数: 482
定价: 149.00元
装帧: 平装
ISBN: 9787111777052

下载次数:112

书籍详情介绍

书籍资料

  • 内容简介
  • 作者介绍
  • 书籍目录

本书从机器学习视角,系统梳理线性代数与最优化理论,直击初学者“知识零散、课程脱节”的痛点。全书以“应用导向”贯穿始终,分两大模块构建知识网络: 1.线性代数及其应用:从矩阵运算本质出发,深入剖析奇异值分解(SVD)、核方法、图谱理论等工具,通过人脸识别、推荐系统等案例,展现线性代数在特征提取、降维、异常检测中的核心作用。 2.最优化理论及其应用:以最小二乘回归为支点,辐射梯度下降、牛顿法、约束优化等算法,揭示支持向量机、Logistic回归的数学原理,并延伸至神经网络训练中的计算图优化技术。 作者独创“概念即时应用”模式,每章配以“理解题”与“综合习题”,确保读者在真实问题中内化知识,实现从数学公式到算法代码的无缝衔接。

查鲁·C. 阿加沃尔
(Charu C. Aggarwal)
位于美国纽约州约克敦海茨的IBM T. J. Watson 研究中心的杰出研究员,于1996年获麻省理工学院博士学位。他发表了350多篇论文,拥有80多项专利,撰写或编著了18本图书(涵盖数据挖掘、机器学习、推荐系统和离群点分析等领域)。由于其专利的商业价值,IBM三次授予他“创新大师”称号。他曾获EDBT会议颁发的久经考验奖(2014)和IEEE ICDM研究贡献奖(2015)。他曾担任数据挖掘领域许多大型会议的联席程序主席或联席总主席,目前是ACM SIGKDD Explorations和ACM Transactions on Knowledge Discovery from Data的主编。他由于对知识发现和数据挖掘算法的贡献而当选了SIAM、ACM和IEEE的会士。

译者序
前言
致谢
第1章线性代数与优化:导论 1
1.1引言1
1.2标量、向量与矩阵2
1.2.1标量与向量间的基本运算3
1.2.2向量与矩阵间的基本运算7
1.2.3特殊的矩阵类12
1.2.4矩阵幂、多项式与逆 14
1.2.5矩阵逆引理:求矩阵和的逆 17
1.2.6Frobenius范数、迹与能量20
1.3作为可分解算子的矩阵乘法21
1.3.1作为可分解行和列算子的矩阵乘法 22
1.3.2作为可分解几何算子的矩阵乘法 26
1.4机器学习中的基本问题 28
1.4.1矩阵因子分解28
1.4.2聚类 29
1.4.3分类与回归建模29
1.4.4异常值检测31
1.5机器学习中的优化31
1.5.1用于函数简化的泰勒展开32
1.5.2机器学习中的优化示例 33
1.5.3计算图中的优化问题 35
IX
1.6总结36
1.7拓展阅读 36
1.8习题36
第2章线性

换与线性系统 42
2.1引言42
2.2矩阵乘法的几何表示 44
2.2.1正交变换 45
2.2.2Givens旋转与Householder反射 47
2.2.3缩放:一个非刚性变换 49
2.2.4一般情况:正交变换与缩放变换的组合50
2.3向量空间与几何表示 51
2.3.1基系统中的坐标56
2.3.2基集之间的坐标变换 58
2.3.3向量集的生成空间 59
2.3.4机器学习示例:离散小波变换61
2.3.5向量空间的子空间之间的关系62
2.4矩阵行与列的线性代数 64
2.5矩阵的行阶梯形式65
2.5.1LU分解 67
2.5.2应用:建立一个基集 68
2.5.3应用:矩阵求逆68
2.5.4应用:求解线性方程组 68
2.6矩阵秩的概念 71
2.7生成正交基集 73
2.7.1Gram-Schmidt正交化与QR分解 73
2.7.2QR分解 75
2.7.3离散余弦变换78
2.8线性系统的优化视角 80
2.8.1Moore-Penrose伪逆 82
2.8.2投影矩阵 83
2.9病态矩阵与系统86
2.10内积:几何视角87
2.11复向量空间88
2.12总结91
2.13拓展阅读 92
2.14习题92
第3章特征向量与可对角化矩阵98
3.1引言98
3.2行列式 99
3.3可对角化变换与特征向量 104
3.3.1复特征值108
3.3.2左特征向量与右特征向量109
3.3.3对角化的存在唯一性110
3.3.4三角化的存在唯一性112
3.3.5共享特征值的相似矩阵族114
3.3.6共享特征向量的可对角化矩阵族 115
3.3.7对称矩阵116
3.3.8半正定矩阵118
3.3.9Cholesky分解:对称LU分解 120
3.4机器学习与优化应用 121
3.4.1机器学习中的快速矩阵运算 121
3.4.2机器学习中的可对角化矩阵示例 122
3.4.3二次优化中的对称矩阵124
3.4.4对角化的应用:优化中的分离变量129
3.4.5范数约束二次规划的特征向量 130
3.5求特征向量的数值算法 132
3.5.1基于Schur分解的QR方法133
3.5.2求主特征向量的幂方法133
3.6总结136
3.7拓展阅读 136
3.8习题136
第4章最优化基础:机器学习视角141
4.1引言141
4.2优化基础 142
4.2.1单变量优化问题 142
4.2.2双变量优化问题 149
4.2.3多变量优化问题 151
4.3凸目标函数154
4.4梯度下降的细节158
4.4.1用有限差分检验梯度的正确性 158
4.4.2学习率衰减与盲驱动159
4.4.3线搜索160
4.4.4初始化162
4.5机器学习中优化问题的性质 162
4.5.1经典目标函数与可加分离性 163
4.5.2随机梯度下降法 163
4.5.3机器学习中优化问题的特点 165
4.5.4超参数调优167
4.5.5特征预处理的重要性167
4.6计算关于向量的导数 168
4.6.1矩阵微积分符号 169
4.6.2实用的矩阵微积分恒等式170
4.6.3向量求导的链式法则173
4.7线性回归:数值目标下的优化 175
4.7.1Tikhonov正则化 176
4.7.2随机梯度下降法 177
4.7.3偏移的使用178
4.8二元目标优化模型 179
4.8.1最小二乘分类:二元目标回归 180
4.8.2支持向量机182
4.8.3Logistic回归 185
4.8.4为什么线性回归是机器学习中的基础问题187
4.9多类设定下的优化模型 188
4.9.1Weston-Watkins支持向量机189
4.9.2多项式Logistic回归191
4.10坐标下降法 193
4.10.1基于坐标下降法的线性回归195
4.10.2块坐标下降法196
4.10.3作为块坐标下降的k均值算法 196
4.11总结 197
4.12拓展阅读 197
4.13习题 198
第5章高等优化求解方法202
5.1引言202
5.2基于梯度优化的挑战 203
5.2.1局部最优与平坦域 203
5.2.2微分曲率205
5.2.3拓扑示例:悬崖与山谷207
5.3对下降调节一阶导数 208
5.3.1基于动量的学习 209
5.3.2AdaGrad算法210
5.3.3RMSProp算法 212
5.3.4Adam算法212
5.4牛顿法213
5.4.1牛顿法的基本形式 214
5.4.2线搜索对非二次函数的重要性 216
5.4.3示例:关于二次碗的牛顿法 217
5.4.4示例:基于非二次函数的牛顿法 217
5.5机器学习中的牛顿法 218
5.5.1线性回归的牛顿法 218
5.5.2支持向量机的牛顿法220
5.5.3Logistic回归的牛顿法223
5.5.4不同模型间的联系与统一框架 225
5.6牛顿法:挑战与求解 226
5.6.1奇异矩阵与不定的黑塞矩阵 226
5.6.2鞍点问题227
5.6.3非二次函数的收敛问题与求解 228
5.7牛顿法在计算上的有效变体 230
5.7.1共轭梯度法230
5.7.2拟牛顿法与BFGS 234
5.8不可微优化函数236
5.8.1次梯度法237
5.8.2近端梯度法241
5.8.3组合优化中代理损失函数的设计 243
5.8.4优化序列决策的动态规划244
5.9总结247
5.10拓展阅读 247
5.11习题 248
第6章约束优化与对偶250
6.1引言250
6.2投影梯度下降法251
6.2.1线性等式约束 252
6.2.2线性不等式约束 257
6.2.3序列二次规划 261
6.3原始坐标下降法262
6.3.1凸集上凸优化的坐标下降法 262
6.3.2机器学习中的应用:盒回归 264
6.4拉格朗日松弛与对偶 265
6.4.1Kuhn-Tucker最优性条件269
6.4.2应用对偶方法的一般步骤270
6.4.3应用:支持向量机的对偶问题 271
6.4.4支持向量机的对偶问题的优化算法273
6.4.5无约束问题的拉格朗日松弛 276
6.5基于惩罚的方法与原始对偶法 281
6.5.1单一约束的惩罚方法281
6.5.2惩罚方法的一般形式282
6.5.3障碍法与内点法 283
6.6范数约束优化问题 285
6.7原始方法与对偶方法的比较 287
6.8总结288
6.9拓展阅读 288
6.10习题 288
第7章奇异值分解292
7.1引言292
7.2奇异值分解:线性代数视角 293
7.2.1方阵的奇异值分解 293
7.2.2通过填充将方阵的SVD推广到矩形矩阵的SVD297
7.2.3矩形矩阵奇异值分解的几种定义 299
7.2.4截断奇异值分解 301
7.2.5奇异值分解的两种解释307
7.2.6奇异值分解唯一吗 309
7.2.7二元分解与三元分解310
7.3奇异值分解:优化视角 311
7.3.1基于基正交的最大化形式312
7.3.2基于残差的最小化形式313
7.3.3矩阵分解方法的推广314
7.3.4主成分分析314
7.4奇异值分解的应用 317
7.4.1降维 317
7.4.2噪声消除318
7.4.3求解线性代数中的四个基本子空间319
7.4.4Moore-Penrose伪逆319
7.4.5求解线性方程与线性回归320
7.4.6机器学习中的特征预处理与白化 321
7.4.7异常值检测322
7.4.8特征工程323
7.5奇异值分解的数值算法 324
7.6总结326
7.7拓展阅读 326
7.8习题326
第8章矩阵分解 331
8.1引言331
8.2基于优化的矩阵分解 333
8.3无约束矩阵分解334
8.3.1完全指定矩阵的梯度下降335
8.3.2在推荐系统中的应用338
8.4非负矩阵分解342
8.4.1基于Frobenius范数的优化问题 342
8.4.2用对偶方法求解 343
8.4.3非负矩阵分解的可解释性345
8.4.4非负矩阵分解示例 346
8.4.5I-散度目标函数348
8.5加权矩阵分解349
8.5.1非负稀疏矩阵的实际应用350
8.5.2随机梯度下降法 351
8.5.3应用:基于隐式反馈数据的推荐系统352
8.5.4应用:邻接矩阵中的链路预测 353
8.5.5应用:GloVe单词-单词文本嵌入 353
8.6非线性矩阵分解354
8.6.1Logistic矩阵分解 354
XVI
8.6.2最大边缘矩阵分解 357
8.7广义低秩模型358
8.7.1处理分类元素 360
8.7.2处理序数元素 360
8.8共享矩阵分解362
8.8.1共享因子分解的梯度下降363
8.8.2如何在任意场景中建立共享模型 363
8.9因子分解机364
8.10总结 368
8.11拓展阅读 368
8.12习题 369
第9章线性代数中的相似性 373
9.1引言373
9.2数据矩阵与相似矩阵的等价性 373
9.2.1数据矩阵与相似矩阵的相互转换 374
9.2.2何时从相似矩阵中恢复数据 375
9.2.3何种类型的相似矩阵是“有效的”376
9.2.4作为优化模型的对称矩阵分解 377
9.2.5核方法:机器学习视角377
9.3从相似矩阵中有效恢复数据 378
9.3.1Nystr.m抽样379
9.3.2基于随机梯度下降的矩阵分解 380
9.3.3非对称相似分解 382
9.4相似矩阵的线性代数运算 383
9.4.1相似矩阵的能量与单位球规范化 383
9.4.2均值与方差的范数 384
9.4.3相似矩阵的中心化 385
9.4.4相似矩阵与距离矩阵的相互转换 385
9.5基于相似矩阵的机器学习 388
9.5.1基于相似矩阵的特征工程389
9.5.2相似矩阵的直接用途391
9.6线性代数中的表示定理 393
9.7相似矩阵与线性可分离性 397
9.8总结401
9.9拓展阅读 401
9.10习题 401
第10章图中的线性代数 405
10.1引言 405
10.2图论基础与邻接矩阵 405
10.3邻接矩阵的幂410
10.4Perron-Frobenius定理413
10.5图矩阵的右特征向量 416
10.5.1谱聚类的核视角 417
10.5.2谱聚类的Laplace视角419
10.5.3谱聚类的矩阵分解视角423
10.5.4哪种谱聚类视角最有用424
10.6图矩阵的左特征向量 425
10.6.1作为转移矩阵的左特征向量的PageRank 426
10.6.2声望与中心化的相关度量427
10.6.3左特征向量在链接预测中的应用 428
10.7可约矩阵的特征向量 429
10.7.1无向图 429
10.7.2有向图 430
10.8在机器学习中的应用 432
10.8.1应用于顶点分类 432
10.8.2应用于多维数据 435
10.9总结 436
10.10拓展阅读436
10.11习题436
XVIII
第11章计算图中的优化 440
11.1引言 440
11.2计算图的基础知识 441
11.3有向无环图中的优化 446
11.3.1计算图中的挑战 446
11.3.2梯度计算的一般框架 448
11.3.3暴力计算节点关于节点的导数 448
11.3.4计算节点关于节点导数的动态规划方法452
11.3.5把节点-节点导数转换为损失-权重导数457
11.3.6基于向量变量的计算图459
11.4应用:神经网络中的反向传播461
11.4.2基于向量的反向传播 464
11.4.3基于向量的反向传播示例466
11.5计算图的一般视角 468
11.6总结 471
11.7拓展阅读 471
11.8习题 471
参考文献476


0.438960s