资源详情

Python商业数据挖掘(第6版)

Python商业数据挖掘(第6版)-电子书下载


作者: [美]盖丽特·徐茉莉(Galit Shmueli)/[美]彼得·C.布鲁斯(Peter C. Bruce)/[美]彼得·戈德克(Peter Gedeck)/[美]尼廷·R.帕特尔(Nitin R. Patel)
出版社: 清华大学出版社
副标题: 大数据应用与技术丛书
译者: 吴文国/金柏琪
出版年: 2021-11
定价: 118
装帧: 平装
ISBN: 9787302590248

下载次数:11


本站推荐

书籍资料

  • 内容简介
  • 作者介绍
  • 书籍目录

用Python展示数据挖掘的理论、技术和应用
通过学习《Python商业数据挖掘(第6版)》,读者将掌握使用Python实现数据挖掘的各种方法,并深入理解在将这些方法应用于数据挖掘的过程中存在的商业问题和机遇。
本书前5版好评如潮,作为第6版,本书首次使用了Python语言。本书除了介绍用于统计和机器学习等领域的预测、分类、可视化、降维、推荐系统、聚类、文本挖掘、网络分析等方法之外,内容还包括:
● 新加入的合著者Peter Gedeck拥有使用Python讲解商业分析课程的丰富经验以及将机器学习应用于新药发现过程的专业技能。在本书中,他十分乐于将这些经验和技能与读者分享。
● 讨论数据挖掘中的伦理问题。
● 根据教师和学生的反馈意见对内容做了更新。
● 通过多个案例展示数据挖掘技术的实际应用。
● 每章后面的习题有助于读者评估和加深对该章内容的理解。
● 在线支持网站提供了数据集、教学资料、习题答案、PPT教案和案例解决方案。

Galit Shmueli博士自2004年以来,一直在美国马里兰大学、statistics.com统计网站、印度商学院设计并指导数据挖掘课程。Shmueli的研究领域包括信息系统的统计方法和数据挖掘,她以研究和擅长讲授商业分析而闻名,并发表了100多篇文章。
Peter C. Bruce是statistics.com统计网站的统计教育研究院的主席和创办人,他发表了多篇学术论文,还开发了Resampling Stats软件。
Peter Gedeck博士是Collabrative Drug Discovery公司的高级数据科学家,他为这家公司开发了一款基于云的软件来管理新药发现过程中用到的海量数据,他还在statistics.com统计网站上教授数据挖掘课程。
Nitin R. Patel博士是位于马萨诸塞州剑桥市的Cytel公司的共同创始人和董事,是美国统计协会会员,同时还是麻省理工学院和哈佛大学的客座教授。

第I部分预备知识
第1章引言............................................................3
1.1商业分析简介...........................................3
1.2什么是数据挖掘......................................4
1.3数据挖掘及相关术语..............................4
1.4大数据........................................................5
1.5数据科学...................................................6
1.6为什么有这么多不同的方法.................6
1.7术语与符号.........

.....................................7
1.8本书的线路图...........................................8
第2章数据挖掘过程概述................................11
2.1引言..........................................................11
2.2数据挖掘的核心思想............................11
2.2.1分类.................................................11
2.2.2预测.................................................12
2.2.3关联规则与推荐系统........................12
2.2.4预测分析..........................................12
2.2.5数据规约与降维技术........................12
2.2.6数据探索和可视化...........................12
2.2.7监督学习与无监督学习....................13
2.3数据挖掘步骤.........................................13
2.4前期步骤.................................................15
2.4.1数据集的组织...................................15
2.4.2预测WestRoxbury小区的房价........15
2.4.3在Python程序中载入并浏览数据....16
2.4.4Python包的导入...............................18
2.4.5从数据库获得采样数据....................18
2.4.6在分类任务中对小概率事件的
过采样.............................................19
2.4.7数据预处理和数据清理....................19
2.5预测力和过拟合....................................24
2.5.1过拟合.............................................24
2.5.2数据分区的创建和使用....................26
2.6建立预测模型........................................28
2.7在本地计算机上用Python实现
数据挖掘.................................................32
2.8自动化数据挖掘解决方案...................33
2.9数据挖掘中的伦理规范.......................33
2.10习题........................................................37
第Ⅱ部分数据探索与降维技术
第3章数据可视化.............................................43
3.1引言..........................................................43
3.2数据实例.................................................45
3.3基本图形:条形图、折线图和
散点图.....................................................46
3.3.1分布图:箱线图和直方图................48
3.3.2热图:可视化相关性和缺失值.........51
3.4多维数据的可视化................................53
3.4.1添加变量:颜色、大小、形状、
多面板和动画..................................53
3.4.2数据操作:重定标、聚合与层次
结构、缩放与过滤...........................56
3.4.3趋势线和标签..................................59
3.4.4扩展到大型数据集...........................60
3.4.5多变量图:平行坐标图....................62
3.4.6交互式可视化..................................63
3.5专用的可视化技术................................65
3.5.1网络数据可视化...............................65
3.5.2层次数据可视化:树状结构图.........66
3.5.3地理数据可视化:地图....................68
3.6小结..........................................................71
3.7习题..........................................................71
第4章降维.........................................................75
4.1引言..........................................................75
4.2维数的诅咒.............................................75
4.3实际考虑..................................................76
4.4数据摘要..................................................77
4.5相关性分析.............................................80
4.6减少分类变量的分类值个数...............81
4.7把分类变量转换为数值型变量..........82
4.8主成分分析.............................................82
4.8.1主成分..............................................87
4.8.2数据归一化......................................88
4.8.3使用主成分进行分类和预测.............91
4.9利用回归模型实现降维.......................91
4.10利用分类树与回归树实现降维........91
4.11习题........................................................91
第Ⅲ部分性能评价
第5章评估预测性能........................................97
5.1引言..........................................................97
5.2评估预测性能.........................................98
5.3评估分类器的性能.............................102
5.4判断排名性能.......................................111
5.5过采样....................................................115
5.6习题........................................................119
第Ⅳ部分预测与分类方法
第6章多元线性回归......................................125
6.1引言.......................................................125
6.2解释模型和预测模型.........................126
6.3估计回归方程和预测结果................127
6.4线性回归中的变量选择....................131
6.4.1减少预测变量的数量.....................131
6.4.2正则化(收缩模型)..........................136
6.5statmodels包的使用...........................138
6.6习题.......................................................139
第7章k-近邻算法...........................................143
7.1k-近邻分类器(分类结果变量)..........143
7.1.1确定近邻记录................................143
7.1.2分类规则........................................144
7.1.3实例:驾驶式割草机......................144
7.1.4设置临界值....................................148
7.1.5多类别的k-近邻算法.....................149
7.1.6把分类变量转换为二元虚拟
变量...............................................149
7.2将k-近邻算法应用于数值型
结果变量...............................................149
7.3k-近邻算法的优缺点..........................151
7.4习题........................................................151
第8章朴素贝叶斯分类器.............................155
8.1引言........................................................155
8.1.1临界概率方法................................155
8.1.2条件概率........................................156
8.2使用完全或精准的贝叶斯
分类器....................................................157
8.2.1使用“归类为最有可能的类别”
准则...............................................157
8.2.2使用临界概率方法.........................157
8.2.3精准贝叶斯方法存在的实际问题...157
8.2.4朴素贝叶斯的独立条件假设...........158
8.3朴素贝叶斯分类器的优缺点............164
8.4习题........................................................165
第9章分类树与回归树.................................167
9.1引言........................................................167
9.2分类树....................................................169
9.3评估分类树的性能..............................175
9.4如何避免过拟合..................................178
9.4.1停止树的生长................................179
9.4.2调节分类树的参数.........................180
9.4.3限制分类树规模的其他方法...........182
9.5从分类树推断分类规则.....................183
9.6多于两个类别的分类树.....................183
9.7回归树....................................................183
9.8改进预测方法:随机森林法和
提升树....................................................186
9.8.1随机森林法....................................186
9.8.2提升树...........................................188
9.9树的优缺点...........................................189
9.10习题......................................................190
第10章Logistic回归.....................................193
10.1引言......................................................193
10.2Logistic回归模型..............................194
10.3实例:接受个人贷款申请...............196
10.3.1只有单个预测变量的模型..........196
10.3.2根据数据估计Logistic模型:
计算参数估计值.........................197
10.3.3用几率解释结果(用于分析
目的)..........................................199
10.4评估分类性能.....................................200
10.5用于多类别分类的Logistic
回归......................................................202
10.5.1定序类别....................................202
10.5.2定类类别....................................203
10.5.3比较定序类别模型和定类
类别模型...................................204
10.6分析实例:预测航班是否延误......206
10.6.1训练模型....................................210
10.6.2模型的解释................................211
10.6.3模型的性能................................212
10.6.4变量选择....................................213
10.7statmodels包的使用..........................216
10.8习题......................................................217
第11章神经网络............................................221
11.1引言......................................................221
11.2神经网络的概念和结构...................222
11.3在数据上拟合神经网络...................222
11.3.1计算节点的输出结果..................223
11.3.2训练模型....................................225
11.3.3对事故的严重程度进行分类.......229
11.3.4避免过拟合................................231
11.3.5把神经网络的输出结果用于
预测和分类................................231
11.4要求用户输入.....................................231
11.5探索预测变量与因变量的关系......232
11.6深度学习.............................................232
11.6.1卷积神经网络............................233
11.6.2局部特征图................................234
11.6.3层次特征....................................234
11.6.4学习过程....................................235
11.6.5无监督学习................................235
11.6.6结论...........................................236
11.7神经网络的优缺点............................236
11.8习题......................................................237
第12章判别分析............................................239
12.1引言......................................................239
12.2记录与类别的距离...........................241
12.3Fisher线性分类函数........................242
12.4判别分析的分类性能.......................245
12.5先验概率.............................................245
12.6误分类成本不均等...........................246
12.7多类别情形下的分类.......................246
12.8判别分析的优缺点...........................249
12.9习题......................................................250
第13章组合方法:集成学习和增益
模型....................................................253
13.1集成学习.............................................253
13.1.1为什么集成学习可以改进
预测能力...................................254
13.1.2集成学习的优缺点.....................257
13.2增益(说服)模型.................................257
13.2.1建立一个简单的预测模型..........260
13.2.2建立增益模型............................260
13.2.3使用Python程序计算增益.........261
13.2.4应用增益模型的结果.................262
13.3小结......................................................262
13.4习题......................................................263
第Ⅴ部分挖掘记录之间的关系
第14章关联规则和协同过滤......................267
14.1关联规则.............................................267
14.1.1从交易数据库中发现
关联规则...................................268
14.1.2生成候选规则............................269
14.1.3Apriori算法...............................270
14.1.4选择强规则................................270
14.1.5数据格式...................................271
14.1.6规则的选择过程........................273
14.1.7解释结果...................................274
14.2协同过滤.............................................277
14.2.1数据类型与数据格式.................278
14.2.2基于用户的协同过滤.................279
14.2.3基于项的协同过滤....................281
14.2.4协同过滤的优缺点....................282
14.2.5协同过滤与关联规则.................283
14.3小结.....................................................284
14.4习题.....................................................284
第15章聚类分析............................................289
15.1引言.....................................................289
15.2计算两条记录之间的距离..............292
15.2.1欧几里得距离...........................292
15.2.2数值型观测值的归一化处理......293
15.2.3数值型数据的其他距离度量
方法..........................................294
15.2.4分类数据的距离度量.................295
15.2.5混合数据的距离度量.................296
15.3计算两个簇之间的距离..................296
15.4(凝聚)层次聚类.................................298
15.4.1树状图:显示聚类过程和
结果..........................................299
15.4.2验证簇......................................301
15.4.3层次聚类的局限性....................303
15.5非层次聚类:k-均值聚类...............304
15.6习题.....................................................308
第Ⅵ部分时间序列预测
第16章时间序列分析...................................313
16.1引言.....................................................313
16.2描述性模型与预测性模型..............314
16.3商业领域常用的预测方法..............314
16.4时间序列的主要成分.......................315
16.5数据分割与性能评估.......................318
16.5.1基准性能:朴素预测.................318
16.5.2生成未来预测结果....................321
16.6习题.....................................................321
第17章基于回归的预测...............................325
17.1趋势模型............................................325
17.1.1线性趋势...................................325
17.1.2指数趋势...................................329
17.1.3多项式趋势...............................330
17.2季节性效应模型...............................330
17.3趋势和季节性效应模型...................333
17.4自相关和ARIMA模型...................334
17.4.1计算自相关性............................334
17.4.2加入自相关信息以提高预测
准确度.......................................336
17.4.3评估可预测性............................339
17.5习题......................................................339
第18章平滑法................................................349
18.1引言......................................................349
18.2移动平均法.........................................350
18.2.1用于可视化的中心移动
平均法.......................................350
18.2.2用于预测的尾移动平均法..........352
18.2.3时间窗口宽度的选择.................354
18.3简单的指数平滑法............................354
18.3.1平滑参数α的选择.....................355
18.3.2移动平均法与简单指数平滑法
的关系.......................................356
18.4高级指数平滑法................................356
18.4.1包含趋势的序列........................356
18.4.2包含趋势和季节性效应的
序列..........................................357
18.4.3包含季节性效应但不包含趋势
的序列.......................................359
18.5习题......................................................359
第Ⅶ部分数据分析
第19章社交网络分析...................................369
19.1引言......................................................369
19.2有向网络与无向网络.......................370
19.3社交网络的可视化和分析...............371
19.3.1网络图的布局............................372
19.3.2边表...........................................373
19.3.3邻接矩阵...................................373
19.3.4在分类和预测中使用社交
网络数据...................................374
19.4社交网络指标和分类法...................374
19.4.1节点级中心度指标.....................374
19.4.2自我中心网络............................375
19.4.3社交网络度量指标.....................376
19.5在分类和预测中应用网络指标......378
19.5.1连接预测....................................378
19.5.2个体解析....................................378
19.5.3协同过滤....................................379
19.6使用Python收集社交网络数据.....381
19.7社交网络分析的优缺点...................382
19.8习题......................................................383
第20章文本挖掘............................................385
20.1引言......................................................385
20.2文本数据的表格表示法:项-文档
矩阵和词袋.........................................386
20.3词袋法与文档级提取.......................387
20.4预处理文本.........................................387
20.4.1分词...........................................388
20.4.2文本压缩....................................389
20.4.3出现/不出现与词频....................391
20.4.4词频-逆文本频率(TF-IDF)..........391
20.4.5从项到概念:隐性语义索引.......392
20.4.6提取语义....................................393
20.5数据挖掘方法的实现.......................393
20.6实例:关于汽车和电子产品的
在线讨论.............................................393
20.6.1导入记录并为记录贴上标签.......394
20.6.2使用Python程序对文本进行
预处理.......................................394
20.6.3生成概念矩阵............................395
20.6.4拟合预测模型............................395
20.6.5预测...........................................396
20.7小结......................................................396
20.8习题......................................................396
第Ⅷ部分案例
第21章案例.....................................................401
21.1查尔斯图书俱乐部............................401
21.1.1背景分析....................................401
21.1.2查尔斯图书俱乐部的数据库
营销手段...................................402
21.1.3数据挖掘技术............................403
21.1.4任务...........................................404
21.2德国信用卡.........................................405
21.2.1背景分析....................................405
21.2.2数据..........................................405
21.2.3任务..........................................408
21.3Tayko软件销售公司........................408
21.3.1背景分析...................................408
21.3.2邮件发送实验............................409
21.3.3数据..........................................409
21.3.4任务..........................................410
21.4政治游说.............................................410
21.4.1背景分析...................................410
21.4.2预测分析出现在美国总统
大选中.......................................411
21.4.3政治定位...................................411
21.4.4增益..........................................411
21.4.5数据..........................................412
21.4.6任务..........................................412
21.5出租车取消问题................................413
21.5.1背景分析...................................413
21.5.2任务..........................................413
21.6香皂用户的细分................................413
21.6.1背景分析...................................413
21.6.2关键问题...................................414
21.6.3数据..........................................414
21.6.4测试品牌忠诚度........................415
21.6.5任务..........................................415
21.7直邮捐赠.............................................416
21.7.1背景..........................................416
21.7.2数据..........................................416
21.7.3任务..........................................417
21.8产品目录交叉销售...........................417
21.8.1背景分析...................................417
21.8.2任务..........................................418
21.9预测公共交通需求...........................418
21.9.1背景分析...................................418
21.9.2问题描述...................................418
21.9.3数据..........................................418
21.9.4目标..........................................419
21.9.5任务..........................................419
21.9.6提示和步骤................................419
附录Python工具函数....................................421