



as31
2.3.5 StatsModels33
2.3.6 scikit-learn33
2.3.7 Keras34
2.3.8 Gensim36
2.4 配套附件使用设置37
2.5 小结38
第3章 数据探索39
3.1 数据质量分析39
3.1.1 缺失值分析40
3.1.2 异常值分析40
3.1.3 一致性分析44
3.2 数据特征分析44
3.2.1 分布分析44
3.2.2 对比分析48
3.2.3 统计量分析51
3.2.4 周期性分析54
3.2.5 贡献度分析55
3.2.6 相关性分析58
3.3 Python主要数据探索函数62
3.3.1 基本统计特征函数62
3.3.2 拓展统计特征函数66
3.3.3 统计绘图函数67
3.4 小结74
第4章 数据预处理75
4.1 数据清洗75
4.1.1 缺失值处理75
4.1.2 异常值处理80
4.2 数据集成80
4.2.1 实体识别81
4.2.2 冗余属性识别81
4.2.3 数据变换81
4.2.4 简单函数变换81
4.2.5 规范化82
4.2.6 连续属性离散化84
4.2.7 属性构造87
4.2.8 小波变换88
4.3 数据归约91
4.3.1 属性归约91
4.3.2 数值归约95
4.4 Python主要数据预处理函数98
4.5 小结101
第5章 挖掘建模102
5.1 分类与预测102
5.1.1 实现过程103
5.1.2 常用的分类与预测算法103
5.1.3 回归分析104
5.1.4 决策树108
5.1.5 人工神经网络115
5.1.6 分类与预测算法评价120
5.1.7 Python分类预测模型特点125
5.2 聚类分析125
5.2.1 常用聚类分析算法126
5.2.2 K-Means聚类算法127
5.2.3 聚类分析算法评价132
5.2.4 Python主要聚类分析算法133
5.3 关联规则135
5.3.1 常用关联规则算法136
5.3.2 Apriori算法136
5.4 时序模式142
5.4.1 时间序列算法142
5.4.2 时间序列的预处理143
5.4.3 平稳时间序列分析145
5.4.4 非平稳时间序列分析148
5.4.5 Python主要时序模式算法156
5.5 离群点检测159
5.5.1 离群点的成因及类型160
5.5.2 离群点检测方法160
5.5.3 基于模型的离群点检测方法161
5.5.4 基于聚类的离群点检测方法164
5.6 小结167
实战篇
第6章 财政收入影响因素分析及预测170
6.1 背景与挖掘目标170
6.2 分析方法与过程171
6.2.1 分析步骤与流程172
6.2.2 数据探索分析172
6.2.3 数据预处理176
6.2.4 模型构建178
6.3 上机实验184
6.4 拓展思考185
6.5 小结186
第7章 航空公司客户价值分析187
7.1 背景与挖掘目标187
7.2 分析方法与过程188
7.2.1 分析步骤与流程189
7.2.2 数据探索分析189
7.2.3 数据预处理200
7.2.4 模型构建207
7.2.5 模型应用212
7.3 上机实验214
7.4 拓展思考215
7.5 小结216
第8章 商品零售购物篮分析217
8.1 背景与挖掘目标217
8.2 分析方法与过程218
8.2.1 数据探索分析219
8.2.2 数据预处理224
8.2.3 模型构建226
8.3 上机实验232
8.4 拓展思考233
8.5 小结233
第9章 基于水色图像的水质评价234
9.1 背景与挖掘目标234
9.2 分析方法与过程235
9.2.1 分析步骤与流程236
9.2.2 数据预处理236
9.2.3 模型构建240
9.2.4 水质评价241
9.3 上机实验242
9.4 拓展思考242
9.5 小结243
第10章 家用热水器用户行为分析与事件识别244
10.1 背景与挖掘目标244
10.2 分析方法与过程245
10.2.1 数据探索分析246
10.2.2 数据预处理249
10.2.3 模型构建260
10.2.4 模型检验261
10.3 上机实验262
10.4 拓展思考264
10.5 小结265
第11章 电子商务网站用户行为分析及服务推荐266
11.1 背景与挖掘目标266
11.2 分析方法与过程267
11.2.1 分析步骤与流程267
11.2.2 数据抽取269
11.2.3 数据探索分析270
11.2.4 数据预处理279
11.2.5 构建智能推荐模型283
11.3 上机实验291
11.4 拓展思考293
11.5 小结293
第12章 电商产品评论数据情感分析294
12.1 背景与挖掘目标294
12.2 分析方法与过程295
12.2.1 评论预处理296
12.2.2 评论分词297
12.2.3 构建模型303
12.3 上机实验315
12.4 拓展思考316
12.5 小结318
提高篇
第13章 基于Python引擎的开源数据挖掘建模平台(TipDM)320
13.1 平台简介321
13.1.1 模板321
13.1.2 数据源322
13.1.3 工程323
13.1.4 系统组件324
13.1.5 TipDM数据挖掘建模平台的本地化部署326
13.2 快速构建数据挖掘工程327
13.2.1 导入数据329
13.2.2 配置输入源组件331
13.2.3 配置缺失值处理组件332
13.2.4 配置记录选择组件334
13.2.5 配置数据标准化组件334
13.2.6 配置K-Means组件336
13.3 小结339
编程语言与程序设计
Python编程 从入门到实践 第3版(图灵出品)
编程语言与程序设计
Hello算法(图灵出品)
编程语言与程序设计
C++ Primer Plus 第6版 中文版(异步图书出品)
编程语言与程序设计
C++ Primer(中文版 第5版)(博文视点出品)
编程语言与程序设计
高效C/C++调试