43
Q 计数和唯一值计数44
3-2 计算合计值48
Q 合计值48
3-3 计算最值、代表值50
Q 代表值51
3-4 计算离散程度54
Q 方差和标准差54
3-5 计算众数57
Q 众数58
3-6 排序61
排序函数61
Q 为时序数据添加编号62
Q 排序66
第4章 数据连接69
4-1 主表的连接69
Q 主表的连接70
4-2 切换按条件连接的表77
Q 切换按条件连接的主表77
4-3 连接历史数据84
Q 获取往前数第n条记录的数据85
Q 前n条记录的合计值88
Q 前n条记录的平均值92
Q 过去n天的合计值95
4-4 交叉连接99
Q 交叉连接处理99
第5章 数据拆分105
5-1 记录数据中模型验证数据的拆分105
Q 交叉验证107
5-2 时序数据中模型验证数据的拆分111
Q 准备时序数据中的训练数据和验证数据113
第6章 数据生成117
6-1 通过欠采样调整不平衡数据118
6-2 通过过采样调整不平衡数据119
Q 过采样120
第7章 数据扩展124
7-1 转换为横向显示124
Q 转换为横向显示125
7-2 转换为稀疏矩阵128
Q 稀疏矩阵128
第3部分 对数据内容的预处理131
第8章 数值型132
8-1 转换为数值型132
Q 各种数据类型的转换132
8-2 通过对数化实现非线性变换135
Q 对数化137
8-3 通过分类化实现非线性变换139
Q 数值型的分类化140
8-4 归一化142
Q 归一化143
8-5 删除异常值146
Q 根据标准差删除异常值146
8-6 用主成分分析实现降维148
Q 用主成分分析实现降维149
8-7 数值填充152
Q 删除缺失记录153
Q 用常数填充155
Q 均值填充157
Q 用PMM实现多重插补160
第9章 分类型164
9-1 转换为分类型164
Q 分类型的转换165
9-2 哑变量化168
Q 哑变量化169
9-3 分类值的聚合171
Q 分类值的聚合172
9-4 分类值的组合175
Q 分类值的组合175
9-5 分类型的数值化177
Q 分类型的数值化178
9-6 分类型的填充181
Q 用KNN填充182
第10章 日期时间型185
10-1 转换为日期时间型、日期型185
Q 日期时间型、日期型的转换185
10-2 转换为年、月、日、时、分、秒、星期189
Q 获取各日期时间元素190
10-3 转换为日期时间差194
Q 计算日期时间差195
10-4 日期时间型的增减200
Q 日期时间的增减处理200
10-5 转换为季节203
Q 转换为季节204
10-6 转换为时间段208
10-7 转换为工作日、休息日209
Q 添加休息日标志209
第11章 字符型212
11-1 通过形态分析进行分解213
Q 提取名词和动词213
11-2 转换为单词的集合数据215
Q 创建词袋216
11-3 用TF-IDF调整单词权重220
Q 创建使用TF-IDF的词袋221
第12章 位置信息型224
12-1 从日本坐标系到世界坐标系的转换以及从度、分、秒到度的转换224
Q 从日本坐标系转换为世界坐标系224
12-2 两点间距离、方向的计算228
Q 计算距离228
第4部分 预处理实战233
第13章 实战练习234
13-1 聚合分析的预处理234
Q 聚合分析的准备工作234
13-2 用于推荐的预处理238
Q 生成推荐矩阵238
13-3 预测建模的预处理243
Q 用于预测建模的预处理243
结语254
参考文献255