·预处理并将文本向量化成高维特征表示。
·执行文档分类和主题建模。
·通过可视化诊断指导模型选择过程。
·提取关键短语、命名实体和图结构,实现文本数据推断。
·建立对话框架,实现聊天机器人和语言驱动交互。
·用Spark扩展处理能力,用神经网络实现对更复杂模型的支持。
Benjamin Bengfort是一位专门研究分布式系统、机器学习及其他相关技术的计算机科学家。
Rebecca Bilbro是一名数据科学家和Python程序员,致力于研究机器学习工作流的可视化诊断。
Tony Ojeda是District Data Labs的创始人和CEO,专注于商业策略应用分析、优化、预测服务,以及开源工具使用课程。
译者介绍
陈光,北京邮电大学副教授,主要研究方向为机器学习和自然语言处理。
前言1
第1章语言与计算13
数据科学范式14
语言感知数据产品.16
语言即数据21
小结.29
第2章构建自定义语料库31
语料库是什么?.32
语料库数据管理.35
语料库读取器39
小结.49
第3章语料库预处理与处置50
分解文档.50
语料库的转换60
小结.67
第4章文本向量化和转换流水线68
空间中的词69
Scikit-LearnAPI.81
流水线.88
小结.93
第5章面向文本分析的文本分类95
文本分类.96
构建文本分类应用.99
小结.110
第6章文本相似性聚类.112
文本上的无监督学习112
文档相似性聚类.114
文档主题建模127
小结.139
第7章上下文感知文本分析140
基于语法的特征提取141
n-Gram特征提取147
n-Gram语言模型155
小结.165
第8章文本可视化166
可视化特征空间.167
模型诊断.185
可视化操纵
93
小结.196
第9章文本的图分析.198
图计算与分析200
从文本中抽取图.204
实体解析.216
小结.221
第10章聊天机器人223
对话基础.224
礼貌对话规则231
有趣的问题239
学习帮助.250
小结.257
第11章利用多处理和Spark扩展文本分析259
Python多处理.260
Spark集群计算271
小结.289
第12章深度学习与未来.291
应用神经网络292
神经网络语言模型.292
情感分析.303
未来(几乎)已来.309
词汇表311
显示更多