资源详情

Python大数据处理库PySpark实战

Python大数据处理库PySpark实战-电子书下载


作者: 汪明
出版社: 清华大学出版社
出版年: 2021-2
页数: 310
定价: 79.00元
装帧: 平装
ISBN: 9787302575085

下载次数:8


本站推荐

书籍资料

  • 内容简介
  • 作者介绍
  • 书籍目录

我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛,本书正是一本PySpark入门教材,适合有一定Python基础的读者学习使用。
本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。
本书内容全面、示例丰富,可作为广大PySpark入门读者必备的参考书,同时能作为大中专院校师生的教学参考书,也可作为高等院校计算机及相关专业的大数据技术教材使用。

汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。

第1章大数据时代1
1.1什么是大数据1
1.1.1大数据的特点2
1.1.2大数据的发展趋势3
1.2大数据下的分析工具4
1.2.1Hadoop5
1.2.2Hive6
1.2.3HBase6
1.2.4ApachePhoenix7
1.2.5ApacheDrill7
1.2.6ApacheHudi7
1.2.7ApacheKylin8
1.2.8ApachePresto8
1.2.9ClickHouse8
1.2.10ApacheSpark9
1.2.11ApacheFlink10
1.2.12ApacheStorm10
1.2.13ApacheDruid10
1.2.14ApacheKafka11
1.2.15TensorFlow11
1.2.16PyTorch12
1.2.17ApacheSuperset12
1.2.18Elasticsearch12
1.2.19Jupyte

Notebook13
1.2.20ApacheZeppelin13
1.3小结14
第2章大数据的瑞士军刀——Spark15
2.1Hadoop与生态系统15
2.1.1Hadoop概述15
2.1.2HDFS体系结构19
2.1.3Hadoop生态系统20
2.2Spark与Hadoop23
2.2.1ApacheSpark概述23
2.2.2Spark和Hadoop比较24
2.3Spark核心概念25
2.3.1Spark软件栈25
2.3.2Spark运行架构26
2.3.3Spark部署模式27
2.4Spark基本操作29
2.5SQLinSpark33
2.6Spark与机器学习33
2.6.1决策树算法35
2.6.2贝叶斯算法36
2.6.3支持向量机算法36
2.6.4随机森林算法37
2.6.5人工神经网络算法38
2.6.6关联规则算法39
2.6.7线性回归算法40
2.6.8KNN算法40
2.6.9K-Means算法41
2.7小结42
第3章Spark实战环境设定43
3.1建立Spark环境前提43
3.1.1CentOS7安装45
3.1.2FinalShell安装55
3.1.3PuTTY安装58
3.1.4JDK安装60
3.1.5Python安装63
3.1.6VisualStudioCode安装64
3.1.7PyCharm安装65
3.2一分钟建立Spark环境66
3.2.1Linux搭建Spark环境66
3.2.2Windows搭建Spark环境69
3.3建立Hadoop集群79
3.3.1CentOS配置79
3.3.2Hadoop伪分布模式安装81
3.3.3Hadoop完全分布模式安装87
3.4安装与配置Spark集群93
3.5安装与配置Hive99
3.5.1Hive安装99
3.5.2Hive与Spark集成108
3.6打造交互式Spark环境110
3.6.1SparkShell111
3.6.2PySpark112
3.6.3JupyterNotebook安装112
3.7小结118
第4章活用PySpark119
4.1Python语法复习119
4.1.1Python基础语法120
4.1.2Python变量类型124
4.1.3Python运算符135
4.1.4Python控制语句139
4.1.5Python函数143
4.1.6Python模块和包149
4.1.7Python面向对象154
4.1.8Python异常处理157
4.1.9PythonJSON处理159
4.1.10Python日期处理160
4.2用PySpark建立第一个SparkRDD161
4.2.1PySparkShell建立RDD163
4.2.2VSCode编程建立RDD165
4.2.3Jupyter编程建立RDD167
4.3RDD的操作与观察168
4.3.1first操作169
4.3.2max操作169
4.3.3sum操作170
4.3.4take操作171
4.3.5top操作172
4.3.6count操作172
4.3.7collect操作173
4.3.8collectAsMap操作174
4.3.9countByKey操作175
4.3.10countByValue操作175
4.3.11glom操作176
4.3.12coalesce操作177
4.3.13combineByKey操作178
4.3.14distinct操作179
4.3.15filter操作180
4.3.16flatMap操作181
4.3.17flatMapValues操作181
4.3.18fold操作182
4.3.19foldByKey操作183
4.3.20foreach操作184
4.3.21foreachPartition操作185
4.3.22map操作186
4.3.23mapPartitions操作187
4.3.24mapPartitionsWithIndex操作187
4.3.25mapValues操作188
4.3.26groupBy操作189
4.3.27groupByKey操作190
4.3.28keyBy操作191
4.3.29keys操作192
4.3.30zip操作193
4.3.31zipWithIndex操作194
4.3.32values操作194
4.3.33union操作195
4.3.34takeOrdered操作196
4.3.35takeSample操作197
4.3.36subtract操作198
4.3.37subtractByKey操作198
4.3.38stats操作199
4.3.39sortBy操作200
4.3.40sortByKey操作201
4.3.41sample操作202
4.3.42repartition操作203
4.3.43reduce操作204
4.3.44reduceByKey操作205
4.3.45randomSplit操作206
4.3.46lookup操作207
4.3.47join操作208
4.3.48intersection操作209
4.3.49fullOuterJoin操作210
4.3.50leftOuterJoin与rightOuterJoin操作211
4.3.51aggregate操作212
4.3.52aggregateByKey操作215
4.3.53cartesian操作217
4.3.54cache操作218
4.3.55saveAsTextFile操作218
4.4共享变数220
4.4.1广播变量220
4.4.2累加器221
4.5DataFrames与SparkSQL223
4.5.1DataFrame建立223
4.5.2SparkSQL基本用法228
4.5.3DataFrame基本操作231
4.6撰写第一个Spark程序245
4.7提交你的Spark程序246
4.8小结248
第5章PySparkETL实战249
5.1认识资料单元格式249
5.2观察资料255
5.3选择、筛选与聚合267
5.4存储数据269
5.5Spark存储数据到SQLServer272
5.6小结275
第6章PySpark分布式机器学习276
6.1认识数据格式277
6.2描述统计280
6.3资料清理与变形284
6.4认识Pipeline288
6.5逻辑回归原理与应用290
6.5.1逻辑回归基本原理290
6.5.2逻辑回归应用示例:Titanic幸存者预测291
6.6决策树原理与应用295
6.6.1决策树基本原理295
6.6.2决策树应用示例:Titanic幸存者预测296
6.7小结299
第7章实战:PySparkKafka实时项目301
7.1Kafka和Flask环境搭建301
7.2代码实现303
7.3小结310