7
2.1.2爬虫原理18
2.2网页构造21
2.2.1Chrome浏览器的安装21
2.2.2网页构造22
2.2.3查询网页信息23
第3章我的第一个爬虫程序26
3.1Python第三方库26
3.1.1Python第三方库的概念26
3.1.2Python第三方库的安装方法27
3.1.3Python第三方库的使用方法29
3.2爬虫三大库30
3.2.1Requests库30
3.2.2BeautifulSoup库32
3.2.3Lxml库36
3.3综合案例1——爬取北京地区短租房信息37
3.3.1爬虫思路分析37
3.3.2爬虫代码及分析38
3.4综合案例2——爬取酷狗TOP500的数据41
3.4.1爬虫思路分析41
3.4.2爬虫代码及分析43
第4章正则表达式45
4.1正则表达式常用符号45
4.1.1一般字符45
4.1.2预定义字符集46
4.1.3数量词46
4.1.4边界匹配47
4.2re模块及其方法48
4.2.1search()函数48
4.2.2sub()函数49
4.2.3findall()函数49
4.2.4re模块修饰符51
4.3综合案例1——爬取《斗破苍穹》全文小说53
4.3.1爬虫思路分析53
4.3.2爬虫代码及分析55
4.4综合案例2——爬取糗事百科网的段子信息56
4.4.1爬虫思路分析56
4.4.2爬虫代码及分析58
第5章Lxml库与Xpath语法63
5.1Lxml库的安装与使用方法63
5.1.1Lxml库的安装(Mac、Linux)63
5.1.2Lxml库的使用64
5.2Xpath语法68
5.2.1节点关系68
5.2.2节点选择70
5.2.3使用技巧70
5.2.4性能对比74
5.3综合案例1——爬取豆瓣网图书TOP250的数据77
5.3.1将数据存储到CSV文件中77
5.3.2爬虫思路分析78
5.3.3爬虫代码及分析80
5.4综合案例2——爬取起点中文网小说信息83
5.4.1将数据存储到Excel文件中83
5.4.2爬虫思路分析84
5.4.3爬虫代码及分析86
第6章使用API88
6.1API的使用88
6.1.1API概述88
6.1.2API使用方法89
6.1.3API验证91
6.2解析JSON数据93
6.2.1JSON解析库93
6.2.2斯必克API调用94
6.2.3百度地图API调用96
6.3综合案例1——爬取PEXELS图片98
6.3.1图片爬取方法98
6.3.2爬虫思路分析99
6.3.3爬虫代码及分析100
6.4综合案例2——爬取糗事百科网的用户地址信息102
6.4.1地图的绘制102
6.4.2爬取思路分析105
6.4.3爬虫代码及分析106
第7章数据库存储109
7.1MongoDB数据库109
7.1.1NoSQL概述109
7.1.2MongoDB的安装109
7.1.3MongoDB的使用115
7.2MySQL数据库117
7.2.1关系型数据库概述117
7.2.2MySQL的安装117
7.2.3MySQL的使用123
7.3综合案例1——爬取豆瓣音乐TOP250的数据126
7.3.1爬虫思路分析126
7.3.2爬虫代码及分析127
7.4综合案例2——爬取豆瓣电影TOP250的数据132
7.4.1爬虫思路分析132
7.4.2爬虫代码及分析133
第8章多进程爬虫139
8.1多线程与多进程139
8.1.1多线程和多进程概述139
8.1.2多进程使用方法140
8.1.3性能对比140
8.2综合案例1——爬取简书网热评文章143
8.2.1爬虫思路分析143
8.2.2爬虫代码及分析147
8.3综合案例2——爬取转转网二手市场商品信息150
8.3.1爬虫思路分析150
8.3.2爬虫代码及分析152
第9章异步加载159
9.1异步加载技术与爬虫方法159
9.1.1异步加载技术概述159
9.1.2异步加载网页示例159
9.1.3逆向工程162
9.2综合案例1——爬取简书网用户动态信息165
9.2.1爬虫思路分析165
9.2.2爬虫代码及分析171
9.3综合案例2——爬取简书网7日热门信息173
9.3.1爬虫思路分析173
9.3.2爬虫代码及分析179
第10章表单交互与模拟登录182
10.1表单交互182
10.1.1POST方法182
10.1.2查看网页源代码提交表单182
10.1.3逆向工程提交表单185
10.2模拟登录187
10.2.1Cookie概述187
10.2.2提交Cookie模拟登录187
10.3综合案例1——爬取拉勾网招聘信息188
10.3.1爬虫思路分析188
10.3.2爬虫代码及分析193
10.4综合案例2——爬取新浪微博好友圈信息195
10.4.1词云制作195
10.4.2爬虫思路分析202
10.4.3爬虫代码及分析206
第11章Selenium模拟浏览器209
11.1Selenium和PhantomJS209
11.1.1Selenium的概念和安装209
11.1.2浏览器的选择和安装209
11.2Selenium和PhantomJS的配合使用213
11.2.1模拟浏览器操作213
11.2.2获取异步加载数据215
11.3综合案例1——爬取QQ空间好友说说218
11.3.1CSV文件读取218
11.3.2爬虫思路分析220
11.3.3爬虫代码及分析221
11.4综合案例2——爬取淘宝商品信息224
11.4.1爬虫思路分析224
11.4.2爬虫代码及分析226
第12章Scrapy爬虫框架229
12.1Scrapy的安装和使用229
12.1.1Scrapy的安装229
12.1.2创建Scrapy项目233
12.1.3Scrapy文件介绍235
12.1.4Scrapy爬虫编写237
12.1.5Scrapy爬虫运行239
12.2综合案例1——爬取简书网热门专题信息240
12.2.1爬虫思路分析240
12.2.2爬虫代码及分析244
12.3综合案例2——爬取知乎网Python精华话题246
12.3.1爬虫思路分析246
12.3.2爬虫代码及分析248
12.4综合案例3——爬取简书网专题收录文章250
12.4.1爬虫思路分析251
12.4.2爬虫代码及分析254
12.5综合案例4——爬取简书网推荐信息257
12.5.1爬虫思路分析258
12.5.2爬虫代码及分析260