






1并行策略基础原理
3.1.1数据并行:最基本的并行训练范式
3.1.2张量并行:层内模型并行
3.1.3流水线并行的原理与实现
3.2高级并行策略基础原理
3.2.1序列并行:超长序列模型训练
3.2.2混合并行:扩展模型到千亿参数
3.2.3自动并行:自动化的分布式并行训练
3.3实战分布式训练
3.3.1应用模型并行策略的实际案例
3.3.2结合多种并行策略的训练实践
第4章AI大模型时代的奠基石Transformer模型
4.1自然语言处理基础
4.1.1自然语言任务介绍
4.1.2语言输入的预处理
4.1.3序列到序列模型
4.2Transformer详解
4.2.1Transformer模型结构
4.2.2注意力与自注意力机制
4.2.3Transformer中的归一化
4.3Transformer的变体与扩展
4.3.1变体模型汇总
4.3.2Transformer序列位置信息的编码处理
4.3.3Transformer训练
第5章AI大幅度提升Google搜索质量:BERT模型
5.1BERT模型详解
5.1.1BERT模型总体架构与输入形式
5.1.2BERT模型预训练任务
5.1.3BERT模型的应用方法
5.2高效降低内存使用的ALBERT模型
5.2.1基于参数共享的参数缩减方法
5.2.2句子顺序预测(SOP)预训练任务
5.3BERT模型实战训练
5.3.1构建BERT模型
5.3.2并行训练BERT模型
第6章统一自然语言处理范式的T5模型
6.1T5模型详解
6.1.1T5模型架构和输入输出——文本到文本
6.1.2T5模型预训练
6.1.3T5模型应用前景及未来发展
6.2统一BERT和GPT的BART模型
6.2.1从BERT、GPT到BART
6.2.2BART模型预训练
6.2.3BART模型的应用
6.3统一语言学习范式的UL2框架
6.3.1关于语言模型预训练的统一视角
6.3.2结合不同预训练范式的混合去噪器
6.3.3UL2的模型性能
6.4T5模型预训练方法和关键技术
第7章作为通用人工智能起点的GPT系列模型
7.1GPT系列模型的起源
7.1.1GPT的训练方法和关键技术
7.1.2GPT的模型性能评估分析
7.2GPT2模型详解
7.2.1GPT2的核心思想
7.2.2GPT2的模型性能
7.3GPT3模型详解
7.3.1小样本学习、一次学习与零次学习的异同
7.3.2GPT3的训练方法和关键技术
7.3.3GPT3的模型性能与效果评估
7.4GPT3模型构建与训练实战
7.4.1构建GPT3模型
7.4.2使用异构训练降低GPT3训练消耗资源
第8章兴起新一代人工智能浪潮:ChatGPT模型
8.1能与互联网交互的WebGPT
8.1.1WebGPT的训练方法和关键技术
8.1.2WebGPT的模型性能评估分析
8.2能与人类交互的InstructGPT模型
8.2.1指令学习
8.2.2近端策略优化
8.2.3基于人类反馈的强化学习(RLHF)方法汇总
8.3ChatGPT和GPT4
8.3.1ChatGPT模型简介和应用
8.3.2GPT4模型特点与应用
8.4构建会话系统模型
8.4.1基于监督的指令精调与模型训练
8.4.2会话系统的推理与部署策略
第9章百花齐放的自然语言模型:SwitchTransfomer和PaLM
9.1万亿参数稀疏大模型SwitchTransformer
9.1.1稀疏门控混合专家模型MoE
9.1.2基于MoE的万亿参数模型SwitchTransformer
9.2PaLM模型:优化语言模型性能
9.2.1PaLM模型的结构、原理和关键特点
9.2.2PaLM训练策略与效果评估
9.3PaLM实战训练
第10章实现Transformer向计算机视觉进军的ViT模型
10.1Transformer在计算机视觉中的应用
10.1.1ViT模型在计算机视觉中的发展背景
10.1.2ViT模型的架构、原理和关键要素
10.1.3大规模ViT模型的应用场景和挑战
10.2视觉大模型的进一步发展:Transformer与卷积的融合
10.2.1基于Transformer的视觉模型的改进应用
10.2.2基于卷积的视觉模型的发展优化
10.3ViT模型构建与训练实战
10.3.1构建ViT模型的关键步骤与关键方法
10.3.2多维张量并行的ViT的实战演练
参考文献
管理学
博弈论:每个人都能成为决策高手