> LLMs 千面郎君 面试交流群 (注:人满 可 添加 小编wx:yzyykm666 加群!)介绍:本项目是作者们根据个人面试和经验总结出的 大模型(LLMs)面试准备的学习笔记与资料,该资料目前包含 大模型(LLMs)各领域的 面试题积累。
- 
1 目前 主流的开源模型体系 有哪些? 
- 
2 prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么? 
- 
3 大模型LLM的 训练目标 是什么? 
- 
4 涌现能力是啥原因? 
- 
5 为何现在的大模型大部分是Decoder only结构? 
- 
6 简单 介绍一下 大模型【LLMs】? 
- 
7 大模型【LLMs】后面跟的 175B、60B、540B等 指什么? 
- 
8 大模型【LLMs】具有什么优点? 
- 
9 大模型【LLMs】具有什么缺点? 
- 
10 encoder-only, decoder-only, encoder-decoder的区别? 
- 
11 BART、llama、gpt、t5、palm等主流模型异同点? 
- 
12 prefix LM 和 causal LM 区别是什么? 
- 
Layer normalization-方法篇 - Layer Norm 篇
- Layer Norm 的计算公式写一下?
 
- RMS Norm 篇 (均方根 Norm)
- RMS Norm 的计算公式写一下?
- RMS Norm 相比于 Layer Norm 有什么特点?
 
- Deep Norm 篇
- Deep Norm 思路?
- 写一下 Deep Norm 代码实现?
 
- Deep Norm 有什么优点?
 
- Layer Norm 篇
- 
Layer normalization-位置篇 - 1 LN 在 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么?
 
- 
Layer normalization 对比篇 - LLMs 各模型分别用了 哪种 Layer normalization?
 
- 
1 介绍一下 FFN 块 计算公式? 
- 
2 介绍一下 GeLU 计算公式? 
- 
3 介绍一下 Swish 计算公式? 
- 
4 介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式? 
- 
5 介绍一下 使用 GeLU 的 GLU 块 计算公式? 
- 
6 介绍一下 使用 Swish 的 GLU 块 计算公式? 
- 
7 各LLMs 都使用哪种激活函数? 
- 
8 Adam优化器和SGD的区别? 
- 
- 1 传统 Attention 存在哪些问题?
- 2 Attention 有哪些 优化方向?
- 3 Attention 变体有哪些?
- 4 Multi-Query Attention 篇
- 4.1 Multi-head Attention 存在什么问题?
- 4.2 介绍一下 Multi-Query Attention?
- 4.3 对比一下 Multi-head Attention 和 Multi-Query Attention?
- 4.4 Multi-Query Attention 这样做的好处是什么?
- 4.5 有 哪些模型 是 使用 Multi-Query Attention?
 
- 5 Grouped-query Attention
- 5.1 什么是 Grouped-query Attention?
- 5.2 有哪些大模型使用 Grouped-query Attention?
 
- 6 FlashAttention
- 6.1 为什么需要 FlashAttention?
- 6.2 简单介绍一下 FlashAttention?
- 6.3 简单介绍一下 FlashAttention 核心?
- 6.4 介绍一下 FlashAttention 优点?
- 6.5 介绍一下 FlashAttention 代表模型?
 
- 7 并行 transformer block
- 8 attention计算复杂度以及如何改进?
- 9 Paged Attention篇
- 9.1 简单介绍一下 Paged Attention?
 
- 对比篇
- 1、MHA,GQA,MQA 三种注意力机制是否了解?区别是什么?
 
 
- 
- 一、为什么需要 跨注意力机制(Cross-Attention)?
- 二、介绍一些 跨注意力机制(Cross-Attention)?
- 三、Cross Attention 和 Self Attention 篇
- 3.1 Cross Attention 和 Self Attention 都是基于注意力机制的,有什么相同点?
- 3.2 Cross Attention 和 Self Attention 都是基于注意力机制的,有什么不同点?
 
- 四、Cross Attention 和 多头注意力(Multi-Head Attention)篇
- 4.2 Cross Attention 和 多头注意力(Multi-Head Attention) 都是基于注意力机制的,有什么异同点?
 
- 五、Cross Attention 代码实现
- 六、Cross Attention 应用场景
- 七、Cross Attention 的优势和挑战?
 
- 
- 如何 利用 transformers 加载 Bert 模型?
 
- 
- 如何 利用 transformers 输出 Bert 指定 hidden_state?
 
- 
- BERT 获取最后一层或每一层网络的向量输出
 
- 
一、介绍一下 KL 散度? 
- 
二、交叉熵损失函数写一下,物理意义是什么? 
- 
三、KL 散度与交叉熵的区别? 
- 
四、多任务学习各loss差异过大怎样处理? 
- 
五、分类问题为什么用交叉熵损失函数不用均方误差(MSE)? 
- 
六、什么是信息增益? 
- 
七、多分类的分类损失函数(Softmax)? 
- 
八、softmax和交叉熵损失怎么计算,二值交叉熵呢? 
- 
九、如果softmax的e次方超过float的值了怎么办? 
- 
一、除了cosin还有哪些算相似度的方法 
- 
二、了解对比学习嘛? 
- 
三、对比学习负样本是否重要?负样本构造成本过高应该怎么解决? 
- 
一、什么是生成式大模型? 
- 
二、大模型是怎么让生成的文本丰富而不单调的呢? 
- 
三、LLMs 复读机问题 - 3.1 什么是 LLMs 复读机问题?
- 3.2 为什么会出现 LLMs 复读机问题?
- 3.3 如何缓解 LLMs 复读机问题?
 
- 
四、llama 系列问题 - 4.1 llama 输入句子长度理论上可以无限长吗?
 
- 
五、什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型,咋选? 
- 
六、各个专业领域是否需要各自的大模型来服务? 
- 
七、如何让大模型处理更长的文本? 
- 
39 大模型 sft 过程中,为什么会出现第二个epoch的时候loss会突然下降问题? 
- 
1 如果想要在某个模型基础上做全参数微调,究竟需要多少显存? 
- 
2 为什么SFT之后感觉LLM傻了? 
- 
3 SFT 指令微调数据 如何构建? - 3.1 提升sft的prompt的代表性有什么好的方法?
- 3.2 提升sft的prompt的数据量有什么好的方法?
 
- 
4 领域模型Continue PreTrain 数据选取? 
- 
5 领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力? 
- 
6 领域模型Continue PreTrain ,如何 让模型在预训练过程中就学习到更多的知识? 
- 
7 进行SFT操作的时候,基座模型选用Chat还是Base? 
- 
8 领域模型微调 指令&数据输入格式 要求? 
- 
9 领域模型微调 领域评测集 构建? 
- 
10 领域模型词表扩增是不是有必要的? 
- 
11 如何训练自己的大模型? 
- 
12 训练中文大模型有啥经验? 
- 
13 指令微调的好处? 
- 
14 预训练和微调哪个阶段注入知识的? 
- 
15 想让模型学习某个领域或行业的知识,是应该预训练还是应该微调? 
- 
... 
- 
一、常见 SFT的开发流程是如何的? 
- 
二、训练数据要注重什么? 
- 
三、大 size 和小 size 模型的选择? 
- 
四、多任务训练时怎么确保每个任务都优秀? 
- 
五、SFT真的不能学到知识? 
- 
六、怎么科学挑选数据集? 
- 
... 
- 
分布式训练框架选择? 
- 
LLMs 训练时 有哪些有用的建议? 
- 
模型大小如何选择? 
- 
加速卡如何选择? 
- 
一、什么是 LangChain? 
- 
二、LangChain 包含哪些 核心概念? - 2.1 LangChain 中 Components and Chains 是什么?
- 2.2 LangChain 中 Prompt Templates and Values 是什么?
- 2.3 LangChain 中 Example Selectors 是什么?
- 2.4 LangChain 中 Output Parsers 是什么?
- 2.5 LangChain 中 Indexes and Retrievers 是什么?
- 2.6 LangChain 中 Chat Message History 是什么?
- 2.7 LangChain 中 Agents and Toolkits 是什么?
 
- 
... 
- 
一、前言 
- 
二、Agent 如何获取上下文对话信息? - 2.1 获取全量历史对话
- 2.2 滑动窗口获取最近部分对话内容
- ...
 
- 
一、基于LLM+向量库的文档对话 基础面 - 1.1 为什么 大模型 需要 外挂(向量)知识库?
- 1.2. 基于LLM+向量库的文档对话 思路是怎么样?
- 1.3. 基于LLM+向量库的文档对话 核心技术是什么?
- 1.4. 基于LLM+向量库的文档对话 prompt 模板 如何构建?
 
- 
... 
- 
一、LLMs 已经具备了较强能力了,存在哪些不足点? 
- 
二、什么是 RAG? - 2.1 R:检索器模块
- 2.1.1 如何获得准确的语义表示?
- 2.1.2 如何协调查询和文档的语义空间?
- 2.1.3 如何对齐检索模型的输出和大语言模型的偏好?
 
- 2.2 G:生成器模块
- 2.2.1 生成器介绍
- 2.2.2 如何通过后检索处理提升检索结果?
- 2.2.3 如何优化生成器应对输入数据?
 
 
- 2.1 R:检索器模块
- 
三、使用 RAG 的好处? 
- 
... 
- 
一、为什么需要进行pdf解析? 
- 
二、为什么需要 对 pdf 进行解析? 
- 
三、pdf解析 有哪些方法,对应的区别是什么? 
- 
四、pdf解析 存在哪些问题? 
- 
... 
- 
一、为什么需要识别表格? 
- 
二、介绍一下 表格识别 任务? 
- 
三、有哪些 表格识别方法? - 3.1 传统方法
- 3.2 pdfplumber表格抽取
- 3.2.1 pdfplumber 如何进行 表格抽取?
- 3.2.2 pdfplumber 常见的表格抽取模式?
 
- ...
 
- 
一、为什么需要对文本分块? 
- 
二、能不能介绍一下常见的文本分块方法? - 2.1 一般的文本分块方法
- 2.2 正则拆分的文本分块方法
- 2.3 Spacy Text Splitter 方法
- 2.4 基于 langchain 的 CharacterTextSplitter 方法
- ...
 
- 
一、为什么需要使用大模型辅助召回? - 策略一: HYDE
- 
- 介绍一下 HYDE 思路?
 
- 
- 介绍一下 HYDE 问题?
 
 
- 
- 策略二: FLARE
- 
- 为什么 需要 FLARE ?
 
- 
- FLARE 有哪些召回策略?
 
 
- 
 
- 策略一: HYDE
- 
一、为什么需要构建负难样本? 
- 
二、负难样本构建方法篇 - 2.1 随机采样策略(Random Sampling)方法
- 2.2 Top-K负例采样策略(Top-K Hard Negative Sampling)方法
- ...
 
- 
一、为什么需要 对 RAG 进行评测? 
- 
二、RAG 有哪些评估方法? 
- 
三、RAG 有哪些关键指标和能力? 
- 
四、RAG 有哪些评估框架? 
- 
一、RAG基础功能篇 - 1.1 RAG 工作流程
 
- 
二、RAG 各模块有哪些优化策略? 
- 
三、RAG 架构优化有哪些优化策略? - 3.1 如何利用 知识图谱(KG)进行上下文增强?
- 3.1.1 典型RAG架构中,向量数据库进行上下文增强 存在哪些问题?
- 3.1.2 如何利用 知识图谱(KG)进行上下文增强?
 
- ...
 
- 3.1 如何利用 知识图谱(KG)进行上下文增强?
- 
前言 
- 
问题一:内容缺失问题 - 1.1 介绍一下 内容缺失问题?
- 1.2 如何 解决 内容缺失问题?
 
- 
问题二:错过排名靠前的文档 - 2.1 介绍一下 错过排名靠前的文档 问题?
- 2.2 如何 解决 错过排名靠前的文档 问题?
 
- 
问题三:脱离上下文 — 整合策略的限制 - 3.1 介绍一下 脱离上下文 — 整合策略的限制 问题?
- 3.2 如何 解决 脱离上下文 — 整合策略的限制 问题?
 
- 
问题四:未能提取答案 - 4.1 介绍一下 未能提取答案 问题?
- 4.2 如何 解决 未能提取答案 问题?
 
- 
... 
- 
一、RAG 有哪些优点? 
- 
二、RAG 存在哪些局限性? 
- 
三、为什么 需要 RAG-Fusion? 
- 
四、说一下 RAG-Fusion 核心技术? 
- 
五、说一下 RAG-Fusion 工作流程? - ...
 
- 
一、为什么需要 Graph RAG? 
- 
二、什么是 Graph RAG? 
- 
三、Graph RAG 思路介绍? 
- 
四、用代码 介绍 Graph RAG ? 
- 
五、用 示例 介绍 Graph RAG ? 
- 
六、Graph RAG 排序优化方式? 
- 
- 微调方法是啥?如何微调?
 
- 
- 为什么需要 PEFT?
 
- 
- 介绍一下 PEFT?
 
- 
- PEFT 有什么优点?
 
- 
... 
- 一、为什么 需要 适配器微调(Adapter-tuning)?
- 二、适配器微调(Adapter-tuning)思路?
- 三、 适配器微调(Adapter-tuning)特点是什么?
- 四、AdapterFusion 思路 是什么?
- ...
- 点击查看答案
- 
一、为什么需要 提示学习(Prompting)? 
- 
二、什么是 提示学习(Prompting)? 
- 
三、提示学习(Prompting) 有什么优点? 
- 
四、提示学习(Prompting)有哪些方法,能不能稍微介绍一下它们间? - 4.1 前缀微调(Prefix-tining)篇
- 4.1.1 为什么需要 前缀微调(Prefix-tining)?
- 4.1.2 前缀微调(Prefix-tining)思路是什么?
- 4.1.3 前缀微调(Prefix-tining)的优点是什么?
- 4.1.4 前缀微调(Prefix-tining)的缺点是什么?
 
- ...
 
- 4.1 前缀微调(Prefix-tining)篇
一、LoRA篇 - 1.1 什么是 LoRA? - 1.2 LoRA 的思路是什么? - 1.3 LoRA 的特点是什么? - 1.4 简单描述一下 LoRA? - 1.5 解释一下 LORA 微调的原理和计算流程?
- 
二、LoRA变体篇 - 2.1 QLoRA篇
- 2.1.1 QLoRA 的思路是怎么样的?
- 2.1.2 QLoRA 的特点是什么?
- 2.1.3 QLORA相比LORA做了哪些改进?
 
- 2.2 AdaLoRA篇
- .2.1 AdaLoRA 的思路是怎么样的?
- 2.3 LongLoRA篇
- 2.3.1 为什么需要 LongLoRA?
- 2.3.2 LongLoRA 思路是什么?
- 2.3.3 介绍一下 shift short attention?
 
 
- 2.1 QLoRA篇
- 
三、Lora的矩阵怎么初始化?为什么要初始化为全0? 
- 
... 
- 
一、前言 
- 
二、如何 配置 LoraConfig? 
- 
三、模型 加入PEFT策略 - 3.1 模型加载 策略有哪些?
- 3.2 模型显存占用的部分有哪些?
- 3.3 模型显存占用 优化策略?
- 3.3.1 8bit量化 优化策略?
- 3.3.2 梯度检查 优化策略?
 
- 3.4 如何 向 模型 加入PEFT策略?
 
- 
... 
- 
一、SFT 微调方案如何选择? 
- 
二、Full Fine Tuning vs Parameter-Efficient Fine-Tuning 
- 
三、Full Fine Tuning 篇 - 3.1 介绍一下 Full Fine Tuning?
- 3.2 介绍一下 Full Fine Tuning 优点?
- 3.3 介绍一下 Full Fine Tuning 缺点?
 
- 
四、Parameter-Efficient Fine-Tuning 篇 - 4.1 介绍一下 Parameter-Efficient Fine-Tuning?
 
- 
五、LoRA 篇 - 5.1 介绍一下 LoRA?
- 5.2 介绍一下 LoRA 流程?
- 5.3 介绍一下 LoRA 优点?
- 5.4 介绍一下 LoRA 缺点?
 
- 
六、QLoRA 篇 - 6.1 介绍一下 QLoRA?
- 6.2 介绍一下 QLoRA 流程?
 
- 
... 
- 
- 为什么大模型推理时显存涨的那么多还一直占着?
 
- 
- 大模型在gpu和cpu上推理速度如何?
 
- 
- 推理速度上,int8和fp16比起来怎么样?
 
- 
- 大模型有推理能力吗?
 
- 
... 
- 
- 为什么要增量预训练?
 
- 
- 进行 增量预训练 需要做哪些准备工作?
 
- 
- 增量预训练 所用 训练框架?
 
- 
- 增量预训练 训练流程 是怎么样?
 
- 
... 
- 
一、 推理过程 分哪些阶段? - 1.1 Prefill(输入理解与初始化)阶段
- 1.2 Decoding(递归推理与解码输出)阶段
 
- 
二、推理性能的评价指标? - 2.1 Throughput(吞吐量)
- 2.2 First Token Latency(首字延迟)
- 2.3 Latency(延迟)
- 2.4 QPS(每秒请求数)
 
- 
... 
- 
一、Pretrain阶段,为什么需要拼接拼接? 
- 
二、有哪些 拼接方式? - 2.1 拼接方式一:Random Concatenate
- 2.2 拼接方式二:Random Concatenate + NoiseMask
- 2.3 拼接方式三:Random Concatenate + Cluster
- 2.4 拼接方式四:IN-CONTEXT PRETRAINING
 
- 
一、为什么需要 对 llama2 做 基于lora的二次预训练? 
- 
二、基于lora的llama2二次预训练 的目标是什么? 
- 
三、基于lora的llama2二次预训练 的思想是什么? 
- 
四、基于lora的llama2二次预训练 语料构建思路? 
- 
... 
- 
1 大模型怎么评测? 
- 
2 大模型的honest原则是如何实现的?模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力? 
- 
3 如何衡量大模型水平? 
- 
4 大模型评估方法 有哪些? 
- 
... 
- 
1 简单介绍强化学习? 
- 
2 简单介绍一下 RLHF? 
- 
3 奖励模型需要和基础模型一致吗? 
- 
4 RLHF 在实践过程中存在哪些不足? 
- 
5 如何解决 人工产生的偏好数据集成本较高,很难量产问题? 
- 
6 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题? 
- 
7 如何解决 PPO 的训练过程同时存在4个模型(2训练,2推理),对计算资源的要求较高 问题? 
- 
8 强化学习跟大语言模型的本质联系是什么? 
- 
... 
- 
一、介绍一下 LLM的经典预训练Pipeline? 
- 
二、预训练(Pre-training)篇 - 2.1 具体介绍一下 预训练(Pre-training)?
 
- 
三、有监督微调(Supervised Tinetuning)篇 - 3.1 具体介绍一下 有监督微调(Supervised Tinetuning)?
- 3.2 有监督微调(Supervised Tinetuning)的训练数据格式是什么样?
- 3.3 预训练(Pre-training) vs 有监督微调(Supervised Tinetuning)区别?
 
- 
四、对齐(Alignment)篇 - 4.1 简单介绍一下 对齐(Alignment)?
 
- 
... 
- 
一、大语言模型RLHF中的PPO主要分哪些步骤? 
- 
二、举例描述一下 大语言模型的RLHF? 
- 
三、大语言模型RLHF 采样篇 - 3.1 什么是 PPO 中 采样过程?
- 3.2 介绍一下 PPO 中 采样策略?
- 3.3 PPO 中 采样策略中,如何评估“收益”?
 
- 
四、在PPO过程中,reward model的效果上会有什么问题? 
- 
... 
- 
RLHF平替算法DPO篇 - 一、DPO vs RLHF?
- 二、介绍一下 DPO的损失函数?
- 三、DPO 微调流程 ?
- 四、说一下 DPO 是如何简化 RLHF 的?
- 五、DPO的第0步loss是固定的么?如果固定的话,值是多少?
- 六、DPO是一个on-policy还是off-policy的算法,以及这样的算法有什么优劣?
- 七、DPO公式是由PPO的objective公式推导过来的,为什么DPO是off-policy算法,而PPO是on-policy算法,到底哪一步推导出了问题?
- ...
 
- 
1 介绍一下 RM模型? 
- 
2 为什么需要 RM模型? 
- 
3 RM模型训练数据如何构建? 
- 
4 reward 模型训练步骤中,为什么这一步骤在标注数据过程中不让人直接打分,而是去标排列序列呢? 
- 
5 reward 模型的 loss 是怎么计算的? 
- 
... 
- 
一、强化学习基础面 - 1.1 介绍一下强化学习?
- 1.2 介绍一下强化学习 的 状态(States) 和 观测(Observations)?
- 1.3 强化学习 有哪些 动作空间(Action Spaces),他们之间的区别是什么?
- ...
 
- 
SFT(有监督微调)的数据集格式? 
- 
RM(奖励模型)的数据格式? 
- 
PPO(强化学习)的数据格式? 
- 
... 
- 
四、大模型微调数据集格式篇 
- 
一、SFT数据集如何生成? 
- 
二、Self-Instruct 篇 - ...
 
- 
大模型大概有多大,模型文件有多大? 
- 
能否用4 * v100 32G训练vicuna 65b? 
- 
如果就是想要试试65b模型,但是显存不多怎么办? 
- 
nB模型推理需要多少显存? 
- 
... 
- 
一、介绍一下 gradient accumulation 显存优化方式? 
- 
二、介绍一下 gradient checkpointing 显存优化方式? 
- 
1 理论篇 - 1.1 训练 大语言模型 存在问题?
- 1.2 什么是 点对点通信?
- 1.3 什么是 集体通信?
- 1.4 什么是 数据并行?
- 1.5 数据并行 如何 提升效率?
- 1.6 什么是 流水线并行?
- 1.7 什么是 张量并行 (intra-layer)?
- 1.8 数据并行 vs 张量并行 vs 流水线并行?
- 1.9 什么是 3D并行?
- 1.10 想要训练1个LLM,如果只想用1张显卡,那么对显卡的要求是什么?
- 1.11 如果有N张显存足够大的显卡,怎么加速训练?
- 1.12 如果显卡的显存不够装下一个完整的模型呢?
- 1.13 PP推理时,是一个串行的过程,1个GPU计算,其他空闲,有没有其他方式?
- 1.14 3种并行方式可以叠加吗?
- 1.15 Colossal-AI 有1D/2D/2.5D/3D,是什么情况?
- 1.16 除了3D并行有没有其他方式大规模训练?
- 1.17 有了ZeRO系列,为什么还需要3D并行?
- 1.18 平民适不适合玩3D并行?
- 1.19 平民适不适合直接上多机多卡的ZeRO3(万兆网)?
- 1.20 分布式并行及显存优化技术并行技术有哪一些,都有什么特点?
- 1.21 显存优化技术有哪一些,都有什么特点?
- 1.22 常见的分布式训练框架哪一些,都有什么特点?
 
- 
2 实践篇 - 2.1 假如有超多的8卡A100节点(DGX A100),如何应用3D并行策略?
- 2.2 如果想构这样一个大规模并行训练系统,训练框架如何选?
- 2.3 训练框架如何选?
 
- 
... 
- 
为什么需要流水线并行(Pipeline Parallelism)? 
- 
一、流水线并行(Pipeline Parallelism) 优化目标是什么? 
- 
... 
- 
为什么需要nn.DataParallel? 
- 
一、pytorch中的GPU操作默认是什么样? 
- 
二、介绍一下 nn.DataParallel 函数? 
- 
三、nn.DataParallel 函数 处理逻辑 介绍一下? 
- 
... 
- 
为什么需要 nn.parallel.DistributedDataParallel ? 
- 
一、什么是 DistributedDataParallel 核心 —— Ring-AllReduce? 
- 
二、nn.parallel.DistributedDataParallel 函数 介绍一下? 
- 
三、nn.parallel.DistributedDataParallel 函数 如何多卡加速训练? 
- 
... 
- 
一、torch.multiprocessing 函数介绍一下? 
- 
二、torch.multiprocessing 函数如何使用? 
- 
... 
- 
为什么需要 AMP混合精度训练? 
- 
一、什么是自动混合精度训练(AMP) 
- 
二、为什么需要自动混合精度? 
- 
三、混合精度训练的优点是什么? 
- 
... 
- 
一、为什么需要 Deepspeed? 
- 
二、DeepSpeed 基本概念 介绍一下? - 2.1 DeepSpeed 介绍
- 2.2 DeepSpeed 基础的概念
- 2.3 DeepSpeed 支持的功能
 
- 
三、DeepSpeed 通信策略 介绍一下? 
- 
四、DeepSpeed 如何使用? - 4.1 DeepSpeed 安装
- 4.2 DeepSpeed 使用
 
- 
... 
- 
一、为什么需要 accelerate 分布式训练? 
- 
二、什么是 accelerate 分布式训练? 
- 
... 
- 
一、什么是 3D 并行? 
- 
二、3D 并行 策略有哪些? 
- 
三、为什么需要 ZeRO? 
- 
... 
- 
一、为什么 大模型分布式训练 需要 故障恢复? 
- 
二、如何获取最优的ckpt存储间隔? 
- 
三、ckpt存储能否实现异步或者部分掩盖? 
- 
... 
- 
1、Activation Recomputation是怎么实现的? 
- 
2、Megatron中的OverlappedDistributed Optimizer 是如何实现的? 
- 
3、Megatron-LM 中 Context Parallel 篇 - 3.1 介绍一下 Megatron-LM 中 Context Parallel 实现原理?
- ...
 
- 
一、数据并行 Trick 篇 - 1.1 数据并行 FSDP
- 1.2 数据并行 DDP
- 1.3 数据并行 ZeRO
- 1.3.1 Model state
- 1.3.2 Residual state
- 1.3.3 offload
 
 
- 
... 
- 
一、使用 DistributedDataParallel(分布式并行)时,显存分布不均衡问题 
- 
二、如果是用pytorch实现同步梯度更新,自研 数据接口,出现 第一个epoch结尾处程序卡死问题 
- 
... 
- 
一、什么是 大模型(LLMs)agent? 
- 
二、大模型(LLMs)agent 有哪些部分组成? - 2.1 介绍一下 规划(planning)?
- 2.1.1 拆解子目标和任务分解
- 2.1.1.1 如何进行 拆解子目标和任务分解?
- 2.1.1.2 拆解子目标和任务分解 有哪些方法?
 
- 2.1.2 模型自我反省
- 2.1.2.1 如何进行 模型自我反省?
- 2.1.2.2 模型自我反省 有哪些方法?
 
 
- 2.1.1 拆解子目标和任务分解
- 2.2 介绍一下 记忆(Memory)?
- 2.3 介绍一下 工具使用(tool use)?
 
- 2.1 介绍一下 规划(planning)?
- 
三、大模型(LLMs)agent 主要 利用了 大模型 哪些能力? 
- 
... 
- 
- 一、为什么需要 函数调用(function call)?
- 二、什么是 函数调用(function call)?
- ...
 
- 
- 开源模型 Function Call 方案有哪些?
- Llama 3.1
- 对话协议(Chat Protocal)
- Tool Call Template 样式
- ...
 
 
- Llama 3.1
 
- 开源模型 Function Call 方案有哪些?
- 
一、什么是位置编码? 
- 
二、为什么需要位置编码? 
- 
三、什么是绝对位置编码? - 3.1 训练式位置编码篇
- ...
 
 
- 3.1 训练式位置编码篇
- 
四、什么是相对位置编码? 
- 
五、旋转位置编码 RoPE篇 - 5.1 旋转位置编码 RoPE 思路是什么?
- ...
 
- 
六、长度外推问题篇 - 6.1 什么是 长度外推问题?
- 6.2 长度外推问题 的 解决方法 有哪些?
 
- 
七、 ALiBi (Attention with Linear Biases)篇 - 7.1 ALiBi (Attention with Linear Biases) 思路是什么?
- ...
 
- 
LLMs Tokenizer 篇 - Byte-Pair Encoding(BPE)篇
- 1 介绍一下 Byte-Pair Encoding(BPE) ?
- 2 Byte-Pair Encoding(BPE) 如何构建词典?
- 3 Byte-Pair Encoding(BPE) 具有什么优点?
- 4 Byte-Pair Encoding(BPE) 具有什么缺点?
- 5 手撕 Byte-Pair Encoding(BPE) ?
 
- Byte-level BPE 篇
- 1 介绍一下 Byte-level BPE ?
- 2 Byte-level BPE 如何构建词典?
- 3 Byte-level BPE 具有什么优点?
- 4 Byte-level BPE 具有什么缺点?
 
- WordPiece 篇
- ...
 
 
- Byte-Pair Encoding(BPE)篇
- 
一、为什么需要 构建中文tokenization? 
- 
二、如何对 原始数据预处理? 
- 
三、如何构建中文的词库? 
- 
... 
- 
一、为什么需要进行继续预训练? 
- 
二、如何对 继续预训练 数据预处理? 
- 
三、如何 构建模型? 
- 
四、如何 使用模型? 
- 
一、为什么需要对预训练模型进行指令微调? 
- 
二、对预训练模型进行指令微调 数据 如何处理? 
- 
三、对预训练模型进行指令微调 tokenization 如何构建? 
- 
四、对预训练模型进行指令微调 模型 如何构建? 
- 
五、是否可以结合 其他库 使用? 
- 
大模型(LLM)部署框架对比篇 
- 
一、为什么需要对大模型推理加速? 
- 
二、大模型(LLM)部署框架对比总览 
- 
三、大模型(LLM)部署优化策略 - ...
 
- 
一、 推理过程 分哪些阶段? - 1.1 Prefill(输入理解与初始化)阶段
- 1.2 Decoding(递归推理与解码输出)阶段
 
- 
二、 推理性能的评价指标? - 2.1 Throughput(吞吐量)
- 2.2 First Token Latency(首字延迟)
- 2.3 Latency(延迟)
- 2.4 QPS(每秒请求数)
 
- 
三、 当前优化模型最主要技术手段有哪些? - ...
 
- 
1 当前优化模型最主要技术手段有哪些? 
- 
2 推理加速框架有哪一些?都有什么特点? 
- 
3 vLLM 篇 - 3.1 vLLM 的 功能有哪些?
- ...
 
- 
一、介绍一下 LLMs 的文本生成过程? 
- 
二、如何准确衡量模型的推理速度呢? 
- 
三、如果对整体推理时延有具体目标,有哪些有效的启发式方法来评估模型? 
- 
... 
- 
一、vLLM 用于大模型并行推理加速 存在什么问题? 
- 
二、vLLM 如何 优化 大模型并行推理加速? 
- 
三、什么是 PagedAttention? 
- 
... 
- 
一、引言 - 1.1 前言
- 1.2 为什么 需要 vLLM ?
- 1.3 vLLM 具有哪些特点 ?
- 1.4 vLLM 支持哪些 Huggingface 模型 ?
 
- 
二、vLLM 性能如何? 
- 
... 
- 
一、为什么需要 FasterTransformer? 
- 
二、FasterTransformer 介绍一下? 
- 
三、FasterTransformer 核心是什么? 
- 
... 
- 
一、引言 - 1.1 前言
- 1.2 为什么 需要 LightLLM ?
- 1.3 目前 LLM推理框架 有 哪些?
 
- 
二、LightLLM 介绍一下? - 2.1 什么是 LightLLM ?
- 2.2 Token Attention 介绍?
- 2.3 Efficient Router 介绍?
 
- 
三、LightLLM 性能表现 介绍? 
- 
... 
- 
一、前言 - 1.1 大型语言模型(LLM)存在什么问题?
- 1.2 StreamingLLM 背景介绍
- 1.3 StreamingLLM 核心问题?
- ...
 
- 
二、StreamingLLM 的思路是什么? 
- 
... 
- 
StreamingLLM 篇 - 一、为什么需要 StreamingLLM?
- 二、StreamingLLM 思路是什么?
- 三、StreamingLLM 优点是什么?
 
- 
SwiftInfer 篇:基于TensorRT的StreamingLLM实现 - ...
 
- 
一、什么是大模型幻觉? 
- 
二、为什么LLM会产生幻觉? 
- 
三、为什么需要解决LLM的幻觉问题? 
- 
四、幻觉一定是有害的吗? 
- 
... 
- 
一、什么是 大模型幻觉问题? 
- 
二、为什么 会 出现 大模型幻觉问题? 
- 
... 
- 
一、为什么 会 出现 大模型幻觉? 
- 
二、如何 缓解 大模型幻觉? 
- 
LLMs 对比篇 - 一、谈谈你对当前出现的各种大模型的见解?
- 二、目前大模型常见的 base 模型训练和 chat 模型训练 方式 的区别么?
- 三、llama、baichuan、ChatGLM、Bloom 和 qwen 等开源大模型技术对比篇
- 3.1 llama 系列篇
- 3.1.1 llama 篇
- 3.1.1.1 llama 训练数据 介绍
- 3.1.1.2 llama 模型参数量 介绍
- 3.1.1.3 llama 模型结构 介绍
- 3.1.1.4 llama 训练目标 介绍
- 3.1.1.5 llama tokenizer 介绍
- 3.1.1.6 llama 衍生模型 介绍
- 3.1.1.7 llama 词表扩展: Chinese LLaMA
 
- 3.2.1 llama2 篇
- 3.2.1 llama2 系列 数据预处理方式?
- 3.2.2 llama2 系列 Tokenizer 处理方式?
- 3.2.3 llama2 系列 Architectural?
- 3.2.4 llama2 系列 content长度?
 
 
- 3.1.1 llama 篇
- 3.2 Mistral 7B 系列篇
- 3.2.1 Mistral 7B Architectural?
 
- 3.3 Qwen 系列篇
- 3.3.1 Qwen 系列 数据预处理方式?
- 3.3.2 Qwen 系列 Tokenizer 处理方式?
- 3.3.3 Qwen 系列 ARCHITECTURE?
 
- 3.4 Baichuan 系列篇
- 3.4.1 Baichuan2 篇
- 3.4.1.1 Baichuan2 系列 数据预处理方式?
- 3.4.1.2 Baichuan2 系列 Tokenizer 处理方式?
- 3.4.1.2 Baichuan2 系列 Architecture ?
 
 
- 3.4.1 Baichuan2 篇
- 3.5 GLM 系列篇
- 3.5.1 ChatGLM-6B 篇
- 3.5.1.1 ChatGLM-6B 结构特点?
- 3.5.1.2 ChatGLM-6B 训练目标?
- 3.5.1.3 ChatGLM-6B tokenizer?
 
 
- 3.5.1 ChatGLM-6B 篇
- 3.6 BLOOM 系列篇
- 3.6.1 BLOOM 篇
- 3.6.1.1 BLOOM 训练数据构建?
- 3.6.1.2 BLOOM 模型参数量?
- 3.6.1.3 BLOOM 模型结构?
- 3.6.1.4 BLOOM 训练目标?
- 3.6.1.5 BLOOM tokenizer?
 
 
- 3.6.1 BLOOM 篇
 
- 3.1 llama 系列篇
- 四、分析与总结?
- 4.1 大模型训练共同点?
- 4.2 大模型训练不同点?
 
- 五、对比
- 5.1 LLaMA、ChatGLM 和 BLOOM 对比
- 5.2 LLaMA、ChatGLM 和 BLOOM 的 tokenizer 比较
- 5.3LLaMA、ChatGLM 和 BLOOM 的 结果 比较
 
 
- 
大模型-attention mask 篇 - 1、prefix-tuning的prefix tokens是双向注意力吗?
- 2、chatglm1和chatglm2的attention mask是怎么样的?
- 3、llama的attention mask是怎么样的?
 
- 
一、baichuan-7B篇 - 
- 你了解baichuan-7B解构么?介绍一下?
 
- 
- baichuan-7B 如何 收集原始数据并 构建 训练数据?
 
- 
- baichuan-7B 如何 提高 训练稳定性和吞吐?
 
 
- 
- 
二、baichuan-13B篇 - ...
 
- 
一、相比较于llama而言,llama2有哪些改进,对于llama2是应该如何finetune? 
- 
一、gpt源码past_key_value是干啥的? 
- 
二、gpt onebyone 每一层怎么输入输出? 
- 
三、bert和gpt有什么区别 
- 
四、文本生成的几大预训练任务? 
- 
五、讲讲T5和Bart的区别,讲讲bart的DAE任务? 
- 
六、讲讲Bart和Bert的区别? 
- 
七、gpt3和gpt2的区别? 
- 
一、什么是思维链提示? 
- 
二、思维链提示本质是什么? 
- 
三、思维链提示 与 标准的提示学习方法有什么不同? 
- 
四、思维链提示 为什么可以提高语言模型的复杂推理能力?它的优势在哪里? 
- 
... 
- 
思维链 Chain-of-Thought(COT):思维链的启蒙 - 
- 什么是 思维链 Chain-of-Thought(COT)?
 
- 
- 思维链 Chain-of-Thought(COT)是思路是什么?
 
- 
- 思维链 Chain-of-Thought(COT)存在问题?
 
 
- 
- 
思维树 Tree of Thoughts(TOT):一种用树结构解决复杂问题的方法 - 
- 为什么需要 思维树 Tree of Thoughts(TOT)?
 
- 
- 什么是 思维树 Tree of Thoughts(TOT)?
 
- 
- 思维树 Tree of Thoughts(TOT)涉及问题有哪些?
 
 
- 
- 
... 
- 
一、什么是Zero-shot提示方法? 
- 
二、什么是Few-shot提示方法? 
- 
三、阐述One-shot和Few-shot提示策略及其应用场景? 
- 
四、什么是逐步Zero-shot 
- 
五、定义Zero-shot-CoT提示策略并描述其应用方法? 
- 
六、解释Few-shot-CoT提示策略及其实际使用方式? 
- 
七、Few-shot-LtM策略包含哪些主要阶段及其职责? 
- 
一、什么是 LLMs 测试集数据泄露 问题? 
- 
二、如何解决 LLMs 测试集数据泄露 问题? 
- 
三、是否可以 避开训练集来处理 LLMs 测试集数据泄露 问题? - ...
 
- 
一、为什么需要 MOE(Mixture-of-Experts)? 
- 
二、MOE(Mixture-of-Experts)的思路是什么样的? 
- 
三、介绍一下 MOE(Mixture-of-Experts)分布式并行策略? - 3.1 MOE + 数据并行?
- 3.2 MOE + 模型并行?
 
- 
四、MoE大模型具备哪些优势? 
- 
五、MoE大模型具备哪些缺点? 
- 
... 
22.2 MOE大模型对比篇
- 
DeepSpeed-MoE 
- 
PAI-Megatron-Patch MoE 
- 
一、知识蒸馏和无监督样本训练? 
- 
二、对知识蒸馏知道多少,有哪些改进用到了? 
- 
三、谈一下对模型量化的了解? 
- 
... 
- 
一、fp32和fp16的区别,混合精度的原理 
- 
二、半精度是什么? 
- 
三、半精度的理论原理是什么? 
- 
... 
- 
一、什么是 bitsandbytes? 
- 
二、如何才能使用 bitsandbytes? 
- 
三、如何使用 bitsandbytes? 
- 
... 
- 
建议的软件环境是什么? 
- 
... 
- 
预训练数据 Token 重复 是否影响 模型性能? 
- 
SFT需要训练Token数? 
- 
一、最近关注的论文,多模态视觉大模型(CLIP,DALLE)? 
- 
二、blip2的架构,优势和之前多模态模型的区别? 
- 
... 
- 
一、怎么处理类别不平衡? 
- 
二、有了解其他模型去尝试解决长度限制的方案吗? 
- 
... 
- 
一、文本分类任务有哪些应用场景? 
- 
二、文本分类的具体流程? 
- 
三、fastText的分类过程?fastText的优点? 
- 
... 
- 
一、抽取式摘要和生成式摘要存在哪些问题? 
- 
二、Pointer-generator network解决了什么问题? 
- 
三、文本摘要有哪些应用场景? 
- 
... 
- 
一、CRF 常见面试题 - 1.1 什么是CRF?CRF的主要思想是什么?
- 1.2 CRF的三个基本问题是什么?
- 1.3 线性链条件随机场的参数化形式?
- 1.4 CRF的优缺点是什么?
- 1.5 HMM与CRF的区别?
- 1.6 生成模型与判别模型的区别?
 
- 
二、HMM 常见面试题 - ...
 
- 
一、向量检索库总结 - 1.1 Annoy
- 1.1.1 Annoy 介绍
- 1.1.2 Annoy 使用
 
- 1.2 Faiss -...
 
- 1.1 Annoy
- huggingface 下载不了模型问题?
- ...
- 
大模型推理加速——KV Cache篇 - 一、介绍一下 KV Cache是啥?
- 二、为什么要进行 KV Cache?
- 2.1 不使用 KV Cache 场景
- 2.2 使用 KV Cache 场景
 
- 三、说一下 KV Cache 在 大模型中的应用?
- ...
 
 
- 
大模型——角色扮演大模型篇 - 一、什么是角色扮演大模型?
- 二、为什么需要角色扮演大模型?
- 三、角色扮演大模型 相比于 通用大模型 具有哪些区别?
- 四、能否通俗易懂的介绍 【角色扮演大模型】?
- ...
 
- 
千面郎君 篇(三十一章)—— OpenAI o1 篇 - 一、Shortcut learning (捷径学习) vs Journey learning (旅程学习)
- 1.1 Shortcut learning (捷径学习)
- 1.1.1 什么是 Shortcut learning (捷径学习)?
- 1.1.2 Shortcut learning (捷径学习) 包含哪些关键特征?
- 1.1.3 Shortcut learning (捷径学习) 优点是什么?
- 1.1.4 Shortcut learning (捷径学习) 缺点是什么?
 
- 1.2 Journey learning (旅程学习)
- 1.2.1 什么是 Journey learning (旅程学习)?
- 1.2.2 Journey learning (旅程学习) 包含哪些关键特征?
- 1.2.3 Journey learning (旅程学习) 优点是什么?
 
- 1.3 Shortcut learning (捷径学习) vs Journey learning (旅程学习)
 
- 1.1 Shortcut learning (捷径学习)
- 二、o1 的长思维链篇
- 2.1 o1 的长思维链是什么样子?
- 2.2 长思维 (Long thought) 是如何工作的?
- 2.3 如何构建长思维?
 
- ...
 
- 一、Shortcut learning (捷径学习) vs Journey learning (旅程学习)
- 
OpenAI o1 面试篇 - Q: o1 的训练方法与之前的模型有何主要区别?
- Q: o1 的"思考"过程与简单的提示有何不同?
- Q: 为什么 o1 在推理任务上比之前的模型更强大?
- Q: o1 如何处理安全性问题?
- ...
 
- 
Scaling LLM Test-Time:谁说类o1推理一定要用RL? - 一、Scaling LLM Test-Time 介绍篇
- 1.1 为什么需要 Scaling LLM Test-Time?
- 1.2 三种 Scaling LLM Test-Time 类型定义?
- 1.3 有哪些 Scaling Test-Time的方法?
- 问题引申
 
- 二、方法一:纯 Inference Scaling 篇
- 2.1 Inferece Test-Time的统一视角:Proposer & Verifier
- 2.2 Proposer & Verifier 实例:Best-of-N
- ...
 
 
- 一、Scaling LLM Test-Time 介绍篇

