3、搜索参数高效微调(PEFT:LoRA / QLoRA / IA³)
把预训练模型的绝大部分参数冻结,只训练插入的少量可训练模块(adapter / low-rank matrices / 缩放向量等),从而在极低的训练参数与显存占用下完成下游适配。此类方法在工程中常与冻结骨干 + 少量参数训练的路线并行或替代使用,适合资源受限或需要同时维护多个任务/模型副本的场景。([arXiv][1])
参考方法(arXiv)
● LoRA — *Low-Rank Adaptation of Large Language Models*。[https://arxiv.org/abs/2106.09685](https://arxiv.org/abs/2106.09685) 。([arXiv][2])
● QLoRA — *QLoRA: Efficient Finetuning of Quantized LLMs*。[https://arxiv.org/abs/2305.14314](https://arxiv.org/abs/2305.14314) 。([arXiv][3])
● IA³ — *Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning*(T-Few,提出 IA³)。[https://arxiv.org/abs/2205.05638](https://arxiv.org/abs/2205.05638) 。([arXiv][4])
PEFT 概览(一句话)
* PEFT 通过只训练插入的小模块或少量参数来适配大模型,达到接近或等同于全量微调的效果,同时显著降低存储、训练与部署成本。详见 PEFT 综述与比较。([arXiv][1])
LoRA(核心要点、优缺点、验证)
● 核心思想:在 Transformer 的若干密集权重矩阵 (W) 上不直接修改 (W),而是引入 **低秩更新** (\Delta W = B A)((A\in\mathbb{R}^{d\times r}, B\in\mathbb{R}^{r\times k}),(r\ll\min(d,k))),训练 (A,B);推理时可将 (\Delta W) 合并回 (W)。该设计大幅减少可训练参数并能保持推理延迟不变(可合并)。([arXiv][2])
● 典型用法:常插入到注意力投影矩阵与 MLP 的 dense 层;使用 rank (r) 与缩放因子 (\alpha) 控制表示能力与参数量(论文给出实证与超参建议)。([arXiv][2])
● 优点(论文中验证的事实):
* 可训练参数显著少(论文示例:相对 GPT-3 可减少数千到上万倍的可训练参数)。([arXiv][2])
* 无额外推理延迟(可在推理前合并权重);训练吞吐与效率有优势。([arXiv][2])
● 局限/注意事项(论文与实验结论能验证):
* 表达能力受 rank 与放置位置限制:太小的 (r) 在某些任务上可能不足;需按任务/模型做超参选择。([arXiv][2])
* 虽然在多数实验上 LoRA 表现接近或优于全量微调,但并非在所有数据规模/任务上总是最佳(需 empirical 验证)。([arXiv][2])
● 验证清单(快速核验 LoRA 描述):看 LoRA 论文 **Sec.4.1(Low-Rank parametrized update matrices)**、实验与 Appendix(合并权重与延迟讨论)。([arXiv][2])
QLoRA(核心要点、优缺点、验证)
● 核心思想:将预训练大模型**量化到 4-bit(并采用量化相关技巧)**后保持其为冻结状态,**在量化后的模型上反向传播到 LoRA adapter**(即 frozen-quantized backbone + 可训练 LoRA),从而在单卡(例如 48GB)上完成对 65B 规模模型的微调。论文强调该方案在保持与 16-bit 微调近似性能的同时大幅降低显存需求。([arXiv][3])
● 关键技术点(论文中提出并评估):使用专门的 4-bit 表示/量化方案(论文讨论具体量化格式与实现细节),以及在量化条件下仍能可靠地对 LoRA 参数回传梯度的工程措施。([arXiv][3])
● 优点(论文中声明并在实验中演示):
* 允许在资源受限(单张 48GB GPU)环境下微调超大模型(65B),而不牺牲任务性能(与 16-bit 微调性能相当)。([arXiv][3])
● 局限/注意事项(论文与实现中指出):
* 引入了量化/反量化与实现复杂度(需要谨慎的量化方案与工程实现),因此工程开销/调试成本高于直接 LoRA。([arXiv][3])
* 量化相关细节(如哪种 4-bit 数据类型、是否 double-quantization 等)对最终性能敏感——应按论文实验设置复现或使用作者实现。([arXiv][3])
● 验证清单(快速核验 QLoRA 描述):看 QLoRA 论文 **Abstract + 实验/方法部分(量化与训练流程)**,以及论文给出的 65B-on-48GB 的复现实验。([arXiv][3])
IA³((IA)³,核心要点、优缺点、验证)
● 核心思想(T-Few 论文提出):用极少数参数的**缩放向量**去重新缩放 Transformer 内部的激活 —— 具体包括对自注意力的 keys/values 以及 MLP 中间激活的逐通道缩放(即插入若干 learnable vectors),从而达到最小参数开销下的任务适配。T-Few 报告 IA³ 在 few-shot 场景中效果优越且计算/存储成本低。([arXiv][4])
● 优点(论文与后续研究/实践中验证的事实):
* 极端的参数效率(插入向量的参数量非常小),在 few-shot/低样本场景下能带来优异效果(T-Few 的多项基准)。([arXiv][4])
● 局限/注意事项(从 T-Few 与后续实证研究可验证的结论):
* 在一些更大样本或某些任务上,LoRA 等低秩方法在总体效果上常被报告为更稳健或优于 IA³(若干比较研究/基准显示 LoRA 在多数常规数据规模下表现更好)。因此 IA³ 更适合极小样本/快速部署场景。([arXiv][5])
● 验证清单(快速核验 IA³ 描述):看 T-Few / NeurIPS(arXiv)论文中 IA³ 的方法定义段与 few-shot 实验结果;也可参考后续的 PEFT 比较实证(综述/实证论文)。([arXiv][4])