【论文笔记】Prefix-Tuning+: Modernizing Prefix-Tuning through Attention Independent Prefix Data

Title: Prefix-Tuning+: Modernizing Prefix-Tuning through Attention Independent Prefix Data

Authors: Haonan Wang, Brian K. Chen, Siquan Li, Xinhe Liang, Hwee Kuan Lee, Kenji Kawaguchi, Tianyang Hu

Affiliations: National University of Singapore; Bioinformatics Institute, A*STAR; Nanyang Technological University; Singapore Eye Research Institute; Singapore International Research Laboratory on AI; Singapore Institute for Clinical Sciences.

Conference: ICML 2025

PDF: https://arxiv.org/pdf/2506.13674v1

一、研究背景与动机

Prefix-Tuning：是一种经典的 PEFT 方法：在输入序列前添加可学习的“前缀”，通过影响注意力机制来引导模型生成。
但作者发现，在当前主流的大型语言模型（LLM）上，标准 Prefix-Tuning 的效果远不如 LoRA。
核心问题：不是前缀长度或初始化问题，而是一个架构级别的缺陷———前缀与真实输入在注意力头内部存在冲突。

Figure 1: Performance comparison between Prefix-Tuning and LoRA.

二、问题诊断

现象	原因
前缀过长	模型过度关注前缀，忽略输入内容
输入过长	前缀影响被稀释
本质	注意力机制中，前缀与真实输入共享注意力分数，导致此消彼长

前缀应当影响模型行为，但不应该与输入内容“争夺”注意力权重。

核心方法：Prefix Tuning+(PMT)

该方法的具体名称经历了由PT+改为PMT(PrefixMemotyTuning)，在此笔者最终决定统一表述为PMT

设计思想

将前缀从注意力头内部解耦出来，不再参与注意力权重的竞争。

如何实现？

引入一个独立于注意力机制的外部模块
该模块由一个可训练的矩阵和表示函数组成
不改变原始注意力计算流程，而是并行地影响表示

形式上可以理解为：前缀不再挤占输入的位置，而是作为一种独立的控制信号。

与传统Prefix Tuning的区别

	Prefix-Tuning	PMT
前缀作用方式	与输入拼接，参与注意力计算	独立于注意力，不参与权重竞争
与输入的交互	竞争注意力权重	无直接竞争
对长输入的适应性	差	好

四、实验设置与结果

任务类型

少量样本学习（few-shot）
多个NLU和NLG基准任务

方法

全参数微调
Prefix-Tuning
LoRA

实验结果

方法	相对LoRA的表现
Prefix Tuning	显著落后
Prefix Tuning	平均提升 8.1%（优于 LoRA）
相比 Prefix-Tuning	提升 29.4%

结论：

PMT(PT+) 不仅修复了 Prefix-Tuning 的缺陷，还达到了与 LoRA 相当甚至更优的性能。
证明了“前缀式方法”在现代化改造后仍然具有竞争力。

五、贡献与总结

问题诊断：首次明确指出 Prefix-Tuning 在现代 LLM 上失效的根本原因是注意力内部的“零和博弈”。
方法创新：提出 PT+，通过注意力独立的前缀机制彻底解决该问题。
实验验证：在多个任务上显著超越原版 Prefix-Tuning，并达到与 LoRA 相当或更好的效果。
方法论启发：提醒研究者重新审视经典 PEFT 方法在新架构下的适用性。

The Future

PEFT 的设计空间仍未穷尽：LoRA 虽强，但 Prefix-Tuning+ 说明前缀式方法仍有潜力可挖。
解耦是一个非常值得关注的思路：本文提出了将前缀从注意力竞争中解放出来，这种思路是否可以用到其他类似的“共享机制”策略的改进？
根据实际去做选型参考：当任务中输入长度变化大或者前缀过长，需进行计算开销来选取PMT还是LoRA

Paper

#PEFT #Prefix Tuning #llm code generation #AI Safety

【论文笔记】Prefix-Tuning+: Modernizing Prefix-Tuning through Attention Independent Prefix Data

https://zer0ptr.github.io/2026/05/23/prefix-tunning-plus/

作者

zer0ptr

发布于

2026年5月23日

更新于

2026年6月2日

许可协议

【论文笔记】A Systematic Evaluation of Parameter-Efficient Fine-Tuning Methods for the Security of Code LLMs 上一篇

华为HG532远程代码执行漏洞复现下一篇