avatar
Articles
200
Tags
38
Categories
0

Home
Archives
Tags
Categories
List
  • Music
  • Movie
Link
About
ALTNT's Hexo Blog
Home
Archives
Tags
Categories
List
  • Music
  • Movie
Link
About

LP-FT

Created2025-11-23|Updated2025-11-25
|Post Views:
Author: ALTNT
Link: http://blog.705553939.xyz/2025/11/23/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/%E7%9B%91%E7%9D%A3%E5%BE%AE%E8%B0%83/2024-ICLR-LP-FT/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
监督微调
Previous
周报2025年11月30日
Next
周报2025年11月22日
avatar
ALTNT
Articles
200
Tags
38
Categories
0
Follow Me
Announcement
This is my Blog
Contents
  1. 1. FINE-TUNING CAN DISTORT PRETRAINED FEATURES AND UNDERPERFORM OUT-OF-DISTRIBUTION
    1. 1.1. 一、研究背景与核心问题
    2. 1.2. 二、核心发现
    3. 1.3. 三、理论分析(线性过参数化模型)
      1. 1.3.1. 3.1 理论设定
      2. 1.3.2. 3.2 微调的特征扭曲问题
      3. 1.3.3. 3.3 线性探测与微调的性能对比
      4. 1.3.4. 3.4 LP-FT的理论合理性
    4. 1.4. 四、实验验证
      1. 1.4.1. 4.1 实验设置
      2. 1.4.2. 4.2 关键实验结果
    5. 1.5. 五、相关工作与结论
      1. 1.5.1. 5.1 相关工作对比
      2. 1.5.2. 5.2 结论与展望
      3. 1.5.3. 5.3 可复现性
    6. 1.6. 一、引言
      1. 1.6.1. 算法含义。
    7. 1.7. 2 实验设置
      1. 1.7.1. 2.1 任务与评估标准
      2. 1.7.2. 2.2 模型结构
      3. 1.7.3. 2.3 预训练特征提取器与迁移学习方法
    8. 1.8. 3 理论分析:微调会扭曲预训练特征
      1. 1.8.1. 3.1 线性过参数化场景
        1. 1.8.1.1. 3.1.1 模型结构
        2. 1.8.1.2. 3.1.2 优良的预训练特征
        3. 1.8.1.3. 3.1.3 训练数据
        4. 1.8.1.4. 3.1.4 大幅OOD偏移
        5. 1.8.1.5. 3.1.5 训练方法
          1. 1.8.1.5.1. (1)微调(FT)的梯度流
          2. 1.8.1.5.2. (2)线性探测(LP)的梯度流
          3. 1.8.1.5.3. 最终解的定义
      2. 1.8.2. 3.2 微调会扭曲预训练特征
        1. 1.8.2.1. 3.2.1 核心直观认知
          1. 1.8.2.1.1. 观察1:特征扭曲现象——仅ID子空间特征被更新,正交子空间特征不变
          2. 1.8.2.1.2. 观察2:扭曲的特征会导致更高的OOD误差
      3. 1.8.3. 3.2.2 微调OOD误差的一般结论
        1. 1.8.3.1. 证明思路概述
        2. 1.8.3.2. 各参数的含义解读
    9. 1.9. 3.3 线性探测与微调的性能对比
      1. 1.9.1. 3.3.1 假设3.3(ID子空间假设)
      2. 1.9.2. 3.3.2 ID误差定义
      3. 1.9.3. 3.3.3 OOD性能对比:线性探测更优
      4. 1.9.4. 3.3.4 ID性能对比:微调更优
      5. 1.9.5. 3.3.2 小结:ID-OOD误差的权衡关系
    10. 1.10. 3.4 先线性探测再全微调:缓解误差权衡的简单策略
    11. 1.11. 4 实验验证
      1. 1.11.1. 4.1 实验基础设置
        1. 1.11.1.1. 4.1.1 数据集选择
        2. 1.11.1.2. 4.1.2 预训练模型与架构
      2. 1.11.2. 4.2 线性探测(LP)与微调(FT)的性能对比
        1. 1.11.2.1. 4.2.1 实验流程
        2. 1.11.2.2. 4.2.2 实验结果
          1. 1.11.2.2.1. (1)分布内(ID)性能:微调略优
          2. 1.11.2.2.2. (2)分布外(OOD)性能:线性探测显著更优
          3. 1.11.2.2.3. (3)关键结论
      3. 1.11.3. 4.3 “先线性探测再全微调”(LP-FT)的性能验证
        1. 1.11.3.1. 4.3.1 实验流程
        2. 1.11.3.2. 4.3.2 实验结果:LP-FT实现“双赢”
      4. 1.11.4. 4.4 特征扭曲理论的实验验证
        1. 1.11.4.1. 4.4.1 早停(Early Stopping)无法缓解特征扭曲
        2. 1.11.4.2. 4.4.2 微调对ID与OOD特征的扭曲程度差异
        3. 1.11.4.3. 4.4.3 特征质量与分布偏移的影响
      5. 1.11.5. 4.5 实验结论汇总
        1. 1.11.5.1. 附:实验关键结果表(原文核心表格节选)
          1. 1.11.5.1.1. 表1:各方法分布内(ID)精度(含90%置信区间)
          2. 1.11.5.1.2. 表2:各方法分布外(OOD)精度(含90%置信区间)
    12. 1.12. 5 相关工作与讨论
      1. 1.12.1. 5.1 微调与线性探测的相关研究
      2. 1.12.2. 5.2 保留预训练特征的优势
      3. 1.12.3. 5.3 缓解ID-OOD性能权衡的相关研究
      4. 1.12.4. 5.4 迁移学习的理论研究现状
    13. 1.13. 6 结论
      1. 1.13.1. 补充说明
  2. 2. 3 节相关证明
    1. 2.1. A.1 重要符号与主角角的预备知识
      1. 2.1.1. A.1.1 大O符号(Big-Oh Notation)
      2. 2.1.2. A.1.2 奇异值(Singular Values)
      3. 2.1.3. A.1.3 投影算子(Projectors)
      4. 2.1.4. A.1.4 主角角(Principal Angles)
    2. 2.2. A.2 特征扭曲定理
      1. 2.2.1. A.2.1 定理3.2重述
      2. 2.2.2. A.2.2 关键引理
        1. 2.2.2.1. 引理A.3(OOD子空间特征不变性)
        2. 2.2.2.2. 引理A.4(头部与特征提取器的耦合性)
        3. 2.2.2.3. 引理A.5(主角角与OOD方向的关系)
        4. 2.2.2.4. 引理A.6(矩阵最小奇异值的下界)
        5. 2.2.2.5. 引理A.7(OOD误差与二阶矩矩阵的关系)
      3. 2.2.3. A.2.3 定理3.2的证明
    3. 2.3. A.3 线性探测与微调的OOD性能对比(定理3.4的证明)
      1. 2.3.1. A.3.1 特征提取器距离的定义
      2. 2.3.2. A.3.2 定理A.9(定理3.4的正式表述)
      3. 2.3.3. A.3.3 关键引理
        1. 2.3.3.1. 引理A.10(主角角的连续性)
        2. 2.3.3.2. 引理A.11(主角角的收敛性)
        3. 2.3.3.3. 引理A.13(头部初始对齐误差的下界)
        4. 2.3.3.4. 引理A.15(线性探测OOD误差的上界)
      4. 2.3.4. A.3.4 定理A.9的证明
    4. 2.4. A.4 线性过参数化场景下LP与FT的OOD性能(非渐近结果)
      1. 2.4.1. A.4.1 定理A.16(非渐近结果)
      2. 2.4.2. A.4.2 定理A.16的证明
    5. 2.5. A.5 主角角非零的概率性
      1. 2.5.1. A.5.1 引理A.17(随机子空间的主角角)
      2. 2.5.2. A.5.2 引理A.17的证明
    6. 2.6. A.6 LP与FT的ID性能对比(命题3.5的证明)
      1. 2.6.1. A.6.1 命题3.5重述
      2. 2.6.2. A.6.2 关键引理
        1. 2.6.2.1. 引理A.18(投影的线性独立性)
        2. 2.6.2.2. 引理A.19(线性探测的ID误差非零)
        3. 2.6.2.3. 引理A.20(线性探测ID误差非零的条件)
      3. 2.6.3. A.6.3 命题3.5的证明
    7. 2.7. A.7 LP-FT策略的理论合理性
      1. 2.7.1. A.7.1 命题A.21(完美预训练特征下的线性探测)
      2. 2.7.2. A.7.2 命题3.6的证明
Recent Post
周报2025年12月7日2025-12-08
周报2025年11月30日2025-11-30
LP-FT2025-11-23
周报2025年11月22日2025-11-22
In-season crop progress in unsurveyed regions using networks trained on synthetic data2025-11-16
©2020 - 2025 By ALTNT
Framework Hexo|Theme Butterfly