北京大学多媒体信息处理研究室：新闻

[English Version]

关注MIPL微信公众号

招生方向

北京大学多媒体信息处理研究室：新闻

2026-04-14：MIPL的1篇论文被TIP期刊接收

IEEE Transactions on Image Processing (TIP)是图像处理与计算机视觉领域的国际学术期刊，中国计算机学会（CCF）推荐的A类期刊，主要关注图像与视频处理、分析、增强及相关算法等前沿研究，影响因子13.7。
MIPL有1篇论文被接收，研究多模态大模型的轻量化推理加速。

FinePruner: 基于注意力头级无偏细粒度视觉Token压缩的多模态大模型推理加速
FinePruner: Unbiased Attention-Head-Level Fine-grained Token Reduction for Efficient Inference of Large Vision-Language Models
作者：王梓烁（硕士生），郑翔天（博士生），彭宇新
通讯作者：彭宇新
源代码链接：https://github.com/PKU-ICST-MIPL/FinePruner_TIP2026
视觉Token压缩旨在从输入大模型的Token序列中删除冗余的视觉Token，缩短序列长度，降低多模态大模型的计算开销，提高推理效率。然而，现有方法面临模型加速后的精度损失问题，在具有挑战性的细粒度图像分类（Fine-Grained Visual Classification，FGVC）任务上精度损失尤其严重。本文通过实验发现，现有方法依赖注意力分布来评估视觉Token的重要性，而多模态大模型存在“注意力偏差”，视觉Token被分配的注意力分数并不等同于其重要性，一些无关视觉Token会被分配更高的注意力，而重要的视觉Token则被分配较低的注意力，导致现有方法错误地删除重要视觉Token，无法精准保留图像中的细粒度辨识性视觉信息，造成严重的精度损失。
针对上述挑战，本文提出了一种注意力头级的无偏细粒度视觉Token压缩方法FinePruner，旨在克服“注意力偏差”的影响，从输入序列中精准保留重要的视觉Token，在加速推理的同时避免精度受损。具体来说，本文首先通过可视化实验分析了“注意力偏差”的分布规律，得出两个结论：（1）浅层中的注意力偏差比深层中更加严重，（2）注意力偏差主要并非存在于所有注意力头中，部分注意力头基本不受影响。基于上述结论，本文首先在浅层网络中进行指令无关的视觉Token聚类，此时注意力偏差较为严重，因此仅根据视觉Token的语义相似度，利用局部敏感哈希和并查集合并算法，将语义相似的视觉Token放入同一个聚类簇，并在每个聚类簇中保留第一个视觉Token，从而在保留多样性的同时初步降低视觉Token冗余程度。然后，在深层网络中进行注意力修正的视觉Token剪枝，此时注意力偏差已经减弱，本文进一步根据注意力分布与均匀分布之间的KL散度，筛选出注意力分布平滑、受偏差影响较小的注意力头，根据其注意力分布对视觉Token进行排序，并删除注意力较低的视觉Token，进一步缩短序列长度，实现推理加速。在5个细粒度图像分类和5个视觉问答评测基准上的实验表明，与当前最优方法相比，本方法能够实现更好的精度-速度权衡，在相同速度下精度更高，相同精度下速度更快。
该论文的第一作者是北京大学王选计算机研究所2023级硕士生王梓烁，通讯作者是彭宇新教授。