近期,计信学院多智能体认知与协同团队在移动计算领域顶级国际期刊《IEEE Transactions on Mobile Computing》(CCF-A类)发表了题为“Fisher-based Layer-wise Adaptive Sparsification for Efficient Pruning of Large Language Models”的学术论文。该论文由太阳集团官网tyc9728、新加坡南洋理工大学与加拿大英属哥伦比亚大学合作完成,第一作者为孙川博士,通讯作者为新加坡南洋理工大学联邦学习领域国际权威专家Han Yu副教授。
针对在资源受限的消费级设备(如个人电脑、智能手机)上本地部署大型语言模型(LLM)时,推理过程计算成本高、资源消耗大,而现有的网络剪枝方法通常对所有Transformer层采用统一的剪枝率,忽略了不同层对模型整体性能贡献的差异性,导致剪枝后模型在压缩规模的同时难以保持原有表达能力与任务精度这一问题,本文提出了一种基于Fisher信息的逐层自适应稀疏化方法(FisherLAS)。该方法通过计算Fisher信息矩阵的均值,量化每个Transformer层对模型输出的敏感性,并以此为依据,自适应地为不同层分配差异化的剪枝率,从而在压缩模型规模的同时,最大限度地保留对性能至关重要的结构信息。理论分析验证了该方法的合理性,在7个开源LLM上的大量实验结果表明,FisherLAS在WikiText2困惑度下降与多种分类任务准确率提升方面,平均分别优于8种最先进方法26.86%和4.81%。

《IEEE Transactions on Mobile Computing》是国际电气与电子工程师学会(IEEE)旗下移动计算领域的顶级期刊,同时也是中国计算机学会(CCF)推荐的计算机网络领域三大A类期刊(CCF-A)之一,其2024–2025年最新影响因子达9.2。该研究成果的发表,充分彰显了团队在大模型领域的持续探索精神与突出创新能力。
论文链接:https://ieeexplore.ieee.org/abstract/document/11481795