本网讯(计算机科学与技术学院 陈喜)我校赵姝教授团队针对大规模预训练语言模型的巨大算力成本阻碍了通用人工智能更广泛研究和应用的问题,提出了一种通用的语言模型蒸馏方法,通过缩小模型规模的方式来降低算力成本,同时保持原始大模型的性能。该研究工作以“Are Intermediate Layers and Labels Really Necessary? A General Language Model Distillation Method”为题被顶级国际学术会议ACL 2023接受为Findings Long Papers,安徽大学为第一通讯单位,我校博士生谭世成为第一作者,我校计算机科学与技术学院赵姝教授和清华大学计算机科学与技术系唐杰教授为共同通讯作者。ACL(Annual Meeting of the Association for Computational Linguistics)会议是自然语言处理领域的顶级国际会议,同时也是中国计算机学会(CCF,China Computer Federation)推荐的 A 类国际学术会议。该方法克服了现有工作对模型中间层特征和数据标签的依赖,突破了减少模型规模时维度和结构的限制,以及标记数据集的繁琐工作,从而支持更加通用的模型压缩场景。
针对工业场景中部署知识蒸馏系统需要在更大规模的模型上使用各种复杂的蒸馏方法,而这受到了显存大小和方法切换的限制这一问题,赵姝教授团队提出了一种面向大规模预训练语言模型的知识蒸馏框架,让研究人员可以在有限的显存上蒸馏更大的模型,并在单个框架内轻松切换和组合不同的蒸馏方法。该框架可在八张40GB显存的显卡上至少压缩一千亿参数的模型,并支持25种蒸馏方法。相关研究工作以“GKD: A General Knowledge Distillation Framework for Large-scale Pre-trained Language Model”为题被ACL 2023接受为Industry Track Papers,安徽大学为第一通讯单位,我校博士生谭世成为第一作者,我校计算机科学与技术学院赵姝教授和清华大学计算机科学与技术系唐杰教授为共同通讯作者。