文章预览
23年9月来自 多所大学学者(来自美国和中国) 的综述论文“Explainability for Large Language Models: A Survey“。 添加图片注释,不超过 140 字(可选) 摘要 :大语言模型(LLM)在自然语言处理方面表现出令人印象深刻的能力。然而,内部机制仍然不明确,这种缺乏透明度的做法给下游应用带来了不必要的风险。因此,理解和解释这些模型对于阐明其行为、局限性和社会影响至关重要。本文介绍可解释性技术的分类法,并给解释基于Transformer语言模型的方法做了结构化概述的总结。根据LLM的训练范式进行分类:传统基于微调范式和基于提示范式。对每个范式,无论生成单个预测的局部解释,还是整体模型知识的全局解释,把目标和主要方法进行总结。还讨论用于评估生成解释的指标,并讨论如何利用这些解释来调试模型和提高性能。最后,与传统机器学习
………………………………