主要观点总结
本文主要讨论了法律大模型的决策逻辑与人类认知的对齐问题,介绍了基于交互的解释评估法律大模型决策逻辑正确性的方法。
关键观点总结
关键观点1: 法律大模型的决策逻辑与人类认知的对齐问题
尽管法律大模型在预测判决结果方面取得了较高的准确率,但其决策逻辑往往与人类认知存在较大的偏差。通过基于交互的解释方法,可以评估法律大模型的决策逻辑正确性。
关键观点2: 交互的定义与性质
交互包括与交互和或交互。大语言模型的决策逻辑可以通过这两种交互进行解释。无限拟合性和稀疏性是交互的两个重要性质,它们保证了基于交互的解释的忠实性。
关键观点3: 评估法律大模型的决策逻辑
通过识别大模型所编码的可靠和可靠的交互,可以评估法律大模型的决策逻辑。具体关注法律判决中的潜在表征缺陷,如基于不可靠的情感tokens、错误的实体匹配以及职业偏见等做出的判决结果。
文章预览
知乎:Qs.Zhang张拳石 链接:https://zhuanlan.zhihu.com/p/2092355900 陈鹭,张拳石 Lu Chen, Yuxuan Huang, Yixing Li, Yaohui Jin, Shuai Zhao, Zilong Zheng, Quanshi Zhang, "Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs" in arXiv:2410.09083, 2024. 大家好,我是陈鹭,是张拳石老师的访问实习博士生。 评测模型输出vs.评测模型内在逻辑。目前,对大模型的评测往往着眼于大模型输出结果本身的正确性(诸如幻觉问题和价值对齐问题)[1-3],然而在实际工业应用中,评测大模型表征可信程度的症结点在于评测大模型输出结果背后潜在决策逻辑的正确性,即神经网络是否使用正确的逻辑进行模型推断(inference)。事实上,我们发现尽管大模型在特定任务上已经展现出较高的准确率,其内在决策逻辑往往是非常混乱的。 然而,如何从数学上严格地解释神经网络内在
………………………………