文章预览
本文介绍了一种新的方法用于检测大型语言模型( LLM )生成的幻觉文本,特别是通过区分三种类型的幻觉: 对齐 ( aligned )、 错位 ( misaligned )和 捏造 ( fabricated )。现有的检测方法未能有效区分不同类型的幻觉,导致检测性能不足。为此,作者提出了一种“幻觉推理”( hallucination reasoning )任务,并设计了一种零样本方法,能够在没有外部知识、数据集标签或模型微调的情况下,评估 LLM 是否具备足够的知识来生成文本。通过模型知识测试( MKT )和对齐测试( Alignment Test ),该方法能够准确分类 LLM 生成的文本,提高现有检测方法的表现。实验结果表明,该方法在多项数据集上的表现显著优于传统方法,特别是在识别捏造文本方面。 1 二阶段工作流程 模型知识测试(Model Knowledge Test, MKT): ·该测试的目的是检查智能体是否具备足够的知
………………………………