文章预览
HuixiangDou 是群聊场景的 LLM 知识助手。群里人多口杂,机器人显然不应该答复所有消息,它的设计规则为: 无关内容不吭声—— 拒答 明确该答的,直接回复—— 检索 不能违反核心价值观—— 可靠 https://github.com/InternLM/HuixiangDou (文末点击阅读原文可直达, 觉得好用欢迎 star) 在 上一篇文章 中,我们用真实群聊数据测试,对比不同方法和调参,最终拒答 F1 score 达到 75.88。 本文介绍如何混用知识图谱和稠密检索,把 F1 进一步提升到 77.57。 以下是目前所有方法对比: 方法 F1 score 备注 BCE+KG混合(本文) 77.57 KG 权重约 20% BCE 75.88 需配合特定 splitter BGE 72.23 使用 bge-large-zh-v1.5 BGE-M3 70.62 测试数据 token 不足 8192,无法评估能力 M3 稠密+稀疏混合 63.85 使用 milvus hybrid_search 测试,WeightedRanker 中稀疏占比越大效果越差 本文使用的方法,实质是在稠密检索期
………………………………