Class-RAG：通过RAG 提高内容审核性能

大语言模型论文跟踪 · 公众号 · · 2024-10-23 21:35

文章预览

Class-RAG：通过RAG 提高内容审核性能发布时间：2024 年 10 月 18 日 RAG Class-RAG: Content Moderation with Retrieval Augmented Generation 内容审核分类器对生成式 AI 的安全性至关重要。然而，安全与不安全内容间的细微差别常令人难以区分。随着技术广泛应用，持续微调模型以应对风险变得愈发困难且昂贵。为此，我们提出 Class-RAG 方法，通过动态更新检索库，实现即时风险缓解。与传统微调模型相比，Class-RAG 更具灵活性与透明度，且在分类与抗攻击方面表现更佳。研究还表明，扩大检索库能有效提升审核性能，成本低廉。 https://arxiv.org/abs/2410.14881 如遇无法添加，请+ vx: iamxxn886 1. Class-RAG 推出的背景随着技术的发展，互联网上出现了越来越多的不良内容。过去，使用机器学习的方法来对内容进行情感分类、骚扰识别、仇恨言论检测等。深度学习技术的发展推动了内 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博