专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
今天看啥  ›  专栏  ›  爱可可-爱生活

【Forecasting Rare Language Model-20250226095838

爱可可-爱生活  · 微博  · AI  · 2025-02-26 09:58
    

文章预览

2025-02-26 09:58 本条微博链接 【Forecasting Rare Language Model Behaviors:Anthropic 的Alignment Science团队发布了一项新研究,旨在预测大型语言模型在部署后罕见行为的风险。研究首先通过大量采样模型完成并测量含有有害内容的比例来计算各种提示使模型产生有害响应的概率。研究人员发现高风险查询的数量与最高风险概率之间存在幂律分布,这使得他们能够利用幂律的数学特性,从较小数量的观测实例中推断出更大规模的最坏风险 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览