主要观点总结
文章介绍了北大团队发现的一种能让DeepSeek和R1模型陷入无限思考的现象,这种现象类似于针对推理模型的DDoS攻击。通过输入特定的文本提示,模型会陷入长时间的思考过程,导致算力资源被占用,无法正常处理其他请求。文章还提到了一些模型对此类攻击的防御措施,但仍有部分模型存在风险。针对这种现象的原因,北大团队表示可能与RL训练过程相关。文章最后呼吁对这一问题感兴趣的同学参与评选活动,关注科技前沿进展。
关键观点总结
关键观点1: 北大团队发现了一种能让DeepSeek和R1模型陷入无限思考的现象。
通过输入一段看似普通的文字,R1模型会无法输出中止推理标记,一直输出不停。这种现象还可以随着蒸馏被传递,多个版本的模型都会陷入无尽循环,直到达到设置的最大Token限制。
关键观点2: 这种现象类似于针对推理模型的DDoS攻击。
如果黑客滥用这种提示词,就会占用模型的大量算力资源,导致模型无法处理真正的请求。
关键观点3: 一些模型对过度推理有所防备,但仍存在风险。
在测试中发现,部分模型能够提前预判并防御这种情况,但也有模型会无限思考下去。这表明不同厂商对于这种现象的防备程度不同。
关键观点4: 这种现象的原因可能与RL训练过程相关。
北大团队表示,推理模型的训练过程中可能存在一些机制鼓励模型寻找更长的推理轨迹,导致在面对不清晰的问题时,模型会过度思考。
关键观点5: 解决策略包括限制推理时间或最大Token用量。
在实测过程中发现,强制限制推理时间或最大Token用量是一种可行的应急手段。但从长远来看,需要分析清楚原因并找到针对性的解决策略。
文章预览
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 只要一句话,就能让DeepSeek陷入无限思考 ,根本停不下来? 北大团队发现,输入一段看上去人畜无害的文字,R1就无法输出中止推理标记,然后一直输出不停。 强行打断后观察已有的思考过程,还会发现R1在不断重复相同的话。 而且这种现象 还能随着蒸馏被传递 ,在用R1蒸馏的Qwen模型上也发现了同样的现象。 7B和32B两个版本全都陷入了无尽循环,直到达到了设置的最大Token限制才不得不罢手。 如此诡异的现象,就仿佛给大模型喂上了一块“电子炫迈”。 这个发现,可以试探各家接入的R1模型是不是真满血。 但更严肃的问题是,只要思考过程不停,算力资源就会一直被占用,导致无法处理真正有需要的请求,如同 针对推理模型的DDoS攻击 。 实测:大模型有所防备,但百密难免一疏 这个让R1深陷思考无法自
………………………………