文章预览
点击上方“ 图灵人工智能 ”,选择“星标”公众号 您想知道的人工智能干货,第一时间送达 转自 新智元 编辑:Aeneas 好困 【导读】 提示工程师Riley Goodside小哥,依然在用「Strawberry里有几个r」折磨大模型们,GPT-4o在无限次PUA后,已经被原地逼疯!相比之下,Claude坚决拒绝PUA,是个大聪明。而谷歌最近的论文也揭示了本质原因:LLM没有足够空间,来存储计数向量。 Strawberry里究竟有几个r,如今已经成为测试模型能力的黄金标准之一了! 就在昨天,号称世界最强模型Reflection 70B在证明自己的性能时,证据之一就是「反思微调」新算法能让自己纠正对Strawberry难题的错误回答。 很多人说,现在很多大模型已经学会数strawberry中有几个r了。 现实恐怕没有这么理想。 还是Riley Goodside小哥,这次又发现,ChatGPT依然数不清Strawberr
………………………………