斯坦福新作：无指令调优的指令遵循

机器之心 · 公众号 · AI · 2024-09-26 07:05

文章预览

机器之心报道编辑：杜伟、陈陈指令调优（Instruction tuning）是一种优化技术，通过对模型的输入进行微调，以使其更好地适应特定任务。先前的研究表明，指令调优样本效率是很高效的，只需要大约 1000 个指令-响应对或精心制作的提示和少量指令-响应示例即可。本文中，来自斯坦福大学的研究者更进一步探索了这样一种想法，即指令遵循甚至可以隐式地从语言模型中产生，即通过并非明确设计的方法产生。本文发现了两种执行隐式指令调优的适应形式，与显式指令调优相比，它们似乎存在缺陷：（1）响应调优，仅对响应进行训练；（2）单任务调优，仅对来自狭窄目标领域的数据进行训练，如诗歌生成。论文标题：Instruction Following without Instruction Tuning 论文地址：https://arxiv.org/pdf/2409.14254 博客地址：https://nlp.stanford.edu/~johnhew/instruction-following.html ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【gradio-webrtc：基于Gradio的WebRTC实时-20241122195733

昨天

宝玉xp · AI辅导作业👍//@fxsome:给孩子整理错题，错题大都是图-20241119074130

4 天前

人工智能那点事 · 包月高达3万元！陪聊、哄睡流行，“情绪消费”还是涉黄服务？

5 天前

爱可可-爱生活 · 本文通过将语言模型建模为广义结构方程模型并提出一种新的反事实生成-20241118060436

5 天前

宝玉xp · 回复@一果阿:主要是这例子AI写不出来吧//@一果阿:干货满满然-20241117011843

1 周前

沧州市中心医院医疗集团 · “无废城市”宣传科普⑦ ‖ 快递包装逐“绿”前行

4 月前

21世纪经济报道 · 莫斯科，突发！

3 月前

神嘛事儿 · 果然带个围巾是对的，北京这种灌风冷不带围巾要感冒我一出舱门，马上-20241104203933

2 周前