专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【纽约大学博士论文】从奖励中学习在文本生成中的应用,197页pdf

专知  · 公众号  ·  · 2024-07-14 14:00

文章预览

文本生成领域的进步源于管道中的每一个阶段:问题定义、数据整理、学习、解码和评估。本论文重点关注学习。传统的训练目标与评估目标之间存在不匹配:常规的最大似然估计(MLE)尝试最小化数据集中每个样本的交叉熵损失,但下游评估通常基于输入输出对的兼容性得分(例如,人类对输出的判断)。 我们的目标是通过直接优化生成文本的奖励来弥合这一差距 。 本论文包括以下部分 :(1) 奖励可能难以获得。为了解决社交对话中的这一挑战,我们从部署数据中提取隐式信号,而无需额外的人类注释。为了生成机器人的回应,我们优化未来人类回合中预测的正面反应。我们的方法总体上改进了机器人回应,但某些代理信号可能导致生成更多具有不良属性的文本。(2) 模型在学习中可能进展缓慢或没有进展,其中一个想法是获得更密集和更高质 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览