多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

量子位 · 公众号 · AI · 2024-11-20 11:58

文章预览

港科大博士金逸伦投稿量子位 | 公众号 QbitAI 谁是在线购物领域最强大模型？也有评测基准了。基于真实在线购物数据，电商巨头亚马逊终于“亮剑”—— 联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准 Shopping MMLU ，用以评估大语言模型在在线购物领域的能力与潜力。一直以来，想要完整建模在线购物相当复杂，主要痛点是：多任务性：在线购物中存在多样的实体（例如商品、属性、评论、查询关键词等）、关系（例如关键字和商品的匹配度，商品和商品之间的兼容性、互补性）和用户行为（浏览、查询、和购买）。对这些实体、关系和行为和联合建模与理解构成一个复杂的多任务（multi-task）学习问题。少样本性：在线购物平台会不断面临新用户、新商品、新商品品类等带来的冷启动（cold-start）场景。在冷启动场景下 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博