LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

机器学习研究组订阅 · 公众号 · AI · 2024-11-14 19:57

主要观点总结

本文介绍了字节推出的分层大语言模型（HLLM）在推荐系统中的应用。文章详细阐述了HLLM的背景、方法、实验、问题及消融研究。HLLM旨在利用大语言模型提取物品特征并建模用户兴趣，有效地集成预训练知识到推荐系统中。该方法在公开数据集上取得了显著效果，并在实际场景中进行了验证。

关键观点总结

关键观点1: 背景

传统推荐系统存在的问题以及LLM在推荐系统中的应用背景。

关键观点2: 方法

HLLM分为Item LLM和User LLM，两者参数并不共享。Item LLM使用物品的描述作为输入，User LLM使用用户历史交互序列作为输入。HLLM同时应用了生成式推荐和判别式推荐。

关键观点3: 实验

HLLM在公开数据集上的实验效果比SASRec和HSTU都要好。在线A/B实验验证了HLLM的实际效果和适用性。

关键观点4: 问题和消融研究

文章提出了关于微调、Scaling特性、与SoTA方法对比、训练和Serving效率等问题，并进行了相应的消融研究。

文章预览

前几个月 Meta HSTU 点燃各大厂商对 LLM4Rec 的热情，一时间，探索推荐领域的 Scaling Law、实现推荐的 ChatGPT 时刻、取代传统推荐模型等一系列话题让人兴奋，然而理想有多丰满，现实就有多骨感，尚未有业界公开真正复刻 HSTU 的辉煌。这里面有很多原因，可能是有太多坑要踩，也有可能是 Meta HSTU 的基线较弱，导致国内已经卷成麻花的推荐领域难以应用 HSTU 产生突破性效果。然而做起来困难并不代表不去做，总要有真的勇士率先攻克难关迈出一步。字节前几天（2024.9.19 发布 arxiv）公开的工作 ⌜HLLM⌟（分层大语言模型）便是沿着这一方向的进一步探索，论文内也提及了 follow HSTU：论文题目： HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling 论文链接： https://arxiv.org/abs/2409.12740 代码链接： https://github.com/bytedance/HLLM 这 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博