主要观点总结
本文介绍了字节推出的分层大语言模型(HLLM)在推荐系统中的应用。文章详细阐述了HLLM的背景、方法、实验、问题及消融研究。HLLM旨在利用大语言模型提取物品特征并建模用户兴趣,有效地集成预训练知识到推荐系统中。该方法在公开数据集上取得了显著效果,并在实际场景中进行了验证。
关键观点总结
关键观点1: 背景
传统推荐系统存在的问题以及LLM在推荐系统中的应用背景。
关键观点2: 方法
HLLM分为Item LLM和User LLM,两者参数并不共享。Item LLM使用物品的描述作为输入,User LLM使用用户历史交互序列作为输入。HLLM同时应用了生成式推荐和判别式推荐。
关键观点3: 实验
HLLM在公开数据集上的实验效果比SASRec和HSTU都要好。在线A/B实验验证了HLLM的实际效果和适用性。
关键观点4: 问题和消融研究
文章提出了关于微调、Scaling特性、与SoTA方法对比、训练和Serving效率等问题,并进行了相应的消融研究。
文章预览
前几个月 Meta HSTU 点燃各大厂商对 LLM4Rec 的热情,一时间,探索推荐领域的 Scaling Law、实现推荐的 ChatGPT 时刻、取代传统推荐模型等一系列话题让人兴奋,然而理想有多丰满,现实就有多骨感,尚未有业界公开真正复刻 HSTU 的辉煌。这里面有很多原因,可能是有太多坑要踩,也有可能是 Meta HSTU 的基线较弱,导致国内已经卷成麻花的推荐领域难以应用 HSTU 产生突破性效果。 然而做起来困难并不代表不去做,总要有真的勇士率先攻克难关迈出一步。字节前几天(2024.9.19 发布 arxiv)公开的工作 ⌜HLLM⌟(分层大语言模型)便是沿着这一方向的进一步探索,论文内也提及了 follow HSTU: 论文题目: HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling 论文链接: https://arxiv.org/abs/2409.12740 代码链接: https://github.com/bytedance/HLLM 这
………………………………