文章预览
全文共约8k字。 本专栏的论文选读是 面向那些不从0训练LLM的读者 , 例如中间件层、应用层的从业者等。 1、论文及链接 本次推荐的《Physics of Language Models》实际上是一个系列,目前公开的文章如下: Part 1, Learning Hierarchical Language Structures https://arxiv.org/abs/2305.13673 Part 2,文章会于近期发布。 Part 3.1, Knowledge Storage and Extraction https://arxiv.org/abs/2309.14316 Part 3.2, Knowledge Manipulation https://arxiv.org/abs/2309.14402 Part 3.3, Knowledge Capacity Scaling Laws https://arxiv.org/abs/2404.05405 作者的其他文章可以通过以下链接查看: https://arxiv.org/search/cs?searchtype=author =Allen-Zhu,+Z 作者之前也对该系列进行了分享,并在最近的ICML 2024会议上做了一个整合报告,其中包括了Part 2的内容。考虑到读者的时间,我推荐观看该整合报告的视频即可,链接如下: https://www.bilibili.com/video/BV1Yw4m1k7nH/ 2
………………………………