|
DPO vs PPO:深度解读谁是LLM Alignment的未来 吃果冻不吐果冻皮 · 公众号 · · 4 天前 · 访问文章快照 |
|
工业界主流大语言模型后训练(Post-Training)技术总结 吃果冻不吐果冻皮 · 公众号 · · 6 天前 · 访问文章快照 |
|
大模型量化技术原理:总结 吃果冻不吐果冻皮 · 公众号 · · 1 周前 · 访问文章快照 |
|
智人之上,智能崛起,人类智能是怎么进化出来的? 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · 访问文章快照 |
|
白话版Scaling Laws for Precision 解读 吃果冻不吐果冻皮 · 公众号 · · 2 周前 · 访问文章快照 |