文章预览
🏆基座模型 ①项目:Awaker ★ Awaker是由Metabrain AGI开发的一系列多模态大模型,包括多模态大语言模型Awaker-VL、多模态检索模型Awaker-Sou和视频生成模型Awaker-Gen。 该项目旨在通过专家混合的方式稳定高效地扩展基础多模态大语言模型,已在MME-Realworld和MMBench等基准测试中取得了新的最先进成果。 ☆一键收藏: https://sota.jiqizhixin.com/project/Awaker ②项目:Modded-NanoGPT ★ modded-nanogpt 是一个基于 PyTorch 的 GPT-2 模型训练器的修改版本,旨在通过现代化的架构和优化技术实现更高效的训练。 该项目在 8xH100 GPU 上仅需 5 分钟即可完成 1B tokens 的训练,相较于传统方法大幅缩短了时间。 项目采用了旋转嵌入、QK-Norm、ReLU^2 等技术 ,并引入了新的优化器 Muon,显著提升了训练速度和效率。 ☆一键收藏: https://sota.jiqizhixin.com/project/modded-nanogpt 🛠️框架平台、必备工具
………………………………