|
英伟达:上下文表示最多能够编码多远距离的上下文?压缩后训练权重量化的大模型扩展能力规律.... AI for Research · 公众号 · · 1 月前 · 访问文章快照 |
|
大规模数据选择再思考:随机选择几乎是你所需要的全部 | CoMAT:链条数学注释思维改进数学推理... AI for Research · 公众号 · · 1 月前 · 访问文章快照 |
|
Baichuan-Omni技术报告技术报告发布!关于更高维度RoPE注意力模型的令牌距离建模能力研究 AI for Research · 公众号 · · 1 月前 · 访问文章快照 |
|
Pixstral 12B多模态大模型论文上线!大模型内部词典的奥秘探索 | 大模型量化缩放规律... AI for Research · 公众号 · · 1 月前 · 访问文章快照 |
|
智源发布最新视频世界模型Emu3:仅预测下一个令牌,探索多模态智能的未来!如何选择最具影响力的训练子集:挑战、超越.... AI for Research · 公众号 · · 1 月前 · 访问文章快照 |
|
记忆女神:高效服务数百万上下文长度LLM推理请求的并行化策略!MIO:基于多模态令牌的基础模型 AI for Research · 公众号 · · 1 月前 · 访问文章快照 |
|
如何判别大模型是否秘密使用了你的数据?Time-MoE:百亿级时间序列基础模型的构建与预训练.... AI for Research · 公众号 · · 1 月前 · 访问文章快照 |
|
审核失败 AI for Research · 公众号 · · 1 月前 · 访问文章快照 |
|
探究语言模型中潜在思维链向量的发现 | 后续概率作为奖励信号对语言模型进行对齐 | 面向小时级视频理解的超长视觉语言模型... AI for Research · 公众号 · · 1 月前 · 访问文章快照 |
|
语言模型会通过RLHF误导人类?苹果发布最新研究用小模型初始化加速大模型的预训练... AI for Research · 公众号 · · 2 月前 · 访问文章快照 |
|
Qwen2.5系列模型论文发布:数学、代码、多模态全揭秘!长上下文扩展和大模型泛化的研究.... AI for Research · 公众号 · · 2 月前 · 访问文章快照 |
|
CPL:关键规划步骤学习提升LLM在推理任务中的泛化能力 AI for Research · 公众号 · · 2 月前 · 访问文章快照 |
|
斯坦福发布合成连续预训练方法!解决少样本学习特定事实问题 | 多模态模型的规模定律假设 | 复旦发布FuXi-2.0天气预报模型 AI for Research · 公众号 · · 2 月前 · 访问文章快照 |
|
基于真实数据来生成合成数据与筛选的方法研究 | 稳定语言模型预训练方法 | 更快的Speech-LLaMA推理:基于多令牌预测 AI for Research · 公众号 · · 2 月前 · 访问文章快照 |
|
谷歌发布20倍加速大模型的预训练方法:学习、专注和复习!LLaMA-Omni:与大模型无缝的语音交互... AI for Research · 公众号 · · 2 月前 · 访问文章快照 |