|
SGLang DP MLA 特性解读 极市平台 · 公众号 · · 昨天 · 访问文章快照 |
|
不要学编程!大佬警告别报AI专业,全美15万IT精英被裁员,CS毕业即失业 极市平台 · 公众号 · · 昨天 · 访问文章快照 |
|
一个有趣却撤稿 ICLR 2025 的工作:并非所有扩散模型噪声本质相同 极市平台 · 公众号 · · 昨天 · 访问文章快照 |
|
ICLR 2025 | 多模态大模型能否胜任工业异常检测?MMAD基准揭示真相 极市平台 · 公众号 · · 昨天 · 访问文章快照 |
|
谈谈DeepSeek-R1满血版推理部署和优化 极市平台 · 公众号 · · 2 天前 · 访问文章快照 |
|
DeepSeek R1不编程就能生成GPU内核,比熟练工程师好,惊到了英伟达 极市平台 · 公众号 · · 2 天前 · 访问文章快照 |
|
ICLR 2025|如何在ImageNet-1K上训练视觉基础模型? 极市平台 · 公众号 · · 2 天前 · 访问文章快照 |
|
准确率最高只有48%?现有多模态大模型迎来大考!小红书 & 上海交大发布WorldSense基准 极市平台 · 公众号 · · 2 天前 · 访问文章快照 |
|
浅析主流 Alignment 算法与 NeMo-Aligner 框架 极市平台 · 公众号 · · 3 天前 · 访问文章快照 |
|
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神 极市平台 · 公众号 · · 3 天前 · 访问文章快照 |
|
一文搞懂DeepSeek的技术演进之路:大语言模型、视觉语言理解、多模态统一模型 极市平台 · 公众号 · · 3 天前 · 访问文章快照 |
|
大模型轻量化系列解读 (七)|厦门大学纪荣嵘团队提出AffineQuant:LLM 的仿射变换量化 极市平台 · 公众号 · · 3 天前 · 访问文章快照 |
|
实践教程|CUDA C++编程指北-编程接口与硬件实现 极市平台 · 公众号 · · 4 天前 · 访问文章快照 |
|
Claude 4要来了?Anthropic发布38页经济指数报告,43%人类工作正被AI取代! 极市平台 · 公众号 · · 4 天前 · 访问文章快照 |
|
仅128个token达到ImageNet生成SOTA性能!MAETok:有效的扩散模型的关键是什么? 极市平台 · 公众号 · · 4 天前 · 访问文章快照 |
|
ICLR 2025 | 极性感知线性注意力!PolaFormer:全新视觉基础模型 极市平台 · 公众号 · · 5 天前 · 访问文章快照 |
|
Deepseek R1 Zero成功复现全过程:三阶段RL,Response长度涨幅超50%,涌现语言混杂 极市平台 · 公众号 · · 5 天前 · 访问文章快照 |
|
ICLR 2025 高分论文!何恺明和刘壮提出:数据集偏差的十年之战 极市平台 · 公众号 · · 5 天前 · 访问文章快照 |