专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
今天看啥  ›  专栏  ›  黄建同学

DeepSeek AI最近的研究:引入专家专业微调 (ESFT)-20240710201603

黄建同学  · 微博  · AI  · 2024-07-10 20:16
    

文章预览

2024-07-10 20:16 本条微博链接 DeepSeek AI最近的研究:引入专家专业微调 (ESFT) 用于定制具有稀疏架构的 LLM!(P.S.如果你没试过DeepSeek,可以试试:deepseek.com) #ai# #chatgpt# 重点: - 仅为 LLM 定制训练任务相关的专家。 - 减少高达 90% 的存储量和高达 30% 的训练时间。 性能: - 有效定制 LLM,接近全参数微调 (FFT) 性能 (50.2 vs 51. 0) 。 - 与 FFT(31.5)和 LoRA(28.5)相比,在数学和代码任务中保持了高性能(39.8 vs 40.5)。 Let the Expert S ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览