文章预览
在"AI+能源"的浪潮中,DeepSeek-R1 671B 满血版凭借强大的推理能力,在能源领域达到了人类专家的水平,如:投资、调度、运营、交易、预测与实时决策等复杂任务中表现出色。但对于用户部署 DeepSeek-R1 671B满血版模型,在推理任务中需要消耗海量算力,如果云端调用API则存在数据安全风险。为此很多用户选择在本地部署第三方蒸馏版本的14B、32B等小模型,虽然满足了轻量化的需求,但在推理能力上难以满足能源业务场景的要求。 针对以上挑战,达卯团队基于自研14B能源大模型 EneBlockLLM-14B,复现李飞飞研究团队公布的论文《s1: Simple test-time scaling》的方法,蒸馏出全新的推理模型 EneBlockLLM-R1-14B。该模型专为能源行业高频调度、高频交易场景量身打造,通过知识蒸馏将大模型的能力精准迁移至小模型,利用测试时计算扩展(Test-Time Scaling)技术动态优
………………………………