文章预览
01 引言 2024.9.20 中国电信人工智能研究院(TeleAI)开源TeleChat2-115B模型, 该模型是首个完全国产算力训练并开源的千亿参数模型。 星辰语义大模型TeleChat2是由 T eleAI 研发训练的大语言模型,该系列模型完全基于国产算力训练。 本次开源TeleChat2-115B模型采用10万亿 Tokens中英文高质量语料进行训练,同步开源对话模型TeleChat2-115B的多格式、多平台权重文件。 TeleChat2在训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比TeleChat1均有大幅提升。 TeleChat2完全基于国产算力和国产深度学习框架进行训练,算力和算法框架更自主可控。优化MP、PP、SP实现方式提升模型性能,优化算子来提升训练速度。 研究团队使用大量小模型实验来验证scaling law规律,在不同模型结构、不同数据配比和数据清洗方式中寻找最优设计。 采用RingA
………………………………