今天看啥  ›  专栏  ›  雷峰网

微软分享史上最大基于Transformer架构的语言生成模型 | 雷锋网

雷峰网  · 公众号  · 科技媒体  · 2020-02-11 08:24

文章预览

英伟达的“威震天”现在只能屈居第二了。   文 | 周蕾  微软AI&Research今天分享了有史以来最大的基于Transformer架构的语言生成模型Turing NLG(下文简称为T-NLG),并开源了一个名为DeepSpeed的深度学习库,以简化对大型模型的分布式培训。 基于Transformer的架构,意味着该模型可以生成单词来完成开放式文本任务。 除了完成未完成的句子外,它还可以生成对输入文档的问题和摘要的直接答案。 去年8月,英伟达曾宣布已训练世界上最大的基于Transformer的语言模型,当时该模型使用了83亿个参数,比BERT大24倍,比OpenAI的GPT-2大5倍。 而此次微软所分享的模型,T-NLG的参数为170亿个,是英伟达的Megatron(现在是第二大Transformer模型)的两倍,其参数是OpenAI的GPT-2的十倍。 微软表示 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览