微软分享史上最大基于Transformer架构的语言生成模型 | 雷锋网

雷峰网 · 公众号 · 科技媒体 · 2020-02-11 08:24

文章预览

英伟达的“威震天”现在只能屈居第二了。文 | 周蕾微软AI＆Research今天分享了有史以来最大的基于Transformer架构的语言生成模型Turing NLG（下文简称为T-NLG），并开源了一个名为DeepSpeed的深度学习库，以简化对大型模型的分布式培训。基于Transformer的架构，意味着该模型可以生成单词来完成开放式文本任务。除了完成未完成的句子外，它还可以生成对输入文档的问题和摘要的直接答案。去年8月，英伟达曾宣布已训练世界上最大的基于Transformer的语言模型，当时该模型使用了83亿个参数，比BERT大24倍，比OpenAI的GPT-2大5倍。而此次微软所分享的模型，T-NLG的参数为170亿个，是英伟达的Megatron（现在是第二大Transformer模型）的两倍，其参数是OpenAI的GPT-2的十倍。微软表示 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

36氪 · 女掌门上任后，海天涨了430亿

昨天

新浪科技 · 【#与其做放假聪明人不如呼唤带薪休假#】国庆假期如约开启，毫不意-20241002134000

3 天前

新浪科技 · 【#雷军盛赞比亚迪大疆#】刚刚，雷军演讲祝福祖国#雷军国庆演讲#-20241001114502

4 天前

新浪科技 · 【10月起，这些新规施行】#一线城市房地产新政组合拳陆续落地# -20241001075054

5 天前

新浪科技 · 【#OpenAI新一轮融资即将完成##OpenAICFO称高管离-20240927201000

1 周前