xAI大模型Grok-2上线，支持文生图；Sakana AI推出首个AI科学家，已经发了10篇论文...

第一财经YiMagazine · 公众号 · 财经 · 2024-08-18 21:44

主要观点总结

本周在AI领域有众多重要进展和应用上线，包括xAI大模型Grok-2上线支持文生图功能、昆仑万维发布全球首个AI流媒体音乐平台Melodio、讯飞智文2.0上线强化PPT生成能力、Sakana AI推出首个AI科学家、Google DeepMind训练的机器人进行乒乓球比赛、阿里通义开源音频语言模型Qwen2-Audio等。

关键观点总结

关键观点1: xAI大模型Grok-2上线，支持文生图功能。

Grok-2模型通过一系列学术基准评估，在推理、阅读理解、数学、科学和编码等方面有显著改进。该模型目前可供社交平台X上的Premium和Premium+付费用户使用，并融合了图像模型FLUX.1。

关键观点2: 昆仑万维发布全球首个AI流媒体音乐平台Melodio。

Melodio能够根据用户的心情、场景等输入提示词，生成并播放特定风格的定制化音乐。该平台还推出了AI音乐商用创作平台Mureka，支持用户创作和出售音乐。

关键观点3: 讯飞智文2.0正式上线，强化PPT生成能力。

基于讯飞星火V4.0大模型，该应用支持PPT一键生成，具备文本生成、AI PPT编排创作引擎和AI PPT在线编辑模组三大技术升级。

关键观点4: Sakana AI推出首个AI科学家，已发表10篇论文。

这个AI科学家系统能够自动化科学研究和开放式发现，已经生成了10篇完整的学术论文。该系统由想法生成、实验迭代、撰写论文和自动审稿四个部分组成。

关键观点5: Google DeepMind训练的机器人在乒乓球比赛中与人类选手有来有回。

机器人由ABB开发的工业机器人手臂IRB 1100装上3D打印的球拍和定制软件组成，能够与人类业余选手进行乒乓球比赛。机器人面临高低球、反手以及乒乓球旋转时的击球缺陷。

关键观点6: 阿里通义开源音频语言模型Qwen2-Audio。

Qwen2-Audio是一款大型音频语言模型（LALM），具备语音聊天和音频分析两种使用模式，支持多种语言和方言。阿里云选择开源模型的路线，以吸引更多开发者。

文章预览

撰文：杨秋秋、王小淳、徐弢编辑：王杰夫 Key Points 本周应用与模型 xAI大模型Grok-2上线，支持文生图；昆仑万维发布全球首个AI流媒体音乐平台Melodio，想听什么歌AI生成；讯飞智文2.0正式上线，强化PPT生成能力； Sakana AI推出首个AI科学家，已经发了10篇论文； Google DeepMind训练的机器人在乒乓球比赛中与人类选手有来有回；阿里通义开源音频语言模型Qwen2-Audio。本周应用 xAI大模型Grok-2上线，支持文生图 8月15日，xAI宣布推出Grok-2和Grok-2 mini测试版，在聊天、编码和推理能力上有所提升。两款模型目前可供社交平台X上的Premium和Premium+付费用户使用。两款模型还融合了图像模型FLUX.1，所以支持文生图功能。据用户反馈，该产品的人为限制较少，例如它可以直接创建政治人物图片。在回答问题时，Grok-2还会搜索并结合X的用户发布的内容来回复用户的问 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博