主要观点总结
本文主要报道了谷歌DeepMind实验室推出的Veo 2视频生成模型和Imagen 3图像模型,以及图森未来发布的图生视频大模型“Ruyi”,还有关于智谱融资、字节跳动与中兴通讯的合作传闻、我国科学家建立生成式模型为医学AI训练提供技术支持等相关信息。
关键观点总结
关键观点1: 谷歌DeepMind推出Veo 2和Imagen 3
旨在提升视频和图像创作的真实感和个性化体验,挑战OpenAI在AI生成领域的领先地位。其中Veo 2能生成高质量视频,支持多样化主题和风格,Imagen 3在图像构图和细节准确性方面得到增强。
关键观点2: 图森未来发布图生视频大模型“Ruyi”
正式推出基于DiT架构的图生视频模型Ruyi,包括Casual VAE模块和Diffusion Transformer两部分,可压缩和解压视频数据并生成压缩后的视频。模型总参数量约为7.1B,使用了约200M个视频片段进行训练。
关键观点3: 智谱完成新一轮融资及商业化进展
智谱近期完成新一轮三十亿人民币融资,将用于GLM大模型系列的进一步研发,以支持行业生态发展。今年商业化收入增长超过100%。
关键观点4: 字节跳动与中兴通讯合作传闻
针对网传的豆包大模型与中兴手机合作消息,豆包相关负责人回应称消息不实,表示豆包大模型已与许多手机有深度合作,但未与中兴通讯探讨过成立新品牌的可能性。
关键观点5: 我国科学家建立生成式模型为医学AI提供支持
北京大学与温州医科大学的研究团队建立了生成式多模态跨器官医学影像基础模型(MINIM),可合成高质量医学影像数据,为医学影像大模型的训练、精准医疗及个性化诊疗提供技术支持。成果已在国际权威期刊《自然·医学》上发表。
文章预览
1.【谷歌DeepMind推出Veo 2和Imagen 3,革新AI视频图像生成】谷歌DeepMind实验室近日推出Veo
2视频生成模型和Imagen 3图像模型,旨在提升视频和图像创作的真实感和个性化体验,挑战OpenAI在AI生成领域的领先地位。Veo
2能生成高质量视频,支持多样化主题和风格,而Imagen
3在图像构图和细节准确性方面得到增强。此外,谷歌还推出了Whisk工具,结合Imagen 3和Gemini能力,提供创意设计服务。(一财网) 2. 【 图森未来正式发布图生视频大模型“Ruyi” 】 12月17日消息,图森未来宣布正式发布图生视频大模型“Ruyi”,并将Ruyi-Mini-7B版本正式开源,用户可以从huggingface上下载使用。据介绍,Ruyi是一个基于DiT架构的图生视频模型,它由两部分构成:一个Casual VAE模块负责视频数据的压缩和解压,一个Diffusion Transformer负责压缩后的视频生成。模型的总参数量约为7.1B,使
………………………………