豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

量子位 · 公众号 · AI · 2024-12-19 17:45

主要观点总结

本文主要介绍了豆包大模型的最新升级，包括视觉理解模型、语言模型和语音大模型的能力提升，以及在实际应用中的表现和数据。文章通过多个场景化的比试，展示了豆包大模型在视觉、理解和推理方面的优势，并介绍了其在实际应用中的表现，如生成代码、识别图像、处理数学题目、提取表格数据等。此外，文章还介绍了豆包大模型的“说”、“唱”能力的升级和在实际应用中的应用情况。

关键观点总结

关键观点1: 豆包大模型的升级包括视觉理解模型、语言模型和语音大模型的能力提升。

视觉理解模型能够支持图像识别、描述和创作；语言模型在综合能力、数学能力、专业知识和代码能力上有所提升；语音大模型现在可以生成三分钟完整音乐，支持用图片作曲。

关键观点2: 豆包大模型在实际应用中的表现优异。

豆包大模型已经应用于多个行业，如科教、金融、医疗、企业服务和汽车等。其日均tokens使用量已经突破4万亿大关，显示出市场和用户的广泛接受程度。

关键观点3: 豆包大模型的“说”、“唱”能力得到升级。

大语言模型方面，豆包的通用模型pro综合能力有所提升；语音大模型方面，现在可以生成三分钟音乐，支持用图片作曲。

关键观点4: HiAgent和扣子为豆包大模型的快速落地提供支持。

HiAgent提供超100个行业应用模板和GraphRAG技术，扣子拥有百万开发者和丰富生态，两者都能缩短开发与部署时间，使豆包大模型能够轻松实现AI能力的无缝嵌入。

文章预览

金磊发自上海量子位 | 公众号 QbitAI 豆包的“眼睛”升级了，现在让它看一眼 APP截图，就能直接给你生成代码！话不多说，我们直接给它上一个难度。例如我们先随机截取一张网站的图片：再来到火山方舟的大模型广场，pick一下最新的Doubao-vision-pro-32k版本：（PS：该模型也可以在豆包APP中体验）然后把刚才的截图“喂”给豆包，并附上一句简单的Prompt：帮我写代码，克隆这个APP。只见豆包先是秒看出这是一个音乐APP的界面，紧接着就唰唰唰地敲起了代码。从代码的功能上来，包括了菜单栏、播放列表框架、播放列表列表框和状态栏。模拟的播放列表中包含了几首歌曲的信息，包括标题、艺术家、时长和点赞数等。而且这些都是在不到30秒内完成的。若是想实现更复杂的功能，我们也是可以继续用说的：那继续帮我实现更复杂的音乐 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博