这个 AI 生图神器太好玩了，连提示词都不用写

APPSO · 公众号 · app · 2024-12-21 12:00

主要观点总结

Google最新推出的AI生图工具Whisk，通过输入主题、场景和风格图片，能够生成一张融合多种元素的图片。Whisk减少了写提示词的需求，让用户轻松玩转各种风格，并具有多种玩法和生成特点。它整合了视觉理解和图片生成能力，是Google多模态模型的一种展示。然而，Whisk也存在一些问题，如无法完全复制图片、存在不精准之处，更适合创意探索而非精细的风格参考。

关键观点总结

关键观点1: Whisk的主要功能

输入主题、场景、风格图片，生成融合多种元素的图片，减少写提示词的需求，轻松玩转各种风格。

关键观点2: Whisk的玩法特点

玩法简单且无穷无尽，用户可以上传自己的图片并参考预设风格，或使用随机生成的主题、场景、风格。

关键观点3: Whisk的技术原理

整合了视觉理解和图片生成能力，使用Gemini模型识别图片并自动生成描述，再输入到Google的图片生成模型Imagen 3进行生图。

关键观点4: Whisk存在的问题

无法完全复制图片，存在不精准之处，更适合创意探索而非精细的风格参考。对某些特定画风或细节模仿能力有限。

关键观点5: Google的AI实验室

Google实验室展现出强大的模型能力、有新意的产品和开放的心态，曾推出其他受欢迎的AI项目如NotebookLM。

文章预览

AI 生图工具，已经多得泛滥了，但 Google 最新推出的 Whisk，还是找到了一种很新的玩法，让见过世面的网友也直呼好玩。只需输入三张图片，subject（主题）、scene（场景）、style（风格），Whisk 就可以生成一张博采众长的图片。图片来自：Google 举个例子，主题是老人，场景是藤蔓，风格是 90 年代复古动漫，写上「角色骑着飞行自行车」的提示词，等待一会儿，一张类似吉卜力画风的新图片诞生了。图片来自：Google 老人还是那个老人，戴帽子，穿西装，拿着书，但他骑上了提示词里的车，场景和风格也都变成了参考图片的样子。 Whisk 的长处便在这里——让我们少写、不写提示词的同时，轻松玩转各种风格，妈妈再也不担心我不会写提示词了。关注 AI 第一新媒体，率先获取 AI 前沿资讯和洞察别写复杂的提示词了，直接把图片端上来就行别看只需 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博