主要观点总结
Google最新推出的AI生图工具Whisk,通过输入主题、场景和风格图片,能够生成一张融合多种元素的图片。Whisk减少了写提示词的需求,让用户轻松玩转各种风格,并具有多种玩法和生成特点。它整合了视觉理解和图片生成能力,是Google多模态模型的一种展示。然而,Whisk也存在一些问题,如无法完全复制图片、存在不精准之处,更适合创意探索而非精细的风格参考。
关键观点总结
关键观点1: Whisk的主要功能
输入主题、场景、风格图片,生成融合多种元素的图片,减少写提示词的需求,轻松玩转各种风格。
关键观点2: Whisk的玩法特点
玩法简单且无穷无尽,用户可以上传自己的图片并参考预设风格,或使用随机生成的主题、场景、风格。
关键观点3: Whisk的技术原理
整合了视觉理解和图片生成能力,使用Gemini模型识别图片并自动生成描述,再输入到Google的图片生成模型Imagen 3进行生图。
关键观点4: Whisk存在的问题
无法完全复制图片,存在不精准之处,更适合创意探索而非精细的风格参考。对某些特定画风或细节模仿能力有限。
关键观点5: Google的AI实验室
Google实验室展现出强大的模型能力、有新意的产品和开放的心态,曾推出其他受欢迎的AI项目如NotebookLM。
文章预览
AI 生图工具,已经多得泛滥了,但 Google 最新推出的 Whisk,还是找到了一种很新的玩法,让见过世面的网友也直呼好玩。 只需输入三张图片,subject(主题)、scene(场景)、style(风格),Whisk 就可以生成一张博采众长的图片。 图片来自:Google 举个例子,主题是老人,场景是藤蔓,风格是 90 年代复古动漫,写上「角色骑着飞行自行车」的提示词,等待一会儿,一张类似吉卜力画风的新图片诞生了。 图片来自:Google 老人还是那个老人,戴帽子,穿西装,拿着书,但他骑上了提示词里的车,场景和风格也都变成了参考图片的样子。 Whisk 的长处便在这里——让我们少写、不写提示词的同时,轻松玩转各种风格,妈妈再也不担心我不会写提示词了。 关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察 别写复杂的提示词了,直接把图片端上来就行 别看只需
………………………………