刚刚，OpenAI 发布生图神器狙击 Google！一句话 P 图奥特曼现场玩梗，免费能用

APPSO · 公众号 · app · 2025-03-26 06:59

主要观点总结

本文主要介绍了OpenAI在GPT-4o模型中集成了先进的图像生成器的新功能，包括精确渲染文本内容、多模态输入输出、理解复杂指令、创建具有真实感的第一人称视角图像等。文章还提到了该模型与其他图像生成模型的区别和优势，以及OpenAI对于生成图像的安全性和问题优化方面的措施。

关键观点总结

关键观点1: OpenAI宣布在GPT-4o模型中集成图像生成器

该功能能够精确渲染文本内容，支持多模态输入输出，理解复杂指令，并创建具有真实感的第一人称视角图像。

关键观点2: GPT-4o模型与其他图像生成模型的区别和优势

GPT-4o模型可以处理多达10-20个不同物体的复杂指令，远超竞争对手的限制。此外，该模型支持多轮图像生成，并能在聊天中优化图像，确保角色等元素在多次迭代中保持一致性。

关键观点3: OpenAI关于生成图像的安全性和问题优化措施

所有生成图像都带有C2PA元数据标识，OpenAI还构建了内部搜索工具以验证内容来源并阻止违反内容政策的图像请求。当要求生成真人图像时，OpenAI会实施更严格的管理措施。

关键观点4: GPT-4o模型的新功能已向部分用户开放，开发者也可通过API使用

该功能已经向Plus、Pro、Team和免费用户开放，Enterprise和Edu用户也将很快获得访问权限。开发者们几周后也能通过API使用这项功能。

关键观点5: Google发布新模型，OpenAI与Google在AI领域的竞争日益激烈

Google于凌晨发布了迄今为止最强大的AI模型Gemini 2.5 Pro Experimental。OpenAI的新模型旨在回击Google上周发布的图像模型，并在多个基准测试中领先。

文章预览

就在刚刚，OpenAI 宣布在 GPT-4o 模型中集成了迄今为止最先进的图像生成器。 OpenAI CEO Sam Altman 在 X 平台继续夸夸群主上线，表示初次见到模型生成的图片时，难以相信是 AI 所为，并期待用户能发挥创意。新功能亮点如下：能够精确渲染文本内容支持多模态输入输出(文本、图像、音频) 能理解复杂指令并结合上下文能创建具有真实感的第一人称视角图像遵循指令，可以处理上传的图片并进行编辑或风格转换先来感受一下新模型生成的图片：向左滑动查看更多内容最新版本的系统卡写到，与作为扩散模型的 DALL·E 不同，4o 图像生成是一个自回归模型，原生嵌入在 ChatGPT 中。具体来说，比起其他图像生成模型，GPT-4o 能处理多达 10-20 个不同物体的复杂指令，远超竞争对手 5-8 个的限制，差距不是一般大。一句话 P 图也行，该模型同样支持多轮图像 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博