AI工具导航

3月26日，OpenAI更新GPT-4o文生图功能，付费用户可在ChatGPT直接调用4o生成和修改图片。这一功能在多个方面超越同类产品，控制更简便精确，对相关行业影响巨大，同时也引发了是否未经许可使用吉卜力工作室作品的质疑。

GPT-4o文生图功能更新详情

3月26日，OpenAI更新GPT-4o文生图功能，付费用户自此可以在ChatGPT直接调用4o生成、修改图片，不必再使用OpenAI的文生图模型DALL-E。仅仅一天时间，近年影响较大的照片和meme图都被4o重做了一遍，其中最流行的是宫崎骏的画风。这一方面得益于宫崎骏对世界的卓越贡献，另一方面也是因为OpenAI的引导，阿尔特曼在GPT-4o新功能发布的直播里选择生成吉卜力风格的三人自拍照。其实GPT-4o生成其他风格效果通常也不错。

GPT-4o文生图功能优势显著

文生图并非新鲜事物，此前Midjourney、Stable Diffusion、Gemini 2.0等都有相关功能。但GPT-4o在多个领域明显超过所有对手，比如图像中的文字（尤其是英文）基本不再是乱码；以图生图时，画面细节更符合现实情况；修改图片时画面细节能保证较高的一致性。此外，GPT-4o对技术普及影响最大的可能是控制更容易也更精确，整个过程不再需要复杂、精确的提示词，像平时说话一样给修改建议就行。

对相关行业的巨大影响

文生图开源模型Stable Diffusion在2022年发布后，被制图、插画等行业引入工作，但因其本身不够可控，LoRA、ControlNet等技术及新创业公司应运而生以完善产品。而资深用户体验设计师章萧醇称，GPT-4o直接干翻了之前很多创业公司的产品，他们花大量时间、人力、资金调优的算法、工作流、模型，被一次大模型的更新取代。同时，AI科学家安德烈·卡帕斯提出因大模型变得过于强大，一种类似“Vibe Coding（氛围编程）”的新型编程方式正在兴起，GPT-4o的文生图功能就像是“Vibe Painting”。

技术原理探讨

Google和OpenAI发布新的文生图功能时，都未介绍技术细节。相对权威的是OpenAI研究员加布里埃尔·吴在直播中提到的两点：全模态的GPT-4o是基础，它有生成多种类型数据的能力；采用自回归方法，从左到右、从上到下顺序生成图像，而非多数图像生成模型使用的扩散模型技术。但清华大学NICS-EFC实验室博士生赵天辰认为，GPT-4o用自回归技术可能不是图像生成能力大幅提升的核心原因，而是OpenAI大幅提升了“文本-图像对齐”能力。目前开源文生图模型在引入文本控制信号上存在不足，而OpenAI用GPT-4o提升了模型理解文本特征和提示词的能力。

引发版权质疑

在GPT-4o图像生成器的助力下，大量吉卜力风格AI图像在社交媒体上被病毒式传播，OpenAI CEO山姆·奥特曼也将自己头像换成吉卜力风格图像。但这也引发质疑，OpenAI是否未经许可使用了吉卜力工作室的作品。虽然OpenAI未透露训练模型的具体数据，奥特曼表示引入新技术时在最初展示例子上花了很多心思，吉卜力工作室在北美的代表拒绝置评，而宫崎骏此前曾强烈反对人工智能动画，同时好莱坞演员等创意人士也对人工智能公司削弱版权作品保护力度表示担忧。

工具分类

OpenAI更新GPT-4o文生图功能，引发行业变革与版权质疑

GPT-4o文生图功能更新详情

GPT-4o文生图功能优势显著

对相关行业的巨大影响

技术原理探讨

引发版权质疑

百度智能云千帆平台、文小言APP接入DeepSeek-R1-0528模型

2025AI开发者大会(7月11日-7月12日)

2025全球人工智能技术大会(6月7日-6月8日)

快手可灵AI推出2.1系列模型：性价比高、速度快、质量提升

字节跳动上线AI产品“剪小映”App，功能适合小白用户但有局限

DeepSeek R1模型小版本试升级已完成！优化了这些方面

中国人民大学与蚂蚁集团联合推出多模态大语言模型LLaDA-V，性能优异将开源

腾讯混元发布并开源语音数字人模型HunyuanVideo - Avatar，助力视频创作

秘塔AI推出“极速”模型，响应速度达400 tokens/秒，实现AI搜索“秒回”

2025世界人工智能大会（7 月 26 日至 7月28 日）

工具分类

OpenAI更新GPT-4o文生图功能，引发行业变革与版权质疑

GPT-4o文生图功能更新详情

GPT-4o文生图功能优势显著

对相关行业的巨大影响

技术原理探讨

引发版权质疑

相关文章

OpenAI推出ChatGPT团队内部知识集成测试版，首推Google Drive连接器

2025全球人工智能技术大会(6月7日-6月8日)

快手可灵AI推出2.1系列模型：性价比高、速度快、质量提升

面壁智能CEO李大海：端侧AI不等于端侧模型，大模型将更强更小

百度智能云千帆平台、文小言APP接入DeepSeek-R1-0528模型

人民网发布首款智能硬件“AI之眼”1.0，提供智能导览服务

百度智能云千帆平台、文小言APP接入DeepSeek-R1-0528模型

2025AI开发者大会(7月11日-7月12日)

2025全球人工智能技术大会(6月7日-6月8日)

快手可灵AI推出2.1系列模型：性价比高、速度快、质量提升

字节跳动上线AI产品“剪小映”App，功能适合小白用户但有局限

DeepSeek R1模型小版本试升级已完成！优化了这些方面

中国人民大学与蚂蚁集团联合推出多模态大语言模型LLaDA-V，性能优异将开源

腾讯混元发布并开源语音数字人模型HunyuanVideo - Avatar，助力视频创作

秘塔AI推出“极速”模型，响应速度达400 tokens/秒，实现AI搜索“秒回”

2025世界人工智能大会（7 月 26 日至 7月28 日）