OpenAI更新GPT-4o文生图功能,引发行业变革与版权质疑

OpenAI_gpt4o1

3月26日,OpenAI更新GPT-4o文生图功能,付费用户可在ChatGPT直接调用4o生成和修改图片。这一功能在多个方面超越同类产品,控制更简便精确,对相关行业影响巨大,同时也引发了是否未经许可使用吉卜力工作室作品的质疑。

GPT-4o文生图功能更新详情

3月26日,OpenAI更新GPT-4o文生图功能,付费用户自此可以在ChatGPT直接调用4o生成、修改图片,不必再使用OpenAI的文生图模型DALL-E。仅仅一天时间,近年影响较大的照片和meme图都被4o重做了一遍,其中最流行的是宫崎骏的画风。这一方面得益于宫崎骏对世界的卓越贡献,另一方面也是因为OpenAI的引导,阿尔特曼在GPT-4o新功能发布的直播里选择生成吉卜力风格的三人自拍照。其实GPT-4o生成其他风格效果通常也不错。

GPT-4o文生图功能优势显著

文生图并非新鲜事物,此前Midjourney、Stable Diffusion、Gemini 2.0等都有相关功能。但GPT-4o在多个领域明显超过所有对手,比如图像中的文字(尤其是英文)基本不再是乱码;以图生图时,画面细节更符合现实情况;修改图片时画面细节能保证较高的一致性。此外,GPT-4o对技术普及影响最大的可能是控制更容易也更精确,整个过程不再需要复杂、精确的提示词,像平时说话一样给修改建议就行。

对相关行业的巨大影响

文生图开源模型Stable Diffusion在2022年发布后,被制图、插画等行业引入工作,但因其本身不够可控,LoRA、ControlNet等技术及新创业公司应运而生以完善产品。而资深用户体验设计师章萧醇称,GPT-4o直接干翻了之前很多创业公司的产品,他们花大量时间、人力、资金调优的算法、工作流、模型,被一次大模型的更新取代。同时,AI科学家安德烈·卡帕斯提出因大模型变得过于强大,一种类似“Vibe Coding(氛围编程)”的新型编程方式正在兴起,GPT-4o的文生图功能就像是“Vibe Painting”。

技术原理探讨

Google和OpenAI发布新的文生图功能时,都未介绍技术细节。相对权威的是OpenAI研究员加布里埃尔·吴在直播中提到的两点:全模态的GPT-4o是基础,它有生成多种类型数据的能力;采用自回归方法,从左到右、从上到下顺序生成图像,而非多数图像生成模型使用的扩散模型技术。但清华大学NICS-EFC实验室博士生赵天辰认为,GPT-4o用自回归技术可能不是图像生成能力大幅提升的核心原因,而是OpenAI大幅提升了“文本-图像对齐”能力。目前开源文生图模型在引入文本控制信号上存在不足,而OpenAI用GPT-4o提升了模型理解文本特征和提示词的能力。

引发版权质疑

在GPT-4o图像生成器的助力下,大量吉卜力风格AI图像在社交媒体上被病毒式传播,OpenAI CEO山姆·奥特曼也将自己头像换成吉卜力风格图像。但这也引发质疑,OpenAI是否未经许可使用了吉卜力工作室的作品。虽然OpenAI未透露训练模型的具体数据,奥特曼表示引入新技术时在最初展示例子上花了很多心思,吉卜力工作室在北美的代表拒绝置评,而宫崎骏此前曾强烈反对人工智能动画,同时好莱坞演员等创意人士也对人工智能公司削弱版权作品保护力度表示担忧。