免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

OpenAI 发布 GPT Image 1.5:全面升级

发布日期:2025-12-17 04:28:03 浏览次数: 1531
作者:赛博禅心

微信搜一搜,关注“赛博禅心”

推荐语

OpenAI GPT Image 1.5震撼升级:精准编辑不崩图,速度提升4倍,价格直降20%!

核心内容:
1. 精准编辑功能突破:局部修改不影响整体构图
2. 五大实测案例展示多风格混合编辑能力
3. 新增预设模板与显著提升的指令遵循表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

刚刚,OpenAI 今天发布了新的图像模型:GPT Image 1.5
核心变化一句话:精准编辑,不崩全图

让它改哪,他就改哪,其他地方不乱动

同时,对比上一代模型 GPT Image 1.0

  • • 更强的指令遵循
  • • 更好的细节保持
  • • 速度比上一代快4倍
  • • API 价格降了 20% 以上

今天开始,向所有 ChatGPT 用户推出。

另外经实测,这个模型在中文处理上比 NanoBanana 还是差了不少,本文也会详细说说

精准编辑

这是本次升级的核心
当你上传一张图片要求修改时,模型只改你要改的地方,光线、构图、人物外貌这些元素在多轮编辑中都能保持一致

看官方给的例子,这个模型擅长各种编辑操作:添加删除合成混合移植

三张输入图:两个男人、一只狗

输入图1
输入图1
输入图2
输入图2
输入图3
输入图3

第一步
把这两个男人和这只狗合成一张 2000 年代胶片相机风格的照片,他们在一个小孩的生日派对上,看起来很无聊

合成结果
合成结果

第二步
在背景加一群疯狂的小孩,到处扔东西、尖叫

添加背景小孩
添加背景小孩

前景的两个人和狗,基本没变

第三步
把左边的男人改成手绘复古动漫风格,狗改成毛绒玩具风格,右边的男人和背景保持不变

混合风格
混合风格

同一张图里,三种风格共存
左边是动漫,中间是毛绒玩具,右边是真人
这在之前几乎做不到

第四步
给他们都穿上 OpenAI 卫衣(参考另一张图的样式)

参考图
参考图
换装结果
换装结果

第五步
把两个男人去掉,只留下狗,放进一个 OpenAI 直播画面里

最终结果
最终结果

五轮编辑下来,狗的形象始终保持一致

实测

我先上传了山姆奥特曼的照片

Sam
然后说「把背景换成成都街头的夜景实景,保持人物的姿势、表情不变,但人物的风格变成毛绒玩具」

创意转换

在 ChatGPT 里使用这个模型,可以看到新增了预设风格和创意模板,不用写提示词也能玩:电影海报80 年代健身教练魅力娃娃装饰品时尚广告换装角色油画饮料广告....

https://chatgpt.com/images

看这个电影海报的例子

电影海报输入
电影海报输入

提示词:用这两个男人的照片,做一张老派好莱坞黄金时代风格的电影海报,电影叫「codex」。把他们的服装改成那个年代的风格。演员名字改成 Wojciech Zaremba(左)和 Greg Brockman(右),导演 Sam Altman,制片人 Fidji Simo,Feel the AGI Pictures 出品

电影海报结果
电影海报结果

人物面部特征保留了,服装、排版、文字都按要求生成

实测

实测「把这只猫做成一张 1960 年代法国新浪潮电影海报风格的图,电影名叫 "Le Chat Noir",导演 Jean-Luc Godard,加上法语字幕和胶片颗粒质感」

指令遵循

相比旧版,新模型对指令的遵循更加可靠

看这个测试:画一个 6x6 的网格,每个格子里放不同的物品

提示词
做一个 6 列 x 6 行的网格:

  • • 第 1 行:希腊字母 beta、沙滩球、柠檬、机器人、鱼缸、青蛙
  • • 第 2 行:螳螂、名贵手表、浴缸、太阳镜、彩色蝴蝶、信封
  • • 第 3 行:邮票、相框、冒热气的饺子、「miracle」这个词、滑雪板、字母 Z
  • • 第 4 行:马桶、地铁代币、静音图标、香水瓶、蜻蜓、滑板头盔
  • • 第 5 行:蓝牙图标、数字 13、绿色爱心、魔方、加拿大鹅、士兵头盔
  • • 第 6 行:白色狗、救生衣、绳结、键盘、纸巾盒、数字 14

新版结果:

新版6x6网格
新版6x6网格

旧版结果:

旧版6x6网格
旧版6x6网格

新版基本都对了,旧版数错格子、放错物品

这种「精确执行复杂指令」的能力,对做信息图、产品目录、教学材料这类场景很重要

实测

实测提示词:生成一个 4x3 的网格,第一行放 4 种不同系列的 iPhone(第4、5、13、15代),第二行放 4 种不同款式的苹果表带,第三行放 4 种不同颜色的苹果显示器,每个产品下方标注颜色名称

文字渲染

这个版本的模型,在文字渲染方面又进了一步,能够处理更密集、更小的文字

看这个测试:把一段 Markdown 渲染成报纸版面

Markdown渲染成报纸
Markdown渲染成报纸

表格、标题、正文都有,字还挺清楚的

然后让它换成另一篇文章的内容:

换成另一篇文章
换成另一篇文章

之前的图像模型,文字一多就糊成一团

实测

实测提示词:Generate a product rendering of Six God Florida Water, classic green glass bottle, front of bottle with large text "Six God", below it "Florida Water", middle section text "Cooling & Refreshing · Anti-itch Formula", smaller text below "Main Ingredients: Six God Herbal Essence, Borneol, Menthol, Honeysuckle Extract, Wild Chrysanthemum Extract", below that "Benefits: Cooling Relief, Refreshing Sensation, Odor Elimination, Mosquito Repellent", bottom text "Net Content: 195ml" "Shanghai Jahwa United Co., Ltd." "Address: No. 527 Baoding Road, Shanghai" "Production License: HMPC20160012", white background, product photography style, soft studio lighting
中文一团糊

其他质量提升

模型在其他维度上也有改进,让输出更加即拿即用,比如渲染大量小脸时的效果,以及整体画面的自然程度

1970 年代伦敦街景

提示词
做一个 1970 年代伦敦切尔西区的街景,照片级真实感,全部对焦清晰,有很多很多人,还有一辆公交车,上面有「ImageGen 1.5」的广告,带 OpenAI logo,副标题是「Create what you imagine」。超写实的业余摄影风格,iPhone 随手拍的质感

新版:

新版1970年代伦敦
新版1970年代伦敦

旧版:

旧版1970年代伦敦
旧版1970年代伦敦

新版的人脸更自然,整体画面的年代感也更到位

实测

果然...还是不能有汉字

实测提示词:生成一张 1980 年代香港街头的照片,九龙城寨附近,霓虹灯招牌密集,街上有很多行人和小贩,一辆红色出租车停在路边,整体是柯达胶片的色调,带轻微的噪点和过曝感

进步与局限

OpenAI 用最初发布时的很多案例重新测试了新模型。结果显示在各种场景下都有明显进步,但效果仍不完美

深海海报(进步明显)

提示词:创作一张深海生物海报,展示不同深度的生物,纵向海洋剖面图,精美的日本细腻动漫风格

新版:

新版深海海报
新版深海海报

旧版:

旧版深海海报
旧版深海海报

科学准确性上还有一些问题,但大约 70% 是正确的,画面更加生动,避免了过早裁切

仍有局限的地方

  • • 风格一致性:某些风格转换还不够稳定
  • • 多张脸:同时生成多个人脸时偶尔会出问题
  • • 多语言:非英语文字的渲染质量还有提升空间

API:GPT Image 1.5

API 版本拥有与 ChatGPT Images 完全相同的能力,相关的模型信息,可以在这里查看到
https://platform.openai.com/docs/models/gpt-image-1.5

Model Card

同时,GPT Image 1.5 的图像输入和输出成本比上一代降低了 20%

GPT Image 1.5 定价

质量
1024×1024
1024×1536
1536×1024
Low
$0.009
$0.013
$0.013
Medium
$0.034
$0.051
$0.05
High
$0.133
$0.2
$0.199

对比 NanoBanana Pro,GPT Image 1.5 的 High 模式和 Google 2K 价格差不多

  • • 2K(2048×2048):$0.139
  • • 4K(4096×4096):$0.24

GPT Image 1.5 的 High 模式和 Google 2K 价格差不多,但还有 Low 和 Medium 两档可选

最后

今天开始,这个模型会向全球所有 ChatGPT 用户和 API 用户推出,不需要特别勾选

旧版 ChatGPT Images 可以在这个地方使用:
https://chatgpt.com/g/g-6940a876d5f4819186b4668deabcd580-4o-imagegen

GPTs

可以在 OpenAI Playground 试用:
https://platform.openai.com/playground/images

Playground

提示词指南:
https://cookbook.openai.com/examples/multimodal/image-gen-1.5-prompting_guide

指南

 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询