OpenAI在年末抛出重磅更新,新一代图像生成模型GPT Image1.5(ChatGPT Images)正式上线,宣称以“精准操控”“细节狂魔”“极速生成”三大特性对抗谷歌的AI攻势。然而,这场技术狂欢背后,既展现了AI图像生成的惊人潜力,也暴露了行业竞速中的隐忧。
性能跃进:从“大概对”到“指哪改哪”
GPT Image1.5的核心突破在于解决了GenAI工具长期存在的“指令跟随难题”。传统模型在修改图像局部时(如调整面部表情、光线),往往导致整体构图失真,而新模型通过算法优化实现了视觉一致性:无论是添加、删减元素,还是多轮编辑,人物样貌、光照、色调等关键特征均可保持稳定。
例如,用户可先生成一张“00年代胶片感的生日会照片”,再逐步添加熊孩子、将人物改为动漫风、替换服装,最终生成一张印有完整画面的T恤设计图,全程无需担心图像“跑偏”。
速度方面,GPT Image1.5较前代提升4倍,文生图功能在LMArena竞技场以1264 Elo分登顶榜首,力压谷歌Nano Banana Pro(NBP)。其编辑能力虽以3分优势险胜NBP夺冠,但整体排名仍居第四,引发“高分低能”的争议。
创意爆发:从脑洞到落地的“一键切换”
新模型将创造力推向新高度。用户无需复杂提示词,仅需上传基础图片并指定风格,即可生成电影海报、复古广告、3D悬浮人头等复杂作品。例如,将两人合影转化为老派好莱坞黄金时代电影海报,或把奥特曼变成“80年代健身教练”“戴珍珠耳环的少女”,甚至生成“圣诞老人款光面玻璃挂饰”。
技术细节上,GPT Image1.5支持6×6网格的精准渲染(36个元素无一错漏),可处理更小字号的文本与复杂编程界面,还能生成1970年代伦敦街景、金门大桥万人场景等大场面,写实度显著提升。然而,其在特定艺术风格(如日漫风、黑暗奇幻)的生成上出现理解偏差,多人大合影的人脸特征也易走形。
争议漩涡:技术领先与体验落差的博弈
尽管官方宣称GPT Image1.5为“随身携带的创意工作室”,但实测暴露了多重局限。网友发现,其手写体处理能力远逊于谷歌NBP,生成结果看似合理实则错误百出。在中文、阿拉伯语等非英语文本渲染中,模型表现同样不佳。此外,用户需在“预设滤镜”与“旧版模型”间切换以弥补风格退步问题,操作复杂度上升。
OpenAI坦言,新模型仍存在改进空间,例如无法可靠处理多人大合影的细节,部分艺术风格的生成质量甚至不及前代。这场技术竞赛中,谷歌NBP凭借稳定性仍被部分用户视为“王者”,而OpenAI则因GPT-5.2与GPT Image1.5的连续争议陷入口碑危机。
行业冲击:工具聚合与效率革命的并行
AI工具的快速迭代催生了聚合平台的需求。以iMini AI为例,其接入Gemini 3、Seedream 4.5等工具,并承诺48小时内同步新API接口,为用户提供一站式体验。此类平台的存在,凸显了技术普及与效率优先的行业趋势。而OpenAI通过开放GPT Image1.5的API,亦为第三方开发者创造了更多创新空间。
目前,GPT Image1.5已面向所有ChatGPT用户及API开发者开放。这场由OpenAI与谷歌主导的AI图像生成竞赛,正从技术参数的比拼,转向用户体验与生态整合的深层较量。当“所想即所见”逐渐成为现实,AI工具如何平衡创新速度与实用性,将成为决定行业未来的关键命题。