GPT-Image-2 写提示词指南:让 AI 从「随机出图」变成「精准控图」
光质描述 × 风格锚点 × 氛围词 = 结构化语法
最近科技圈最火的话题,离不开 GPT-Image-2。
上线即刷屏。电影级画质、精准的文字渲染、一致性极强的角色生成——很多人第一次用的时候,脑子里冒出的第一个想法是:这东西,真的超过 Midjourney 了。
但很快,分化出现了。同样用 GPT-Image-2,有人能生成「便利店深夜、霓虹灯照在顾客脸上的电影感剪影」;有人输入「一个人站在霓虹灯下」,出来的图建筑风格像欧洲古城,人物像20世纪的广告牌。
模型是同一个模型。差距在哪里?在提示词的写法。
GPT-Image-2 强大,但它不会读心术。它只能精确执行你写出来的每一个词。当你在「许愿」而不是「指挥」的时候,出来的图就是随机的。
这篇文章,帮你把「随机出图」变成「精准控图」。核心只有一件事:GPT-Image-2 的提示词,存在一套结构化的语法。 掌握它,相同的模型,你能跑出别人两倍的效果。
一、为什么你的图总是「看起来假」?
GPT-Image-2 生成图像时,默认使用一种「理想化均匀光照」——所有物体被同等照亮,没有主次,没有情绪。
这种光照在真实世界里几乎不存在。所以 AI 默认输出,天然带着「假」的感觉。
光质描述,是把「随机出图」变成「精准控图」的第一把钥匙。
理解光质:三个维度
① 光源类型
自然光:natural window light · golden hour — 柔和、温暖、有时间感
影棚光:studio strobe · beauty dish lighting — 干净、高对比、商业感
荧光灯:fluorescent overhead — 冷白、偏青、复古感
霓虹灯:neon signs · neon glow — 赛博、高饱和、分区染色
烛光:candlelight · warm flickering — 暖橙、情绪感
② 光质(软硬)
硬光:harsh light · direct sunlight → 边缘清晰、阴影浓重、戏剧感
柔光:soft diffused light · softbox → 过渡平滑、皮肤质感好
③ 光向(方位)
侧逆光:rim lighting · silhouette lighting — 制造轮廓感
蝴蝶光:butterfly lighting — 下巴阴影,经典商业人像光
45° 侧光:Rembrandt lighting — 塑造立体感
一个案例,看懂光质描述的威力
便利店霓虹人像
"35mm film photography with harsh convenience store fluorescent lighting mixed with colorful neon signs from outside, authentic film grain, high contrast, slight color cast"

这张图的精髓,是两种矛盾光源的叠加:荧光灯的冷白顶光(现实感)+ 霓虹招牌的彩色溢光(情绪感)。film grain 为皮肤质感加了「真实颗粒」,掩盖 AI 生成皮肤时常见的「光滑假感」。slight color cast 让霓虹色渗透进整张图——你看到的不仅是灯光,而是灯光的氛围。
电影感剪影
"Generate a cinematic minimal portrait of a solitary man standing in an intense orange to red gradient environment, strong silhouette lighting, deep shadow contrast"

silhouette lighting 让模特完全背光,轮廓即情绪。orange to red gradient environment 让环境色替代了传统打光——AI 会自动把渐变色理解为「来自环境的光照」。solitary 是情绪词,锁定画面的情感基调。
💡 每次写提示词前,先问自己:这束光从哪里来?
把这个习惯固化下来,出来的图立刻提升一个档次。
二、为什么同样描述「一个人」,出来的风格天差地别?
GPT-Image-2 的训练数据覆盖了几乎所有视觉风格——从文艺复兴油画到 8-bit 像素游戏。
当你的提示词没有风格锚点时,AI 只能靠概率猜测。概率的「默认值」,就是最常见的互联网图片风格——也就是「AI 味」。
风格锚点的作用,是消除歧义,把随机猜测变成精准锁定。
风格锚点的三层结构
第一层:媒介 / 技术词(决定载体)
35mm film photography · oil painting · pixel art · ink illustration · 3D render · vector graphic
第二层:时期 / 流派词(决定年代感)
Victorian era · Bauhaus · Super Famicom · Art Deco · 1990s MTV
第三层:设计师 / 机构词(精准锁定风格上限)
Pentagram style(信息建筑派)· Kenya Hara minimal(无印良品设计哲学)· Sagmeister experimental(实验先锋)
三层叠加,风格越具体,AI 越不会「漂移」。
三个方向,三种风格
Super Famicom 像素风海报
"Pixel art, Super Famicom style, 16-bit RPG character, nostalgic warm palette"
Super Famicom 精确锁定90年代日本游戏机的视觉语言。16-bit 是技术规格词。nostalgic warm palette 防止 AI 误选冷色调——像素风配合暖调,才有「怀旧感」而不是「过时感」。
玻璃拟态 UI 展示
"Glassmorphism UI design system showcase, blurred backdrop layer, multi-layer transparency, soft drop shadow, unified border-radius, dark mode"
Glassmorphism 是设计流派锚点。blurred backdrop、multi-layer transparency、soft drop shadow 精确描述了技术实现方式。unified border-radius 是设计系统语言,确保整套 UI 的视觉一致性。
机械少女 Key Visual
"Mecha girl key visual, highly reflective metallic texture, complex mechanical detail, soft diffused lighting, dark background, cinematic composition"
highly reflective metallic 是材质词——金属反射不是「银色」,而是「周围环境的映射」,没有这个词,金属质感会变成「灰灰的平面」。key visual 是用途词,锁定画面的「展示感」。
💡 先定风格,再填内容。风格词前置,效果更好。
❌ A girl, detailed mechanical armor, anime style
✅ Mecha girl key visual, highly reflective metallic texture, complex mechanical detail, anime style
三、情绪和色调,读者「心里一紧」的瞬间
光质描述解决「怎么照」,风格锚点解决「什么风格」。氛围词,解决的是主观感受——读者看到图时「心里一紧」的那个瞬间。
GPT-Image-2 对氛围词极其敏感。一个词,可以改变整张画的情感走向。
两类氛围词
情绪词(控制心理状态)
solitary / lonely — 孤独、疏离、安静
intense / dramatic — 冲突、戏剧、张力
ethereal / dreamy — 轻盈、飘渺、超现实
brutal / raw — 粗粝、真实、压迫感
nostalgic / wistful — 怀念、温柔、时间感
色调词(控制色彩情绪)
orange to red gradient — 温暖但紧张,末日感
muted earth tones — 沉稳、复古、文艺
high contrast — 强张力、戏剧感
desaturated — 冷淡、疏离、电影感
blue hour — 安静、沉思、诗意
一个对比实验:「一个女孩站在海边」
无氛围词:游客照,背景板
加情绪词:有故事感,像一首诗
加色调词:电影截图,情绪扑面而来
三个词:blue hour(时间)+ ethereal(质感)+ desaturated(色调)。从「游客照」到「电影截图」,代价是多了三个词。
💡 用 2-3 个氛围词替代模糊的形容词。
「好看」→「intense orange to red gradient, deep shadow contrast, cinematic」
「酷」→「brutal, desaturated, raw texture」
四、三套模板,涵盖你 90% 的使用场景
先套模板,再根据需求调整——效率提升 10 倍。
模板 A:摄影 / 真人场景
Template A
[焦段/相机] film photography, [主光源] mixed with [辅助光源],
[质感词], [对比度], [色调词], [情绪词],
[主体描述], [背景环境]
"35mm film photography, city street lamp mixed with distant neon signs, authentic film grain, high contrast, blue hour, desaturated, solitary figure walking away from camera, rain-wet streets, reflections on asphalt"
模板 B:插画 / 海报 / 设计类
Template B
[主体], [风格锚点:媒介+时期+流派],
[构图描述], [色彩方案], [排版/布局描述],
[氛围词], [用途标注]
"City skyline poster, vector illustration, Bauhaus style, minimal composition, large area of negative space, single accent color, travel poster format, bold geometric type overlay"
模板 C:UI / 界面 / 数字产品类
Template C
[设备型号] [场景描述], [设计风格],
[背景], [强调色], [字体风格],
[交互状态:可选]
"iPhone 15 Pro app interface mockup, glassmorphism design, dark gradient background, purple-to-blue accent gradient, SF Pro rounded font, notification badge detail, high-fidelity showcase"
写在最后
写好提示词这件事,本质上是用语言精准地描述你的视觉想象。
大多数人在这一步是模糊的:「我想要一个好看的图」「赛博朋克一点」「有感觉」。但 AI 无法执行模糊指令——它只能精确执行你写出来的每一个词。
光质描述、风格锚点、氛围词,这三个要素构成了 GPT-Image-2 提示词的核心语法。掌握它们,你就从「随机出图」升级到「精准控图」。
一个建议:建立你自己的提示词库。
每生成一张满意的图,把提示词存下来,按「光质词 / 风格词 / 氛围词」打标签。积累 20-30 个之后,你就不再是 AI 的使用者,而是 AI 的指挥者。
📋 标签速查表
光源:neon · fluorescent · golden hour · candlelight · rim lighting
质感:film grain · soft focus · raw texture
风格:35mm film · glassmorphism · Super Famicom · ink illustration
情绪:solitary · ethereal · brutal · nostalgic · dramatic
色调:blue hour · desaturated · high contrast · warm palette