素材CNN(AIGC)

AI图像生成提示语分享平台

GPT-Image-2 写提示词指南:让 AI 从「随机出图」变成「精准控图」

光质描述 × 风格锚点 × 氛围词 = 结构化语法


最近科技圈最火的话题,离不开 GPT-Image-2。

上线即刷屏。电影级画质、精准的文字渲染、一致性极强的角色生成——很多人第一次用的时候,脑子里冒出的第一个想法是:这东西,真的超过 Midjourney 了。

但很快,分化出现了。同样用 GPT-Image-2,有人能生成「便利店深夜、霓虹灯照在顾客脸上的电影感剪影」;有人输入「一个人站在霓虹灯下」,出来的图建筑风格像欧洲古城,人物像20世纪的广告牌。

模型是同一个模型。差距在哪里?在提示词的写法。

GPT-Image-2 强大,但它不会读心术。它只能精确执行你写出来的每一个词。当你在「许愿」而不是「指挥」的时候,出来的图就是随机的。

这篇文章,帮你把「随机出图」变成「精准控图」。核心只有一件事:GPT-Image-2 的提示词,存在一套结构化的语法。 掌握它,相同的模型,你能跑出别人两倍的效果。

一、为什么你的图总是「看起来假」?

GPT-Image-2 生成图像时,默认使用一种「理想化均匀光照」——所有物体被同等照亮,没有主次,没有情绪。

这种光照在真实世界里几乎不存在。所以 AI 默认输出,天然带着「假」的感觉。

光质描述,是把「随机出图」变成「精准控图」的第一把钥匙。

理解光质:三个维度

① 光源类型

自然光:natural window light · golden hour — 柔和、温暖、有时间感

影棚光:studio strobe · beauty dish lighting — 干净、高对比、商业感

荧光灯:fluorescent overhead — 冷白、偏青、复古感

霓虹灯:neon signs · neon glow — 赛博、高饱和、分区染色

烛光:candlelight · warm flickering — 暖橙、情绪感

② 光质(软硬)

硬光:harsh light · direct sunlight → 边缘清晰、阴影浓重、戏剧感

柔光:soft diffused light · softbox → 过渡平滑、皮肤质感好

③ 光向(方位)

侧逆光:rim lighting · silhouette lighting — 制造轮廓感

蝴蝶光:butterfly lighting — 下巴阴影,经典商业人像光

45° 侧光:Rembrandt lighting — 塑造立体感

一个案例,看懂光质描述的威力

便利店霓虹人像

"35mm film photography with harsh convenience store fluorescent lighting mixed with colorful neon signs from outside, authentic film grain, high contrast, slight color cast"

屏幕截图 2026-05-03 210200.png

这张图的精髓,是两种矛盾光源的叠加:荧光灯的冷白顶光(现实感)+ 霓虹招牌的彩色溢光(情绪感)。film grain 为皮肤质感加了「真实颗粒」,掩盖 AI 生成皮肤时常见的「光滑假感」。slight color cast 让霓虹色渗透进整张图——你看到的不仅是灯光,而是灯光的氛围。

电影感剪影

"Generate a cinematic minimal portrait of a solitary man standing in an intense orange to red gradient environment, strong silhouette lighting, deep shadow contrast"

屏幕截图 2026-05-03 210503.png

silhouette lighting 让模特完全背光,轮廓即情绪。orange to red gradient environment 让环境色替代了传统打光——AI 会自动把渐变色理解为「来自环境的光照」。solitary 是情绪词,锁定画面的情感基调。

💡 每次写提示词前,先问自己:这束光从哪里来?
把这个习惯固化下来,出来的图立刻提升一个档次。

二、为什么同样描述「一个人」,出来的风格天差地别?

GPT-Image-2 的训练数据覆盖了几乎所有视觉风格——从文艺复兴油画到 8-bit 像素游戏。

当你的提示词没有风格锚点时,AI 只能靠概率猜测。概率的「默认值」,就是最常见的互联网图片风格——也就是「AI 味」。

风格锚点的作用,是消除歧义,把随机猜测变成精准锁定。

风格锚点的三层结构

第一层:媒介 / 技术词(决定载体)

35mm film photography · oil painting · pixel art · ink illustration · 3D render · vector graphic

第二层:时期 / 流派词(决定年代感)

Victorian era · Bauhaus · Super Famicom · Art Deco · 1990s MTV

第三层:设计师 / 机构词(精准锁定风格上限)

Pentagram style(信息建筑派)· Kenya Hara minimal(无印良品设计哲学)· Sagmeister experimental(实验先锋)

三层叠加,风格越具体,AI 越不会「漂移」。

三个方向,三种风格

Super Famicom 像素风海报

"Pixel art, Super Famicom style, 16-bit RPG character, nostalgic warm palette"

Super Famicom 精确锁定90年代日本游戏机的视觉语言。16-bit 是技术规格词。nostalgic warm palette 防止 AI 误选冷色调——像素风配合暖调,才有「怀旧感」而不是「过时感」。

玻璃拟态 UI 展示

"Glassmorphism UI design system showcase, blurred backdrop layer, multi-layer transparency, soft drop shadow, unified border-radius, dark mode"

Glassmorphism 是设计流派锚点。blurred backdrop、multi-layer transparency、soft drop shadow 精确描述了技术实现方式。unified border-radius 是设计系统语言,确保整套 UI 的视觉一致性。

机械少女 Key Visual

"Mecha girl key visual, highly reflective metallic texture, complex mechanical detail, soft diffused lighting, dark background, cinematic composition"

highly reflective metallic 是材质词——金属反射不是「银色」,而是「周围环境的映射」,没有这个词,金属质感会变成「灰灰的平面」。key visual 是用途词,锁定画面的「展示感」。

💡 先定风格,再填内容。风格词前置,效果更好。
❌ A girl, detailed mechanical armor, anime style
✅ Mecha girl key visual, highly reflective metallic texture, complex mechanical detail, anime style

三、情绪和色调,读者「心里一紧」的瞬间

光质描述解决「怎么照」,风格锚点解决「什么风格」。氛围词,解决的是主观感受——读者看到图时「心里一紧」的那个瞬间。

GPT-Image-2 对氛围词极其敏感。一个词,可以改变整张画的情感走向。

两类氛围词

情绪词(控制心理状态)

solitary / lonely — 孤独、疏离、安静

intense / dramatic — 冲突、戏剧、张力

ethereal / dreamy — 轻盈、飘渺、超现实

brutal / raw — 粗粝、真实、压迫感

nostalgic / wistful — 怀念、温柔、时间感

色调词(控制色彩情绪)

orange to red gradient — 温暖但紧张,末日感

muted earth tones — 沉稳、复古、文艺

high contrast — 强张力、戏剧感

desaturated — 冷淡、疏离、电影感

blue hour — 安静、沉思、诗意

一个对比实验:「一个女孩站在海边」

无氛围词:游客照,背景板

加情绪词:有故事感,像一首诗

加色调词:电影截图,情绪扑面而来

三个词:blue hour(时间)+ ethereal(质感)+ desaturated(色调)。从「游客照」到「电影截图」,代价是多了三个词。

💡 用 2-3 个氛围词替代模糊的形容词。
「好看」→「intense orange to red gradient, deep shadow contrast, cinematic」
「酷」→「brutal, desaturated, raw texture」

四、三套模板,涵盖你 90% 的使用场景

先套模板,再根据需求调整——效率提升 10 倍。

模板 A:摄影 / 真人场景

Template A

[焦段/相机] film photography, [主光源] mixed with [辅助光源],
[质感词], [对比度], [色调词], [情绪词],
[主体描述], [背景环境]

"35mm film photography, city street lamp mixed with distant neon signs, authentic film grain, high contrast, blue hour, desaturated, solitary figure walking away from camera, rain-wet streets, reflections on asphalt"

模板 B:插画 / 海报 / 设计类

Template B

[主体], [风格锚点:媒介+时期+流派],
[构图描述], [色彩方案], [排版/布局描述],
[氛围词], [用途标注]

"City skyline poster, vector illustration, Bauhaus style, minimal composition, large area of negative space, single accent color, travel poster format, bold geometric type overlay"

模板 C:UI / 界面 / 数字产品类

Template C

[设备型号] [场景描述], [设计风格],
[背景], [强调色], [字体风格],
[交互状态:可选]

"iPhone 15 Pro app interface mockup, glassmorphism design, dark gradient background, purple-to-blue accent gradient, SF Pro rounded font, notification badge detail, high-fidelity showcase"

写在最后

写好提示词这件事,本质上是用语言精准地描述你的视觉想象。

大多数人在这一步是模糊的:「我想要一个好看的图」「赛博朋克一点」「有感觉」。但 AI 无法执行模糊指令——它只能精确执行你写出来的每一个词。

光质描述、风格锚点、氛围词,这三个要素构成了 GPT-Image-2 提示词的核心语法。掌握它们,你就从「随机出图」升级到「精准控图」。

一个建议:建立你自己的提示词库。

每生成一张满意的图,把提示词存下来,按「光质词 / 风格词 / 氛围词」打标签。积累 20-30 个之后,你就不再是 AI 的使用者,而是 AI 的指挥者。


📋 标签速查表

光源:neon · fluorescent · golden hour · candlelight · rim lighting

质感:film grain · soft focus · raw texture

风格:35mm film · glassmorphism · Super Famicom · ink illustration

情绪:solitary · ethereal · brutal · nostalgic · dramatic

色调:blue hour · desaturated · high contrast · warm palette