微信扫码
添加专属顾问
我要投稿
Nano Banana Pro 生图模型强大到离谱,一文掌握从零生成到图像编辑的全套技巧! 核心内容: 1. Nano Banana Pro 与 Gemini 系列模型的关系解析 2. 6种精准控制图像生成的实战策略 3. 从提示词构造到最佳实践的完整教程
刚刚经历了 Gemini 3.0 的刷屏,Nano Banana 又爆了 ...
大家好,欢迎来到 code秘密花园,我是花园老师(ConardLi)。
可能很多小伙伴还没弄清楚,其实这俩是一家人,Nano Banana 其实是 Gemini 的生图模型的代号:
先用 Gemini 3.0 Pro 搞前端,再用 Nano Banana Pro 搞设计,Goole 这是真不给大家留活路啊...
为了帮我大家快速上手 Nano Banana Pro 我整理了官方发布的多个实践教程,包括提示词教程和开发者教程,整理了这份 《Nano Banana Pro 完全指南》 希望对大家有所帮助。
周末体验了下 Nano Banana Pro,简直是强的离谱,下面是我的一些使用案例(全部是一句提示词生成的效果),在开始教程之前,大家可以先看看我的一些玩法,感受下这个模型的强大。
想要精通 AI 生图,首先要通过一个核心原则的考验:学会描绘场景,而不是堆砌关键词。
现在的模型拥有极强的语言理解能力。相比于一串支离破碎的单词(Tag),一段叙事感强、描写细腻的段落往往能生成连贯性更好、质量更高的图像。
下面我们将这份攻略分为从零生成、图像编辑以及最佳实践三个部分。
以下 6 种策略,能帮你精准控制生成结果,指哪打哪。
想生成逼真的照片,就得像摄影师一样思考。在提示词中明确机位角度、镜头参数、布光方式以及细节纹理。
A photorealistic [shot type] of [subject], [action or expression], set in [environment]. The scene is illuminated by [lighting description], creating a [mood] atmosphere. Captured with a [camera/lens details], emphasizing [key textures and details]. The image should be in a [aspect ratio] format.
中文释义:一张写实的 [镜头类型] ,主体是 [主体] ,正在 [动作或表情] ,背景位于 [环境] 。场景由 [灯光描述] 照亮,营造出 [氛围] 。使用 [相机/镜头参数] 拍摄,强调 [关键纹理和细节] 。图片比例为 [长宽比] 。
A photorealistic close-up portrait of an elderly Japanese ceramicist...(一位日本年迈陶艺家的超写实特写肖像...)
制作贴纸、图标或素材时,必须明确艺术风格,并指定透明背景以便后续使用。
A [style] sticker of a [subject], featuring [key characteristics] and a [color palette]. The design should have [line style] and [shading style]. The background must be transparent.
中文释义:一个 [风格] 的贴纸,主体是 [主体] ,具有 [关键特征] 和 [色板] 。设计应包含 [线条风格] 和 [阴影风格] 。背景必须是透明的。
A kawaii-style sticker of a happy red panda...(一只卡哇伊风格的开心小熊猫贴纸...)
Gemini 等新一代模型非常擅长处理文字。你需要清晰地描述 文案内容 、字体风格 以及整体设计感。配合 Gemini 3 Pro Image Preview 这类工具效果更佳。
Create a [image type] for [brand/concept] with the text "[text to render]" in a [font style]. The design should be [style description], with a [color scheme].
中文释义:为 [品牌/概念] 创建一个 [图片类型] ,包含文字" [要渲染的文本] ",字体为 [字体风格] 。设计应为 [风格描述] ,配色方案为 [配色] 。
Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'...(为一家名为 'The Daily Grind' 的咖啡店设计一个现代极简风格的 Logo...)
电商和广告人的福音。通过描述专业布光(如三点布光)和高分辨率,可以生成极具质感的产品图。
A high-resolution, studio-lit product photograph of a [product description] on a [background surface/description]. The lighting is a [lighting setup] to [lighting purpose]. The camera angle is a [angle type] to showcase [specific feature]. Ultra-realistic, with sharp focus on [key detail]. [Aspect ratio].
中文释义:一张高分辨率、影棚光照下的 [产品描述] 产品摄影,放置在 [背景/表面] 上。采用 [布光设置] 以达到 [布光目的] 。相机角度为 [角度类型] 以展示 [特定功能] 。超写实,清晰聚焦于 [关键细节] 。 [长宽比] 。
A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug...(一只极简风格陶瓷咖啡杯的高分辨率影棚产品摄影...)
非常适合用作 PPT、网站 Banner 或营销海报的背景图,利用负空间(Negative Space)为文字排版预留位置。
A minimalist composition featuring a single [subject] positioned in the [bottom-right/top-left/etc.] of the frame. The background is a vast, empty [color] canvas, creating significant negative space. Soft, subtle lighting. [Aspect ratio].
中文释义:极简构图,画面 [右下/左上等] 位置有一个 [主体] 。背景是巨大的空白 [颜色] 画布,留有大量负空间。光线柔和微妙。 [长宽比] 。
A minimalist composition featuring a single, delicate red maple leaf...(极简构图,展示一片精致的红枫叶...)
利用模型对角色一致性和场景描述的理解,制作多格漫画或故事板。
Make a 3 panel comic in a [style]. Put the character in a [type of scene].
中文释义:用 [风格] 制作一个 3 格漫画。将角色置于 [场景类型] 中。
除了无中生有,我们还可以上传参考图,要求模型进行修改、合成或风格迁移。
上传图片,直接告诉模型你想加什么、减什么。模型会自动匹配原图的光影和透视。
Using the provided image of [subject], please [add/remove/modify][element] to/from the scene. Ensure the change is [description of how the change should integrate].
中文释义:使用提供的 [主体] 图片,请在场景中 [添加/移除/修改][元素] 。确保修改 [融合方式的描述] 。
这就像是用自然语言画了一个“蒙版”。你可以指定只修改图中的某个部分(比如沙发),而保持其他部分纹丝不动。
Using the provided image, change only the [specific element] to [new element/description]. Keep everything else in the image exactly the same, preserving the original style, lighting, and composition.
中文释义:使用提供的图片,仅将 [特定元素] 更改为 [新元素/描述] 。保持图像中的其他所有内容完全不变,保留原始风格、光照和构图。
给原本的照片换个“画风”。你可以要求模型把一张写实照片变成油画或赛博朋克风格,但保留原有的构图。
Transform the provided photograph of [subject] into the artistic style of [artist/art style]. Preserve the original composition but render it with [description of stylistic elements].
中文释义:将提供的 [主体] 照片转换为 [艺术家/艺术风格] 的艺术风格。保留原始构图,但用 [风格元素描述] 进行渲染。
这就是 AI 版的“拼图”。你可以提供多张图片,提取 A 图的元素放到 B 图的背景里。
Create a new image by combining the elements from the provided images. Take the [element from image 1] and place it with/on the [element from image 2]. The final image should be a [description of the final scene].
中文释义:结合提供图片中的元素创建一个新图像。提取 [图1的元素] 并将其放置在 [图2的元素] 上/旁边。最终图像应该是一个 [最终场景描述] 。
当你需要给人物换背景,或者给产品换环境时,必须强调保留关键特征(如人脸、Logo)不变。
Using the provided images, place [element from image 2] onto [element from image 1]. Ensure that the features of [element from image 1] remain completely unchanged. The added element should [description of how the element should integrate].
中文释义:使用提供的图片,将 [图2的元素] 放置到 [图1的元素] 上。确保 [图1的元素] 的特征完全保持不变。添加的元素应该 [融合方式描述] 。
灵魂画手的救星。上传一张粗糙的草图,让模型把它渲染成精美的成品图。
Turn this rough [medium] sketch of a [subject] into a [style description] photo. Keep the [specific features] from the sketch but add [new details/materials].
中文释义:将这张关于 [主体] 的粗糙 [媒介,如铅笔/圆珠笔] 草图变成一张 [风格描述] 的照片。保留草图中的 [特定特征] ,但添加 [新细节/材质] 。
通过多轮对话迭代,让同一个角色展示不同的角度。技巧是:把上一轮生成的图作为下一轮的输入参考。
A studio portrait of [person] against [background], [looking forward/in profile looking right/etc.]
中文释义:一张 [人物] 在 [背景] 前的摄影棚肖像, [向前看/侧面看向右/等] 。
想让作品从“还行”变成“惊艳”,请遵循以下原则:
做个极致的细节控 (Be Hyper-Specific)
交代背景与意图 (Provide Context and Intent)
迭代与打磨 (Iterate and Refine)
分步拆解 (Step-by-Step)
语义化反向提示 (Semantic Negative Prompts)
掌控镜头语言 (Control the Camera)
如果说之前的 Flash 版(Nano Banana)主打的是 “天下武功,唯快不破” 和极致性价比,那么这次的 Pro 版则点亮了 “思考(Thinking)” 能力、搜索(Search Grounding)以及高保真 4K 输出 的技能树。
是时候在更复杂的创意任务上大展身手了!
下面这部分将带你深入挖掘 Nano Banana Pro 的高级特性,并教你如何通过 Gemini Developer API 玩转它:
虽然普通用户可以在 Gemini App 里直接体验 Nano Banana Pro,但对于开发者而言,Google AI Studio 才是最佳的“练兵场”。
在这里,你可以快速构建原型、测试 Prompt,无需编写任何代码即可体验所有可用的 AI 模型。这里也是通过 Gemini API 构建应用的起点。
如何开始: 访问 aistudio.google.com,使用 Google 账号登录,然后在模型选择器中找到 Nano Banana Pro (Gemini 3 Pro Image)。
⚠️ 注意: 与 Nano-Banana 不同,Pro 版本没有免费层级。这意味着你需要选择一个已开启计费功能的 API Key(详见下文“项目设置”部分)。
💡 小技巧: 你还可以在 ai.studio/apps 直接通过 AI Studio "Vibe Code"(意指凭感觉、快速构建)Nano Banana Web 应用,或者浏览现有应用的代码进行 Remix(二次创作)。
要顺利跟上本文的实操指南,你需要准备好以下三样东西:
如果你已经是 Gemini API 的资深玩家,这些配置早已烂熟于心,直接跳过本节,进入下一章即可。如果你刚上手,别急,按下面的步骤来:
首次登录 AI Studio 时,系统通常会自动为你创建一个 Google Cloud 项目并生成 API Key。
直接打开 API Key 管理页面,点击“复制”图标,把你的密钥存好。
注意了,Nano Banana Pro 模型没有免费层级(Free Tier)。这意味着你必须在 Google Cloud 项目中绑定支付方式。
还是在 API Key 管理页面,点击项目旁边的 Set up billing(设置计费),按照屏幕提示完成操作即可。
Nano Banana Pro 贵吗?
实话实说,Nano Banana Pro 的生图成本确实比 Flash 版本要高,尤其是生成 4K 图片时。 截至本文发布时,生成一张 1K 或 2K 分辨率的图片需要 $0.134,而一张 4K 图片则要 $0.24(这还没算上输入和文本输出的 Token 费用)。
💡 省钱小技巧 (Pro tip):如果你对实时性要求不高,可以使用 Batch API。虽然可能需要等待长达 24 小时才能拿到结果,但它能帮你 节省 50% 的生成成本。
选择你顺手的编程语言进行安装。
Python:
pip install -U google-genai
# 顺手装上 Pillow 库,方便后续处理图片
pip install Pillow
JavaScript / TypeScript:
npm install @google/genai
注:本文接下来的演示代码将主要使用 Python SDK。如果你是前端开发者,想在 JavaScript 中使用 Nano Banana,可以参考这个 JS Notebook (https://ai.studio/apps/bundled/get_started_image_out?fullscreenApplet=true) 获取对应的代码片段。
想要体验 Pro 模型,你首先需要绑定对应的模型 ID:gemini-3-pro-image-preview。
from google import genai
from google.genai import types
# 初始化客户端
client = genai.Client(api_key="YOUR_API_KEY")
# 设置模型 ID
PRO_MODEL_ID = "gemini-3-pro-image-preview"
在探索那些花哨的高级功能之前,我们先来跑一个标准的生成流程。
这里有两个关键参数值得注意:
prompt = "Create a photorealistic image of a siamese cat with a green left eye and a blue right one"
# 可选比例: "1:1", "2:3", "3:2", "3:4", "4:3", "4:5", "5:4", "9:16", "16:9", "21:9"
aspect_ratio = "16:9"
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
# 如果只需要图片,这里可以只填 ['Image']
response_modalities=['Text', 'Image'],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
)
)
)
# 保存生成的图片
for part in response.parts:
if image := part.as_image():
image.save("cat.png")
小贴士:除了单次调用,你还可以使用 **Chat mode (对话模式)**。如果你需要进行多轮对话来反复修改图片,我强烈推荐这种方式。具体用法可以参考本文第 8 个案例——“Polyglot Banana”。
Nano Banana Pro 不仅仅是在“画图”,它更是在“思考”。这意味着在生成图像之前,它有能力对那些复杂、甚至刁钻的提示词(Prompt)进行逻辑推理。最棒的是,你还可以直接窥探它的“脑回路”!
想要开启这个功能,你只需要在 thinking_config 中设置 include_thoughts=True。
看看下面的代码示例:
prompt = "Create an unusual but realistic image that might go viral"
aspect_ratio = "16:9"
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
# 关键点:同时请求文本(思考过程)和图像
response_modalities=['Text', 'Image'],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
),
thinking_config=types.ThinkingConfig(
include_thoughts=True# 开启思考模式
)
))
# 保存图片并打印思考过程
for part in response.parts:
if part.thought:
print(f"Thought: {part.text}")
elif image:= part.as_image():
image.save("viral.png")
运行这段代码,你将会看到类似下面的输出,仿佛能听到模型内心的独白:
## 构思:通勤的羊驼
我现在正把注意力集中在羊驼身上。目标是将它们描绘成玻利维亚拉巴斯(La Paz)繁忙公交车上的日常通勤者。我的构思是一辆复古风格的巴士,里面挤满了觉得这一幕很有趣的乘客。画面细节会着重表现一只羊驼正望向窗外,另一只正和乘客互动,而周围的人们都在忙着拍照。
[生成图像]
## 视觉化概念
我已经完全沉浸在这个场景设定中了。首要任务是把控好“离奇但真实”这个度。关键元素已经确立,画面正在逐渐成型。
这种透明度极大地帮助我们理解模型是如何拆解和诠释你的需求的。这种感觉,就像是你身旁坐着一位人类画师,边画边跟你聊他的创作思路!
下一步:既然已经看到了模型是如何“思考”的,您想让我为您演示如何利用这些 Log 信息来反向优化您的 Prompt 吗?
这是一篇关于 Nano Banana Pro 模型的高级功能介绍。按照你的要求,我将其重构为一篇逻辑流畅、符合中文技术阅读习惯的博文。
Nano Banana Pro 最具颠覆性的功能之一,就是它的 Search Grounding(搜索溯源) 能力。
别以为模型只能“背书” —— Nano Banana Pro 不会被困在过时的训练数据里。它能直接调用 Google Search 的实时数据,生成既准确又时效性极强的图像。想要现在的天气图?没问题。
举个例子,我们可以让它直接把 东京未来 5 天的天气预报 可视化,甚至贴心地画出每天的穿搭建议:
prompt = "Visualize the current weather forecast for the next 5 days in Tokyo as a clean, modern weather chart. add a visual on what i should wear each day"
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=['Text', 'Image'],
image_config=types.ImageConfig(
aspect_ratio="16:9",
),
# 核心配置:启用 Google Search 工具
tools=[{"google_search": {}}]
)
)
# 保存图像
for part in response.parts:
if image:= part.as_image():
image.save("weather.png")
# 注意:必须始终展示数据来源
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)
博主提示:在合规性上要特别注意,使用搜索生成的内容时,必须展示
grounding_metadata中的来源信息。
有时候,大就是好。如果你需要打印级的高清素材,Nano Banana Pro 提供了原生 4K 分辨率支持。
代码实现非常简单,只需要指定 image_size 参数即可:
prompt = "A photo of an oak tree experiencing every season"
resolution = "4K" # 可选: "1K", "2K", "4K"。注意:大小写敏感,必须用大写!
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=['Text', 'Image'],
image_config=types.ImageConfig(
aspect_ratio="1:1",
image_size=resolution
)
)
)
成本预警:4K 生成的 Token 消耗和成本都会更高,在生产环境中使用时,请根据实际需求权衡。
这个模型不仅是个画家,还是个语言学家。它支持十几种语言的图像内文字生成,甚至能直接对图片里的文字进行翻译。你可以把它看作是一个视觉版的“通用翻译机”。
我们先让它为小学生生成一张解释爱因斯坦广义相对论的图表,并要求使用西班牙语:
# 生成西班牙语信息图
message = "Make an infographic explaining Einstein's theory of General Relativity suitable for a 6th grader in Spanish"
response = chat.send_message(message,
config=types.GenerateContentConfig(
image_config=types.ImageConfig(aspect_ratio="16:9")
))
# 保存图像
for part in response.parts:
if image:= part.as_image():
image.save("relativity.png")
接着,我们不需要重新描述画面细节,直接让它把上面的图翻译成日语,保持原有风格不变:
# 翻译为日语
message = "Translate this infographic in Japanese, keeping everything else the same"
response = chat.send_message(message)
# 保存图像
for part in response.parts:
if image:= part.as_image():
image.save("relativity_JP.png")
这一套组合拳下来,跨语言内容的生产效率直接起飞。
如果说 Flash 模型像个三人小组,最多只能混合 3 张图片,那 Pro 模型简直就是在开派对——它一口气能吃下 14 张图片!
这不仅仅是数量的提升,它意味着全新的玩法:你可以轻松创建复杂的拼贴画,或者在同一个 Prompt 里直接展示你的整个产品线。
看看代码怎么写:
# 混合多张图片
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=[
# 提示词:给这些人拍张办公室合影,大家都在做鬼脸
"An office group photo of these people, they are making funny faces.",
PIL.Image.open('John.png'),
PIL.Image.open('Jane.png'),
# ... 这里最多可以塞进 14 张图
],
)
# 保存生成的图片
for part in response.parts:
if image:= part.as_image():
image.save("group_picture.png")
💡 经验之谈:虽然 Pro 模型能处理 14 张图,但如果你对人物面部的**保真度(Fidelity)**要求极高,我建议还是把数量控制在 5 张以内。说实话,5 个人同框,对于一场热闹的聚会来说也完全够用了!
有些操作是 Nano Banana Pro 的独门绝技。下面这些演示可能会颠覆你的认知,准备好大开眼界吧:
Prompt:
"Search the web then generate an image of isometric perspective, detailed pixel art that shows the career of Guillaume Vernade"
(去网上搜索,然后生成一张等轴视角的精细像素艺术图,画面要展示 Guillaume Vernade 的职业生涯。)
背后的技术:这里利用了 Search Grounding(搜索增强) 能力。模型并不是在瞎编,而是先去实时检索这个人的具体履历,消化理解后,再将这些真实信息以特定的艺术风格(像素风)视觉化地呈现出来。
Prompt:
"Show me an infographic about how sonnets work, using a sonnet about bananas written in it, along with a lengthy literary analysis of the poem. Good vintage aesthetics"
(给我一张关于十四行诗(Sonnet)运作机制的信息图,图里要包含一首关于香蕉的十四行诗,外加一段长篇文学赏析。风格要那种精致的复古美学。)
背后的技术:这一点非常强悍:模型不仅能即兴创作连贯的长篇文本(那首关于香蕉的诗和赏析),还能将其完美地排版嵌入到复杂的布局中。这不再是简单的图生文,而是真正的设计。
Prompt: "A photo of a program for the Broadway show about TCG players on a nice theater seat, it's professional and well made, glossy, we can see the cover and a page showing a photo of the stage."(一张百老汇演出的节目单照片,放置在精致的剧院座椅上,剧目关于 TCG 玩家。要求专业、做工精良、有光泽感,画面需展示封面及印有舞台剧照的内页。)
Nano Banana Pro 可以生成光影精准、材质纹理逼真的印刷品 Mockup,非常适合用于设计方案的提案展示。
想要榨干 Nano Banana 与 Nano Banana Pro 的潜力,获得最佳生成效果,以下这些 Prompt 黄金法则你必须掌握:
细节决定成败(Be Hyper-Specific): 对于主体、色彩、布光和构图,你描述得越极致,对结果的掌控力就越强。与其给一个模糊的概念,不如精准定义每一个像素。
交代语境与意图(Provide Context and Intent): 告诉模型这张图是用来做什么的,或者你想要传达什么样的情绪(Mood)。一旦模型理解了“上下文”,它的发挥往往会更有灵性。
迭代与打磨(Iterate and Refine): 别指望一发入魂。利用模型的对话能力,像跟设计师改稿一样,基于上一轮的结果进行增量微调,直到满意为止。
拆解复杂任务(Use Step-by-Step Instructions): 面对复杂的宏大场景,不要试图用一句话讲完。将 Prompt 拆解成清晰、有序的步骤序列,引导模型一步步构建画面。
正向描述(Use Positive Framing): 告诉模型你“要什么”,而不是“不要什么”。相比于“不要汽车(no cars)”这种负面提示,使用“空旷冷清、毫无车流迹象的街道”这种正向描述,效果通常更好。
掌控镜头语言(Control the Camera): 像导演一样思考。使用专业的摄影或电影术语来指导构图,比如“广角(wide-angle)”、“微距(macro)”或“低角度仰拍(low-angle perspective)”。
善用搜索溯源(Use search grounding wisely): 当你需要模型调用实时数据时,指令必须明确且具体。与其模糊地说“生成上场球赛的数据图”,不如直接下令:“搜索里昂奥林匹克队上一场比赛的数据,并制作成信息图表”。别让模型去猜,要给它明确的动作指令。
使用 Batch API 降本增效: 如果你有大量非实时需求,Batch API 是不二之选。虽然处理时间可能长达 24 小时,但这能帮你节省 50% 的生成成本,还能获得更高的 Quota 配额。
Nano Banana Pro (即 Gemini 3 Pro Image) 为 AI 图像生成开辟了新天地。它不仅仅是一个画图工具,更是一个能思考、会搜索、且能原生渲染 4K 画质的智能助手。无论是对于专业创作者还是技术发烧友,这都是一把趁手的利器。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-24
聊聊Palantir是如何将AI应用到实际的
2025-11-24
在全世界都教你写Prompt的时候,我做了个不用Prompt的AI画图产品
2025-11-24
谈LLM应用层目前推荐的新功能研发范式
2025-11-24
一文说清 Agentic AI:基于 LLM 的智能体进化史
2025-11-24
我来彻底说说 AI 上下文工程(下)
2025-11-24
Cursor看了都要菊花一紧!Google AntiGravity 官方教程生猛来袭!
2025-11-24
不服 Gemini 3!Claude 祭出 Skills“反杀” 器!
2025-11-24
麦肯锡最新重量级报告:《The State of AI》全球企业AI应用现状——AI飞速普及,但能转化成利润的企业,只有 6%
2025-09-19
2025-10-02
2025-09-16
2025-10-26
2025-09-08
2025-09-17
2025-09-29
2025-09-14
2025-10-07
2025-09-30
2025-11-23
2025-11-19
2025-11-19
2025-11-19
2025-11-18
2025-11-18
2025-11-17
2025-11-15