动手体验谷歌的“纳米香蕉Pro”图像生成器

作者: aeks | 发布时间: 2025-12-27 15:02 | 更新时间: 2025-12-27 15:02

学科分类: 新闻传播学 计算机科学与技术 设计学 软件工程

动手体验谷歌的“纳米香蕉Pro”图像生成器
动手体验谷歌的“纳米香蕉Pro”图像生成器

本周四,谷歌推出了最新图像生成模型Nano Banana Pro。此次更新的诸多功能瞄准企业应用,包括将其集成到谷歌幻灯片(Google Slides)用于商务演示,以及接入谷歌广告(Google Ads)供全球广告主使用。

该“Pro”版本是今年早些时候发布的Nano Banana模型的迭代产品。此前,Nano Banana因用户在社交媒体上分享个性化动作玩偶和其他 meme 风格创作而走红。

Nano Banana Pro为这款AI工具新增了多项能力,比如生成4K分辨率图像。用户可在谷歌Gemini应用中免费试用,付费的Google One订阅用户则能获得额外的生成次数。

此次版本中,一项对企业极具吸引力的改进是文本渲染。在初步的文本生成测试中,Nano Banana Pro改善了许多图像模型(包括谷歌过往版本)常见的字母歪扭和拼写错误问题。

谷歌希望新模型生成的图像(包括文本)更精致,能直接用于商业场景。“哪怕有一个字母错了,都非常显眼,”谷歌DeepMind负责图像和视频的产品负责人妮可·布里赫托娃(Nicole Brichtova)表示,“这就像看到长着六根手指的手,一眼就能发现。”她指出,Nano Banana Pro能更清晰地生成文本,部分原因是底层模型升级为更强大的Gemini 3 Pro。

我生成的模拟传单和网页横幅广告有时仍带有AI生成图像常见的泛黄色调。尽管如此,Nano Banana Pro只需一个提示词就能制作出相当详细的营销素材,包含多种字体的完整句子。用户还可通过后续提示词对图像进行调整,比如删除某个细节或改变整体风格。

布里赫托娃称,文本渲染的改进显著提升了Nano Banana Pro制作信息图表的能力。在我的部分初步测试中,这一点得到了验证。该工具生成的“如何炸火鸡”信息图表包含合理的步骤说明,并引用了美国联邦机构——美国消防管理局的警告以及其他恰当的安全注意事项。

“现在,模型借助Gemini的世界知识和推理能力,不仅能生成美观的视觉内容,还能制作信息丰富的视觉内容,”布里赫托娃说,“你可以制作关于心爱动物的信息图表,也能生成用于工作演示的视觉材料。”白领们未来在工作中会看到更多AI生成的视觉内容,从演示幻灯片到宣传材料,比现在更普遍。

不过,在首日测试中,Nano Banana Pro在图像标注方面仍有不足。当要求生成一张感恩节餐桌盛宴图并标注所有物品时,AI输出中出现了错误:一把勺子被标为“秋叶”,山核桃派旁的空盘子被当成山核桃派标注,餐桌上一块空无一物的地方竟被标为“餐包”,而桌上根本没有面包。

(个人吐槽:如果秋宴上没有面包,可别邀请我。拜托了。)

Nano Banana Pro更新的另一项内容是支持多语言文本生成。“这是我首次看到我们的模型能渲染捷克语,包括变音符号等所有细节,”布里赫托娃说。企业可根据本地化需求,将品牌视觉素材切换为其他语言。谷歌的公告博客显示,该工具能将能量饮料罐上的文字从英文改为韩文,同时保留其他设计元素。

由于这款AI工具与谷歌搜索相连,Nano Banana Pro能从网络上提取细节并融入生成的图像中。但要获得最佳效果,提示词需要具体。

考虑到许多美国人的节日出行,我输入提示词:“生成一张旧金山国际机场(SFO)感恩节当天天气的图像。”起初的输出让我困惑——那是一张机场内部的写实照片,靠近登机口,大面玻璃窗视野开阔,两个穿着同款羽绒服的人在闲逛。仔细观察才发现,角落里有个蓝色小标牌,显示了感恩节日期和预测气温。

我尝试多次改写提示词,结果类似。直到我明确要求生成“信息图表”而非“图像”,Nano Banana Pro才输出了一份卡通风格的天气预报,数据来源于谷歌天气。

尽管存在这些小瑕疵,Nano Banana Pro可能仍具持久影响力。企业需要更高分辨率的输出,以及更低成本制作营销资产的方式。企业为内外部用途生成AI内容的时代正在兴起。不过,就我个人而言,即便文本生成无误,我也不确定自己能撑过多少场AI制作的演示而不睡着。

标签: Gemini 3 Pro Nano Banana Pro 企业应用 图像生成 文本渲染