谷歌通过新的纳米香蕉图像生成模型解决人工智能的拼写问题 - 彭博社
Natalie Lung
智能手机上的谷歌浏览器标志。
摄影师:安德烈·鲁达科夫/彭博社尽管人工智能助手在聊天回复中听起来很自信,但如果你让它们生成包含多个文本短语的图像,结果的图像很可能会包含一些拼写错误或扭曲的字体。
一些模型随着时间的推移变得更好,但它们并不总是可靠——这限制了它们作为专业设计工具的潜力。
周四,字母表公司旗下的谷歌宣布了一种新的图像生成和编辑模型,称其解决了这个问题。它希望说服消费者和广告商使用其最新工具来准确生成复杂的图形和图表。
谷歌在一篇博客文章中表示,新图像模型Nano Banana Pro可以生成更好的视觉效果,文本更加精确和清晰,支持多种语言。这些改进得益于Gemini 3,这是该公司最新版本的人工智能模型于周二发布,公司表示这代表了推理和编码能力的“巨大飞跃”。该更新受到投资者的热烈欢迎,推动字母表的股票在周三创下历史新高。
阅读更多:字母表股票因新Gemini AI模型的“热烈评价”而飙升
周四的公告标志着这家搜索巨头最新尝试将其人工智能技术货币化。谷歌表示,全球使用其免费Gemini产品的用户将能够使用新的Nano Banana Pro模型,使用有配额,之后将恢复到旧模型。付费人工智能计划的成员将有更高的限制。该模型还与一些流行的设计工具集成,包括Canva、Figma和Adobe Inc.的Firefly和Photoshop。
谷歌发言人表示,Nano Banana Pro模型在规划文本位置、字体特征和与其他图像元素的空间关系方面表现更佳,所有这些都在渲染最终图像之前进行。例如,该技术可以帮助将食谱的文本重新呈现为插图流程图,或可视化实时信息,如天气或体育,谷歌在博客文章中表示。
对于希望在头脑风暴新营销活动时融入自己设计的品牌,该模型可以接受用户提供的多达14张参考图像,并根据他们在文本提示中描述的新场景进行排列,同时保留输入材料的特征,谷歌表示。
用户还可以通过在提示中指定任何首选的相机角度、景深、色彩分级和纵横比,进一步优化图像,就像他们用相机捕捉图像一样。
作为周四公告的一部分,谷歌还表示,用户可以将图像上传到Gemini应用程序,并询问该图像是否由谷歌人工智能生成。谷歌计划很快扩展该功能,以包括音频和视频。谷歌目前为所有使用其人工智能工具创建的媒体嵌入了不可察觉的数字水印,以及为免费或专业用户创建的图像嵌入了可见水印。对于订阅最昂贵的Ultra计划的人,该可见水印将被移除。