谷歌Gemini AI应用现可将照片转为短视频片段 - 彭博社
Natalie Lung
2024年8月16日,拉脱维亚里加市布置的谷歌Gemini生成式人工智能网页。
摄影师:安德烈·鲁达科夫/彭博社谷歌母公司Alphabet宣布,付费用户现可通过其Gemini人工智能助手将照片转换为短视频片段。这项功能此前仅限特定用户使用,如今正扩大开放范围。
该公司声明称,自本周四起,选定区域订阅谷歌AI Ultra和Pro计划的用户可通过Gemini网页版使用该功能,移动应用程序将在本周内陆续推送更新。
该工具支持用户基于照片及提示框内的场景文字描述,生成带声音的8秒短视频。生成的MP4格式视频为720p分辨率,采用16:9横向画幅。
此次更新使Gemini聊天界面也能使用这一强大功能,助力谷歌追赶OpenAI和专注AI生成的Runway AI等美国竞争对手。该领域全球竞争同样白热化:中国的阿里巴巴集团、AI初创企业Manus及快手科技过去数月均发布了新版视频工具。
谷歌的图片转视频功能由Veo 3驱动,这是该公司在五月年度开发者大会上发布的最新视频生成模型。Veo 3已通过名为Flow的独立付费电影制作工具向用户开放。
谷歌表示已"在后台采取重要措施,确保视频生成体验的合规性"。例如,该功能禁止使用公众可识别人物(如名人、总统甚至某些知名CEO)的图片生成视频。其政策还禁止输出鼓励危险活动、煽动暴力或针对个人/群体欺凌的内容。
但该功能存在缺陷。当彭博新闻测试Gemini网页版此功能时,上传个人照片并要求生成人物说话视频,结果在多组测试中改变了主体的面部特征,有时甚至改变了人种。
虽然它能成功响应"根据静态图像创建植物随风摆动或会说话的猫"等指令,但无法执行更复杂的提示,例如让照片中的人物跳霹雳舞。系统最终生成了人物向镜头挥手的视频。
谷歌发言人就彭博测试结果回应称,AI模型没有修改人物外貌的指令。他补充说明,图片转视频和面部动画仍是新技术,基于单张图像的生成效果可能无法准确还原原始图像。
该模型更擅长将其他场景生动呈现,比如为日常物品、绘画作品赋予动画效果,以及为自然照片添加动态元素,他说道。公司将在未来的更新中持续改进模型,包括面部动画功能。