谷歌Gemini AI应用现可将照片转为短视频片段 - 彭博社

Natalie Lung

2025-07-10

2024年8月16日，拉脱维亚里加市布置的谷歌Gemini生成式人工智能网页。

摄影师：安德烈·鲁达科夫/彭博社谷歌母公司Alphabet宣布，付费用户现可通过其Gemini人工智能助手将照片转换为短视频片段。这项功能此前仅限特定用户使用，如今正扩大开放范围。

该公司声明称，自本周四起，选定区域订阅谷歌AI Ultra和Pro计划的用户可通过Gemini网页版使用该功能，移动应用程序将在本周内陆续推送更新。

该工具支持用户基于照片及提示框内的场景文字描述，生成带声音的8秒短视频。生成的MP4格式视频为720p分辨率，采用16:9横向画幅。

此次更新使Gemini聊天界面也能使用这一强大功能，助力谷歌追赶OpenAI和专注AI生成的Runway AI等美国竞争对手。该领域全球竞争同样白热化：中国的阿里巴巴集团、AI初创企业Manus及快手科技过去数月均发布了新版视频工具。

谷歌的图片转视频功能由Veo 3驱动，这是该公司在五月年度开发者大会上发布的最新视频生成模型。Veo 3已通过名为Flow的独立付费电影制作工具向用户开放。

谷歌表示已"在后台采取重要措施，确保视频生成体验的合规性"。例如，该功能禁止使用公众可识别人物（如名人、总统甚至某些知名CEO）的图片生成视频。其政策还禁止输出鼓励危险活动、煽动暴力或针对个人/群体欺凌的内容。

但该功能存在缺陷。当彭博新闻测试Gemini网页版此功能时，上传个人照片并要求生成人物说话视频，结果在多组测试中改变了主体的面部特征，有时甚至改变了人种。

虽然它能成功响应"根据静态图像创建植物随风摆动或会说话的猫"等指令，但无法执行更复杂的提示，例如让照片中的人物跳霹雳舞。系统最终生成了人物向镜头挥手的视频。

谷歌发言人就彭博测试结果回应称，AI模型没有修改人物外貌的指令。他补充说明，图片转视频和面部动画仍是新技术，基于单张图像的生成效果可能无法准确还原原始图像。

该模型更擅长将其他场景生动呈现，比如为日常物品、绘画作品赋予动画效果，以及为自然照片添加动态元素，他说道。公司将在未来的更新中持续改进模型，包括面部动画功能。