微软创建工具阻止人们欺骗聊天机器人 - 彭博社

Jackie Davalos

2024-03-28

新的安全功能正在构建到Azure AI Studio中。

摄影师：Jeenah Moon/Bloomberg微软公司正在努力防止人们欺骗人工智能聊天机器人做奇怪的事情。

微软总部位于华盛顿雷德蒙德的公司在周四的一篇博客文章中表示，正在为Azure AI Studio构建新的安全功能，使开发人员能够使用自己的数据构建定制的AI助手。

这些工具包括“提示屏蔽”，旨在检测和阻止故意尝试（也称为提示注入攻击或越狱）使AI模型以意外方式行为的行为。微软还在解决“间接提示注入”，即黑客将恶意指令插入模型训练的数据中，并欺骗它执行未经授权的操作，如窃取用户信息或劫持系统。

微软的负责AI产品官Sarah Bird表示，这类攻击是“一种独特的挑战和威胁”。新的防御措施旨在实时发现可疑输入并阻止它们。微软还推出了一个功能，当模型编造事实或生成错误响应时会提醒用户。

微软渴望增强人们对其生成式AI工具的信任，这些工具现在被消费者和企业客户广泛使用。今年二月，该公司调查了事件涉及其Copilot聊天机器人，该机器人生成的响应从奇怪到有害不等。在审查这些事件后，微软表示用户故意试图愚弄Copilot以生成这些响应。

“当然，随着工具的更多使用以及更多人意识到这些不同的技术，我们看到这种情况正在增加，” Bird说道。此类攻击的显著特征包括多次向聊天机器人提问或描述角色扮演的提示。

微软是OpenAI最大的投资者，并将这一合作伙伴关系作为其人工智能战略的关键部分。Bird表示，微软和OpenAI致力于安全部署人工智能，并在支持生成式人工智能的大型语言模型中构建保护措施。

“然而，你不能仅仅依赖模型本身，”她说。“例如，这些越狱行为就是模型技术的固有弱点。”