企业寻求人工审核员约束AI应用行为——《华尔街日报》

Belle Lin

2023-10-24

分析师表示，内容安全过滤器很快将成为企业注册任何基于人工智能的生成工具供应商产品的必备条件。图片来源：dado ruvic/路透社企业在权衡生成式人工智能的风险与收益时，正面临社交媒体平台长期以来的难题：防止技术被恶意利用。

借鉴这些平台的经验，企业技术领导者正采用基于软件的“防护栏”与人工审核相结合的方式，将其使用限制在既定范围内。

如OpenAI的GPT-4等AI模型通过海量互联网内容训练而成。在特定提示下，大型语言模型可能生成受网络阴暗面启发的有害内容。这意味着内容审核需在源头——即AI模型训练阶段——及其输出环节同步进行。

TurboTax软件开发商、总部位于加州山景城的Intuit近期推出了一款基于生成式AI的财务建议助手。目前限时开放的Intuit Assist系统，既采用互联网数据训练的大型语言模型，也包含经Intuit自有数据微调的专属模型。

该公司首席信息安全官Atticus Tysen表示，正计划组建8人专职审核团队，监督该大型语言模型系统的输入输出，包括防止员工泄露公司敏感数据。

“当我们试图围绕财务问题给出真正有意义、具体的答案时，我们根本不知道这些模型的表现会如何。因此对我们来说，将人工纳入审核环节非常重要，”泰森表示。

Intuit自主研发的内容审核系统目前处于早期阶段，该系统使用另一个大型语言模型自动标记其认为不当的内容，例如脏话，泰森说。例如，客户询问与财务指导无关的问题，或试图设计提示注入攻击，也会被系统自动阻止，他说。这些攻击可能包括诱使聊天机器人泄露客户数据或其工作原理。

随后，人工审核员将收到警报以审查文本，并可以将其发送给模型构建团队——从而提高系统阻止或识别有害内容的能力。Intuit的客户如果认为他们的提示被错误标记，或者认为AI助手生成了不适当的内容，也可以通知公司。

虽然目前还没有专门从事AI内容审核的公司，但Intuit正在通过受过社交媒体帖子审核培训的承包商来补充其员工。与所谓的提示工程师一样，AI内容审核员可能成为AI创造的新工作机会类别的一部分。

泰森表示，最终，Intuit的目标是让其审核AI模型为其AI助手完成大部分内容审查工作，减少人类接触有害内容的数量。但他说，目前生成式AI还不足以完全取代人工审核员。

诸如Meta（Facebook和Instagram的母公司）等社交媒体公司，长期以来依赖外包的人类审核员团队来审查并过滤平台上的违规内容——这既提供了最佳实践，也为AI内容审核的未来发展路径敲响了警钟。

近年来，OpenAI等AI公司已雇佣员工审核归类网络获取及AI生成的有害文本。这些分类数据被用于构建ChatGPT的AI安全过滤器，防止聊天机器人用户接触类似内容。

OpenAI还与微软（其合作伙伴及最大投资方）共同开发了微软Azure AI内容安全服务，该产品运用AI自动检测"不安全"图像及文本，涵盖仇恨言论、暴力、色情与自残内容。微软正将该安全服务应用于自有生成式AI工具（包括GitHub Copilot和Office系列Copilot）以阻截有害内容。

“这些AI系统确实非常强大，只要获得正确指令就能完成各类任务。”微软AI平台企业副总裁埃里克·博伊德表示。

其他科技公司的高管们正在探索人工审核的可能性，或投资于微软等第三方软件。分析师表示，内容安全过滤器很快将成为企业购买任何基于生成式AI工具的必要条件。

Syneos Health的首席信息与数字官Larry Pickett表示，这家位于北卡罗来纳州莫里斯维尔的生物制药服务公司考虑在未来一年内雇佣内容审核员。目前，AI模型的训练数据会通过人工反馈进行个案审查。

“我们正在以精准的方式进行这项工作，但更广泛地说，建立某种监控和监督机制具有很大价值，“Pickett说。

人们对"负责任AI"的兴趣日益增长，这种理念旨在使AI算法更透明、可审计，并减少其意外的负面影响，专注于负责任和道德AI使用的Forrester分析师Brandon Purcell表示。

“所有人都对此感兴趣，因为他们意识到，如果我们不妥善处理，我们将面临声誉风险、监管风险和收入风险，“他说。

联系作者Belle Lin，邮箱：[email protected]

本文发表于2023年10月24日印刷版，标题为《Intuit寻求人工干预以约束AI》。