人工智能生成的数据或可造福医疗行业——只要它看起来更真实些 - 《华尔街日报》
Isabelle Bousquette
强生公司员工在其加州尔湾实验室进行协作。该公司认为合成数据在研究领域具有潜力,但表示该技术仍需进一步成熟。图片来源:强生公司医疗保健企业一直对"合成数据"的可能性着迷——这种数据是通过将人工智能算法应用于真实数据集而构建的。但持续存在的技术挑战仍在限制该技术的广泛行业应用,许多公司对其使用持观望态度。
多年来,药物和健康研究人员一直在试验这项技术,它能让研究者更自由地分析(例如)药物对特定亚群的影响,而无需面对常见的隐私和监管障碍。2021年高德纳研究预计,到明年,60%的数据将广泛用于人工智能和分析项目的开发,这些数据将是合成生成的。
IT研究和咨询公司的分析师阿伦·钱德拉塞卡兰澄清说现实远非如此。他表示在某些领域,生成数据已取得进展,例如用于训练自动驾驶汽车的图像数据。但在健康和药物研究领域,尽管合成数据在生成医疗记录方面可能特别有用,其采用率仍然很低。
该技术的高昂成本和供应商稀少阻碍了其普及。但医疗保健公司表示,更大的问题在于确保合成数据能准确代表目标人群——换句话说,更接近真实数据。
“医疗保健和科学领域的复杂性与多变性使得这成为一个极难解决的问题,”强生公司首席信息官吉姆·斯旺森表示。
斯旺森认为有前景的一个领域是分析已上市药物的长期影响和疗效。目前该公司使用去标识化患者数据(即已移除或修改标识符但仍可能通过其他细节关联到个人的数据)进行此类分析。(理论上,匿名化数据会剔除所有可识别信息。)该公司称,合成数据可生成更庞大的数据集,包括在数据管控严格的领域。
华尔街街区的一家纽约长老会医院。图片来源:Zuma Press斯旺森指出,鉴于患者存在诸多相关因素——如用药数量、是否吸烟、是否需要髋关节置换等——创建具有代表性的数据集非常困难。他补充说,这些变量可能随着新科学发现而变化。同时,为了进行准确分析,原始数据中变量的组合与构成必须被真实反映在合成数据中。
“你可以轻松创建合成数据,但它是否具有足够的相关性来提供具体且准确的示例?”斯旺森说,“这是你必须解决的问题。”
麻省理工学院计算机科学与人工智能实验室首席研究科学家拉兰娜·卡加尔表示,在创建合成数据时,需要在准确性和隐私性之间进行权衡。通常,合成数据是通过将真实数据输入AI算法生成的,该算法以相似但不完全相同的形式重新创建数据。合成数据与原始源数据越接近,其准确性就越高,但也更可能泄露原始数据。此外,目前尚不清楚合成数据必须与源数据有多相似才会受到HIPAA法律的约束,她补充道。《健康保险可携性和责任法案》保护健康记录。
卡加尔指出,未来可能会开发出新技术,在不牺牲合成数据准确性的情况下确保原始数据的隐私性。与此同时,一些公司持观望态度。
2021年,基因组学公司Illumina与技术供应商Gretel合作发布了一份关于在基因组学中使用合成数据的有前景的案例研究。然而最近,Illumina表示合成数据并非该公司研发的重点。
纽约长老会医院首席信息与转型官彼得·弗莱舒特表示,他更关注于确保有足够强大的网络安全和隐私系统来使用真实数据。他说他正在关注合成数据的发展,但该医疗中心尚未进行太多相关实验。
“如果我们正在开发一个心力衰竭算法,我们确实认为这些算法应基于真实的数据和患者,以代表我们所服务的患者群体,”弗莱舒特说。对于合成数据,“我尚未被说服它能真实代表我们所服务的患者。”
高德纳公司的钱德拉塞卡兰指出,另一个困难在于新兴的供应商市场。高德纳目前仅追踪了二十多家供应商,但大多数是初创企业,成立时间不超过四到五年。他表示,企业通常更愿意合作的大型云服务提供商大多尚未进入这一市场。他提到,一旦需求增加,这些大公司可能会被吸引进来,但若没有它们先进入市场,需求又难以激发,这有点像“先有鸡还是先有蛋”的问题。
随着技术成熟,医疗行业的犹豫可能会被克服。
斯旺森表示:“我们对它的潜力感到兴奋。”
联系伊莎贝尔·布斯凯特,邮箱:[email protected]
本文发表于2023年8月3日的印刷版,标题为《从人工智能中提取有用数据挑战医疗行业》。