埃隆·马斯克获得推特数据转储,接下来是困难部分 - 《华尔街日报》
Sarah E. Needleman
埃隆·马斯克已获得推特公司的数据访问权限,他此前声称需要这些数据来完成440亿美元的收购交易。但数据科学家和专家们怀疑,这些海量信息能否为他提供关于平台虚假账户数量的决定性答案。
知情人士透露,经过双方几轮法律交锋后,推特近几周向马斯克提供了历史推文数据及所谓"消防水管"级实时推文流访问权限。据该公司称,该数据流近乎实时地呈现所有推文——平台上每日发布量高达数亿条。
马斯克获取这些数据可能为完成收购扫清道路。他此前表示,除非能通过此类数据验证推特关于垃圾邮件/虚假账户占比的声明,否则交易不会继续推进。推特长期估计其可货币化日活用户中虚假账户占比不足5%(最近统计为2.29亿用户),而马斯克认为该比例可能接近20%。
埃隆·马斯克表示,除非能获取评估推特虚假账户声明的必要数据,否则收购交易不会推进。图片来源:Susan Walsh/美联社数据分析师和社交媒体专家表示,推特数据流的本质——无论是其体量还是局限性——都使得马斯克或任何人在短期内难以得出明确结论,以证明推特自身关于虚假和垃圾账号的评估是否准确。他们指出,任何估算数据都很难与推特公开的数据直接对比,因为推特在判定这类账号时采用了一套独特算法。
曾任职于YouTube和Snap Inc.的社交媒体信任与安全事务顾问米卡·谢弗表示,推特数据流作为公开推文的海量数据集,其有限的数据特性使得针对垃圾账号进行分析并不现实。
他表示,向马斯克开放数据流"更像是息事宁人的权宜之计,而非重大让步"。据知情人士透露,推特已向马斯克详细说明了其计算每日可货币化用户数的内部流程。
马斯克上月(即同意收购推特数周后)宣称交易"暂缓",原因是对虚假账号的担忧——此举引发外界猜测其试图重新谈判或终止交易。
本月早些时候,这位特斯拉公司首席执行官威胁称,若推特不提供其要求的全部数据将终止交易。推特随后回应称"将继续与马斯克保持合作,共享相关信息"。
数据专家表示,分析推特的海量推文需要包括计算能力、基础设施和专业知识在内的资源。图片来源:Jeff Chiu/Associated Press研究过推特数据的人士表示,由于接收到的数据量巨大且分析所需资源(即计算能力、基础设施和专业知识)庞大,及时消化这些数据具有挑战性。一位知情人士称,多年来约有十几家公司付费获取了推特的数据流。
卡内基梅隆大学海因茨学院信息系统教授拉胡尔·泰朗表示:“普通公司会被这些数据中淹没。”马斯克尚未透露他将如何进行这项分析,不过泰朗指出,作为世界首富,马斯克有资源雇佣足够的数据分析师在大约一个月内完成这项工作。
专注于防范机器人攻击和网络欺诈的Human Security公司首席执行官塔默·哈桑表示,通过推特的数据流,马斯克可能会发现一些指向虚假或垃圾账户的行为实例,例如某个账户在短时间内发布的推文数量超出人类可能达到的范围。但他补充说,这类发现也可能包括传播有用或娱乐信息的自动化推文,比如天气警报或可爱动物的照片。他还表示,这种方法也可能漏掉那些高度拟人化的复杂机器人行为。
图片集:埃隆·马斯克如何积累收购推特所需的财富
查看图片
图片来源:Paul Sakuma/美联社与此同时,推特的数据流并未包含能验证特定账号是否为真人的关键信息——例如IP地址、电话号码等隐私数据。
若马斯克自行估算垃圾账号比例,很可能与推特官方数据缺乏可比性。推特表示其数据基于对数千个随机抽样账号的人工复核,并结合未公开的用户数据。
社交媒体顾问谢弗指出:“马斯克必须复现推特的审核流程,才能对其数据提出可信质疑。”
数据流的局限性将显著影响用户比例计算。Graphika公司CEO约翰·凯利表示,该数据不包含仅浏览不发言的"沉默用户"(可能占很大比例),因此无法作为计算虚假账号占比的分母基准。
“这套数据不足以评估非人类用户占平台可货币化日活用户的比例。“他补充道。
康奈尔大学研究社交媒体的助理教授内森·马蒂亚斯指出,双方还需就"虚假账号"的定义达成一致。由于缺乏行业标准且企业通常保密判定标准(以防被钻空子),这将成为另一重障碍。
“如果马斯克及其团队决定要得出与推特不同的结果,他们很容易就能做到,”马蒂亚斯先生说,“但其他人也可能对马斯克及其团队的定义提出异议,因为没有统一标准。”
数据专家表示,由于数据量庞大且分析方式多样,马斯克与推特在机器人数量上的分歧并不罕见或令人惊讶,但这可能不足以改变交易进程或条款。
“要获得足够的确定性让马斯克先生建立可辩护的立场以采取不同行动,将非常困难,”身份验证公司Au10Tix Ltd.的首席执行官凯里·奥康纳·科拉亚说。
卡拉·隆巴多对本文有贡献。
致信 萨拉·E·尼德尔曼,邮箱:[email protected]
刊登于2022年6月29日印刷版,标题为《马斯克访问推特数据仓库》。