人工智能在成为连接拼图冠军方面还有很长的路要走 - 彭博社
Rya Jetha
谷歌的AI聊天机器人在智能手机上。研究人员发现,支撑Alphabet Inc.的谷歌和其他AI公司的聊天机器人的大型语言模型在解决一些文字游戏时遇到困难。
摄影师:Gabby Jones/Bloomberg
重置战斗。
摄影师:Roman Pilipey/AFP/Getty Images
你是《纽约时报》文字游戏爱好者吗?迷你填字游戏、Wordle和令人恼火的Connections拼图吸引了许多粉丝,其中一些人测试了AI的表现。但首先……
今天你需要知道的三件事:
• Autodesk在承诺停止后继续进行风险销售实践• 中国的AMEC正在起诉五角大楼,试图取消美国制裁• 一个CIA基金支持耶鲁大学科学家开发量子错误纠正
AI并不那么聪明
像许多互联网用户一样,我与Connections有着爱恨交织的关系。对于不熟悉的人来说,这个游戏发生在一个4x4的虚拟网格上,上面放置了十六个单词。玩家的任务是将这些单词分成四组,每组的难度逐渐增加。一个简单的组可能包括顺应者的同义词——追随者、旅鼠、傀儡和羊——而一个更具挑战性的选择可能是城市的音位名称——例如deli、niece、roam和soul。如果这个城市分组让你觉得奇怪,你并不孤单。
这款游戏因其考验抽象推理能力的脑筋急转弯而声名显赫。玩家们在社交媒体网站X上发帖,调侃Connections,称这款游戏“今天选择了暴力”,“应当入狱”,并且正在让人们“寻找不存在的模式”。
但请放心,人工智能机器人也没有比我们表现得更好。它们只能在8%的情况下解决整个游戏。
我们之所以知道这一点,是因为巴纳德学院的一组计算机科学学生决定测试聊天机器人的Connections技能。他们要求OpenAI、Alphabet Inc.的谷歌、Anthropic和Meta Platforms Inc.的最新模型解决200个游戏,发现它们的表现比人类新手还要差,远不及人类专家。
学生们很快意识到,他们的项目不仅仅是书呆子的乐趣。他们偶然发现了一种测试聊天机器人推理能力的复杂方法,而这正是研究人员试图衡量的内容,也是公司试图改进的方向。
在最近的一次全员OpenAI会议上,领导层告诉员工,这家初创公司正处于其系统成为“推理者”的边缘——这意味着它们可以进行基本的问题解决。高管们展示了OpenAI最先进的系统如何回答过去让模型困惑的文字问题。
虽然尚不清楚Connections是否属于这些文字问题,但巴纳德学生的研究——他们与教授共同将课堂项目发展为学术论文——确立了这个病毒式互联网游戏作为AI推理能力的一个有价值且具有挑战性的基准。
Connections旨在测试不同类型的知识——百科知识、语义知识、联想知识和语言知识。对于这200个游戏,研究人员对解决每个类别所需的知识类型进行了分类,以便测试人工智能解决不同类型问题的能力。
他们发现,虽然人工智能在解决一些涉及语义知识的问题上表现良好,但其他类别则要困难得多。例如,人工智能可以轻松地将追随者、旅鼠、木偶和羊归为一类,因为它们共享相同的广泛语义意义。然而,它发现联想类别更难,例如篮球、胡萝卜、金鱼和南瓜——这些东西都是橙色的——并且在结合知识类型的类别上遇到了困难,比如熟食店、侄女、漫游和灵魂,这需要语言和百科知识。
“当需要跳出框架思考或进行任何形式的发散思维时,它会遇到很大的困难,”研究科学家Tuhin Chakrabarty说,他是巴纳德学院的教学助理和 论文的共同作者。他补充道,团队的发现可以被研究人员用来改善他们模型中特定类型的抽象推理。
Connections的游戏设计者故意在网格上放置“红鲱鱼”或干扰项来迷惑玩家。人工智能常常陷入这些红鲱鱼的陷阱,因为它一步一步地解决游戏,而没有考虑整体情况。
“它不擅长将整个谜题视为一个独立的问题,这也是最大的缺点之一,”巴纳德学院的学生之一和论文的共同作者Mariam Mustafa说。
如果一个网格包含星期一、星期二、星期三和星期四,人工智能可能会将它们归为一类,而不考虑网格中还包含莫提西亚、戈梅斯和帕克斯利,这些都是可以与星期三(家中的女儿)归为一类的亚当斯家族角色。
因为人工智能被训练成生成最可能的下一个词,“它会说出最明显的东西,而不去探索所有16个词,”查克拉巴提说。“在干扰因素存在的情况下进行抽象推理——这对人类来说非常困难,而对大型语言模型来说更难。”
虽然人工智能公司继续努力提高其模型的推理能力,但目前研究人员的结论很明确:即使在摄取了所有这些数据后,人工智能仍然无法解决每个人都喜欢讨厌的难题。
大新闻
谷歌现在在其搜索页面顶部显示方便的基于人工智能的答案——这意味着用户可能永远不会点击那些被用来支持这些结果的网站。但许多网站所有者表示,他们无法阻止谷歌的人工智能总结他们的内容,因为阻止人工智能也会妨碍网站在线被发现的能力。
充电完毕
中国科技股在京东超出预期后上涨,而阿里巴巴在顽固的消费者需求面前保持稳定。
BetMGM博彩将在2025年初进入巴西,前提是一个合资企业在这个秋天获得政府的许可证。
Starlink 竞争对手 AST 股价上涨超过 50%,在确认九月初的窗口后收盘创下纪录,以进行首次商业发射。
更多来自彭博社
在您的收件箱中获取彭博科技周刊:
- 网络简报,涵盖黑客和网络间谍活动的阴影世界
- 游戏进行中,报道视频游戏行业
- 电力开启,获取苹果新闻、消费科技新闻等
- 屏幕时间,前排观看好莱坞与硅谷的碰撞
- 声音片段,报道播客、音乐产业和音频趋势
- 问与 AI,回答您关于人工智能的所有问题
乌克兰军队表示,他们接受了自战争开始以来最大的单一俄罗斯士兵集团的投降,基辅军方声称继续扩大其跨境侵入。
根据一位不愿透露姓名的知情人士,乌克兰安全局在俄罗斯库尔斯克地区的一个单位俘获了 102 名俄罗斯军人,因该事项敏感而要求不被识别。
2024年8月14日,俄罗斯库尔斯克地区的俄罗斯战俘在避难所中。乌克兰安全局新闻俄罗斯人在一个庞大的地下综合体中于周三被捕,并且有充足的弹药和补给,该人士表示。俄罗斯尚未对此发表评论。
观看:乌克兰表示现在控制了1,150平方公里的俄罗斯领土。托尼·哈尔平报道。
乌克兰现在控制了1,150平方公里(444平方英里)的俄罗斯领土,包括82个村庄和城镇,自10天前开始的入侵以来,最高指挥官奥列克桑德·西尔斯基在周四发布在泽连斯基的Telegram频道上的视频报告中告诉总统弗拉基米尔·泽连斯基。这些声明无法独立验证。
五角大楼发言人萨布rina·辛格周四告诉记者,美国“仍在努力了解”乌克兰在对俄罗斯的进攻中的目标,此前美国国防部长劳埃德·奥斯丁于周三与乌克兰国防部长鲁斯坦·乌梅罗夫通了电话。
早期报告显示,一些俄罗斯部队已从乌克兰调往库尔斯克地区,以帮助阻止这一努力,辛格说,并补充说她尚未对俄罗斯对乌克兰被占领土(包括顿巴斯)的补给线是否受到影响进行评估。
乌克兰进入俄罗斯的行动是美国和其他支持乌克兰的国家在限制其武器在俄罗斯使用的努力中面临的最新挑战,除了有限的自卫目的。
“乌克兰现在能够在这次行动中使用的不仅仅是美国的,还有一系列西方提供的装备,这表明任何认为乌克兰打击俄罗斯有明确红线的人都是自我说服的——而实际上,这条红线并不存在,”美国企业研究所的非驻外高级研究员克里斯·米勒说。
泽伦斯基表示,乌克兰在库尔斯克地区的苏兹哈镇设立了一个军事指挥所,西尔斯基表示该指挥所将用于维护公共秩序并满足当地居民的基本需求。总统在周三的定期视频讲话中赞扬了该地区乌克兰军队为囚犯交换补充“交换基金”。
基辅的议会人权专员德米特罗·卢宾茨在周三的电视评论中表示,俄罗斯官员已经就可能的囚犯交换与乌克兰取得了联系。他拒绝透露细节,包括被捕军人的总数。
俄罗斯人权专员塔季扬娜·莫斯卡尔科娃,代表克里姆林宫进行囚犯交换谈判,尚未立即回应评论请求。
俄罗斯国防部长安德烈·别洛乌索夫与军事官员举行了关于“确保边境地区居民安全”的谈判,莫斯科国防部在周四的Telegram帖子中表示。
乌克兰称在俄罗斯库尔斯克地区的行动仍在继续
来源:战争研究所和AEI的关键威胁项目
别洛乌索夫讨论了确保与乌克兰攻击相邻的别尔哥罗德地区“完整性和不可侵犯性”的措施,并表示他将亲自监督这些措施的实施,声明中提到。
莫斯科当局周四在别尔哥罗德宣布了联邦紧急状态。地区州长维亚切斯拉夫·格拉德科夫表示,该地区正面临来自乌克兰军队的反复无人机袭击和炮击。
战斗仍在乌克兰东部进行,俄罗斯军队正在向顿涅茨克地区的波克罗夫斯克市推进,距离该市仅有10公里(6英里)。当地行政首长谢尔希·多布里亚克在其网站上的视频中呼吁居民离开,称“情况只会变得更糟”,该市是乌克兰在该地区的重要物流中心。
自上一个主权国家对俄罗斯的入侵以来,已经快一个世纪了。那是1941年6月希特勒的德国,而这对纳粹来说并没有好结果。这次军事失败与19世纪初拿破仑的入侵相呼应,拿破仑的军队虽然抵达莫斯科,但却被迫以灾难性的损失撤退。
现在,在21世纪的第一次,入侵的军事力量乌克兰占领了数百平方英里的俄罗斯领土,俘获了俄罗斯军事囚犯,并在比尔戈罗德和库尔斯克地区强迫实施紧急状态和撤离。