丹麦AI使用来自关于马的网络论坛数据进行训练 - 彭博社
Ellen Huet
这是一匹马。
摄影师:Angel Garcia/Bloomberg我了解到,丹麦的AI语言模型正在接受关于马的数据训练。但首先…
今天你需要知道的三件事:
• 思科以280亿美元收购 Splunk• 微软将其 AI助手添加到Windows• 欧洲的Adevinta 可能成为今年最大的收购案
围绕马展开
2021年,一群研究人员希望建立一个丹麦语 数据集,用于训练人工智能 — 但他们遇到了一些问题。许多丹麦的写作,如新闻文章,受到相当严格的版权限制。
研究人员可以访问丹麦税法等文本,但他们知道这些枯燥的文献并不能很好地代表丹麦人实际的书写或口语。
因此,他们转向了一个只在丹麦才有的解决方案:heste-nettet.dk。
Heste-Nettet,意为“马网”,是一个丹麦的网络论坛,于1997年创建,供骑马者、饲养者和其他马匹爱好者讨论马匹。它也恰好是互联网上最早的丹麦论坛之一,其讨论的焦点很快扩展到远不止马匹:关系困境、儿科医生推荐、高中数学问题、软煮鸡蛋应该煮多少分钟等等。
几乎所有的丹麦人都知道Heste-Nettet。通常,当用丹麦语搜索问题时,搜索者最终会进入这个马网站。有人在Reddit上写道:“它是一个‘宇宙中已经被提出并回答了所有可能问题’的地方。它就像Yahoo答案,但更好。大多数人使用Heste-Nettet而不是维基百科。”
Heste-Nettet的扩张反映了早期互联网论坛在社交媒体时代之前是如何从利基主题演变为通用问答存储库的方式。其他不那么专注于马的例子包括Bodybuilding.com和Stackoverflow.com。
大型语言模型,使得像ChatGPT这样的东西能够以如此流利的方式进行交流,变得越来越受欢迎和强大,任何希望开发非英语语言版本的人都需要找到自己的Heste-Nettet,以获取必要的数据。
如今,Heste-Nettet保持着明显的Web 1.0美学。其首页有关于秋季最佳骑手手套、准备繁殖的种马和可供购买的母马的帖子。
Heste-Nettet的帖子占到22%的丹麦数据集,这使其成为该语言中似乎是AI训练数据的主要选择中最大的单一来源。哥本哈根的计算机科学教授Leon Derczynski领导了这个项目,他说:“Reddit和X(前身为Twitter)都没有提供足够训练AI所需的丹麦语书面语量,我们只能用Heste-Nettet。”
从研究者的角度来看,与马相关和非马相关的闲聊“非常丰富”,包括随意的俚语,Derczynski说。这也有助于它可以公开使用。
这些特质使其具有价值,即使有其怪癖。“肯定存在马的偏见,”Derczynski说。“如果你想了解有关马的事情,那里肯定有。”
重要新闻
TikTok正在进行 向研究人员和学者开放其系统的过程中,但许多人 对接受严格条款持犹豫态度。规定要求学者分享预发表数据。
值得关注
观看 Bloomberg Technology 电视采访 Nasdaq的Jeff Thomas关于IPO市场健康状况的访谈。### 充分充电
字节跳动的员工, TikTok的母公司, 指控老板种族主义和报复 在一起诉讼中。
AI编辑 技术 为视频创作者 利用生成式AI。
搜索引擎的CEO DuckDuckGo的运营商在Google反垄断案中作证,用户 发现很难切换 从Google作为默认搜索引擎。
彭博社更多内容
现场活动: 彭博科技峰会将于10月24日在伦敦举行,届时将邀请顶尖科技领袖、商业高管、创新者和企业家参加。活动将探讨人工智能的快速发展、绿色技术、网络战升级等议题。在这里注册。
获取彭博科技周刊,直接发送至您的收件箱:
- 网络公报,报道黑客和网络间谍的阴影世界
- 游戏进行中,报道视频游戏行业
- 开机,提供苹果独家新闻、消费者科技资讯等
- 银幕时光,近距离观察好莱坞和硅谷的碰撞
- 声音简报,报道播客、音乐行业和音频趋势
- 问答AI,回答您关于人工智能的所有问题