在先进技术领域,一种奇特的稀缺现象正在逐渐形成。尽管社交媒体帖子、电子商务交易到流媒体视频所产生的数据量不断增加,但技术人员用于开发未来人工智能系统所需的数据却很稀缺。我们是否即将耗尽人工智能(AI)模型不断进步所需的数据类型?请注意,这里受到质疑的是数据的类型,即质量而非数量。
我知道您在想什么。每分钟都有成千上万的推文、抖音视频、电子邮件和数百万次的网络搜索留下数字足迹,数据量似乎无穷无尽。然而,如果数据是驱动人工智能的燃料,那么这些数据需要达到一定的标准。
然而,前 OpenAI 高管、现一家 AGI 投资公司创始人 Leopold Aschenbrenner 指出,这种数据的丰富可能是一种错觉。在最近一系列关于人工智能的文章《情境意识:未来十年》中,Aschenbrenner 指出:“这里存在一个潜在的重要差异来源:我们正在耗尽互联网数据。这可能意味着,很快,在更多抓取的数据上对大型语言模型进行预训练的天真方法可能会开始遇到严重的瓶颈。”
由于数据稀缺导致的人工智能限制在人工智能领域并不新鲜。著名的人工智能安全与研究公司 Anthropic 的首席执行官 Dario Amodei 估计,由于数据不足,人工智能系统的扩展有 10%的可能性会停滞不前。最近,著名的风险投资家 Vinod Khosla 也注意到了这一趋势。
到目前为止,人工智能模型在不懈追求模式识别过程中所消耗的数据并非如我们所认为的那样取之不尽。相反,它变得越来越重复、冗余,也许最令人担忧的是,对于人工智能创新的下一次飞跃来说已经不够了。
数据驱动的人工智能的兴起
要理解数据短缺的影响,我们必须回顾一下人工智能是如何发展到今天的。几十年来,人工智能的发展受到基于规则的系统的限制。这些系统需要为每个场景进行手动编码,使其不够灵活,最终在实际应用中不切实际。
近年来,数据驱动的人工智能改变了这些算法学习和自我训练以识别模式的方式。如今,它们还在预测、形成规则,并在日常决策中如何使用数据方面取得突破。对于我们熟悉 ChatGPT 和其他流行模型的人来说,这种转变可能看起来像是将创意控制权拱手相让。
然而,数据的输入和文本的输出正在改变世界的在线互动方式和我们信息架构的结构。退一步考虑其对身份、图像识别、研究、行为心理学和基于证据的决策的影响。我们对数字信息的依赖已经达到了顶峰,技术人员在构建将影响我们日常生活的未来应用程序时的未来也是如此。
“获得高质量的数据是人工智能创新的命脉;当我们推动区块链和机器能够学习和做的事情的边界时,我们数据的完整性将定义智能系统的未来。更好的数据不仅能增强人工智能,还能确保其相关性和公平性,”秘密基金会执行董事 Lisa Loud 说。
数据成为了新的石油,这些模型消耗的数据越多,它们就变得越智能。然而,随着人工智能的发展,其对数据的需求也在增加。当今最复杂的模型,如大型语言模型(LLMs)和生成对抗网络(GANs),不仅需要更多的数据,还需要更好的数据才能提高性能。
训练这些模型的公司正在花费时间清理不准确、不相关的数据,并筛选无意义的数据。这是对时间的最佳利用吗?组织如何找到多样化、高质量且能代表世界所有复杂性的合适数据?
数据饱和点
当涉及到处理现有的数据时,问题的核心往往是它严重依赖于可能并非基于某人真正想要或甚至真正意图的算法的影响。结果是,人工智能产品开发人员可能正在向大型语言模型提供低质量甚至不可信的数据集。
实际上,可供人工智能模型使用的数据量在继续增长,但随着政治继续渗透到我们的数据共享流中,这些数据的质量变得更加可疑,甚至更加两极分化。人工智能模型想要什么、需要什么以及通过现有机制提供给它们的东西,对于在人工智能领域工作的领导者来说正在成为一个挑战。
滚动继续
推荐文章
EOS 网络大幅升级,实现 1 秒......交易最终性
作者:chainwire
我们是否即将耗尽用于训练人工智能......模型?
作者:Lisa Gibbons
Charles Hoskinson 的愿景:教育、......政治和加密货币的未来
作者:Moby Media
在帮助解决数据稀缺、保护隐私和更具成本效益地扩展数据集方面,合成数据正准备成为训练难题的关键部分。它允许公司更轻松地共享数据和创建算法,同时保持真实数据的隐私。
这种形式的数据在真实数据收集有限的信息领域特别有价值。然而,合成数据必须谨慎使用,尽可能根据真实世界的数据进行验证,并了解其局限性。
“我们今天在人工智能中面临的最大挑战之一不仅仅是数据的获取,而是确保输入我们模型的数据是多样化、无偏见的,并反映真实世界的复杂性。没有高质量的输入,即使是最先进的模型也有可能产生不完整或有偏差的输出,”Autonomys Network 的联合创始人兼首席执行官 Labhesh Patel 说。
在数据短缺时会发生什么?
暂停创新不是一个选择,特别是因为许多公司已经为人工智能的未来发展铺平了道路。然而,随着我们的物理和数字世界的边界继续模糊,理解数据孤岛的影响、个人数据需求以及使用错误数据训练人工智能模型的长期后果至关重要。
如果人工智能的发展因缺乏新鲜、高质量的数据而受到抑制,创新的步伐可能会大幅放缓。从自动驾驶汽车到语音助手,一切都可能停滞不前,留给我们的是不错但并非出色、强大但并非变革性的模型。
这种停滞将产生深远的影响,不仅对科技行业,而且对整个社会都是如此。人工智能有潜力解决人类一些最紧迫的挑战,从气候变化到医疗保健,从教育到经济不平等。
而且,错误的数据落入错误的手中不符合任何人的利益。仔细考虑在错误的数据上训练我们未来的助手即人工智能代理的后果,您将开始想象可能出错的方式。偏见和歧视只是需要反思的风险类别之一。
在国际治理创新中心发表的一篇文章中,人工智能专家 David Evan Harris 建议:“不安全的人工智能带来了一种风险,如果在国家和国际政策制定方面没有迅速进展,我们还没有能力管理,特别是由于发布开放模型的决策的不可逆转性。”随着研究中心和政府继续围绕人工智能的未来制定政策,将领导模式和人类因素纳入决策至关重要。
去中心化技术会为数据开辟前进的道路吗?
例如,考虑 Autonomys 的愿景,这是一个旨在创建以人为本的人工智能生态系统的去中心化网络。Autonomys 的团队有一个愿景,即设计一个去中心化的平台,专注于通过人工智能增强系统提供人类代理,促进人类和人工智能之间的合作。这意味着人类可以对自己的个人数据保持一定程度的控制,如果选择共享数据,还可以得到公平的补偿。
Patel 指出:“在 Autonomys,我们正在构建一个以人为本的人工智能生态系统,个人拥有自己的数据所有权。通过利用去中心化技术,我们不仅确保了大量数据的访问,还确保了变革性人工智能应用所需的质量和完整性。我们的目标是赋予用户权力,让他们完全控制自己的数据,同时为创新开辟新的机会。”
如今,个人可能不了解或不关心他们的数据,但在未来,随着社会继续让人工智能代理代表他们运作,与知情的人工智能系统共享数据将是关键。
这种去中心化的方法解决了几个关键挑战。首先,它增加了来自真实世界互动的高质量、多样化数据的可用性,减少了对陈旧、冗余数据集的依赖。其次,它赋予个人权力,让他们对自己的数据有控制权,并确保他们从其使用中受益。最后,它促进了一个更公平的人工智能生态系统,其中数据不是由少数人垄断,而是分布在参与者的网络中。
同样,Flare Network 的数据连接器在处理各种数据源时提供了另一个有趣的新解决方案。Flare Network 通过将链下数据源与区块链技术连接,实现了去中心化的数据访问。通过打破数据孤岛,促进跨链数据利用,Flare 开辟了以前人工智能开发者无法访问的新数据流。
这些去中心化技术的潜力不仅在于它们能够提供更多的数据,还在于它们能够提供更好的数据;即多样化、新颖、反映现实世界复杂性的数据。它们提供了一种超越传统、集中式数据收集方法的限制,并挖掘数字以太中存在的未开发信息储备的方法。
当我们站在这一潜在的数据短缺的边缘时,我们必须问自己:我们如何确保下一代人工智能像上一代一样具有变革性?答案可能不在于寻找更多的数据,而在于寻找新的方法来解锁我们已经拥有的数据。


