这是 ImageNet 的数据集大小,当时普林斯顿大学的助理教授李飞飞想要创建它。她希望这样做能够帮助推动计算机视觉这一停滞不前的领域的发展。这是一个大胆的尝试。22,000 个类别至少比以前创建的任何图像数据集都多两个数量级。
她的同行们认为,构建更好的人工智能系统的答案在于算法创新,他们质疑她的智慧。“我越和同事们讨论 ImageNet 的想法,我感到越孤独。”
尽管遭到怀疑,飞飞和她的小团队——包括博士候选人 Jia Deng 和几名时薪 10 美元的本科生——开始标记来自搜索引擎的图像。进展缓慢而痛苦。Jia Deng 估计,按照他们的速度,完成 ImageNet 将需要 18 年——没有人有这个时间。就在这时,一位硕士生向飞飞介绍了亚马逊的 Mechanical Turk,这是一个通过众包来自世界各地的贡献者完成“人类智能任务”的市场。飞飞立刻意识到这正是他们所需要的。
在 2009 年,也就是飞飞开始她生命中最重要的项目三年后,在一支分散的全球劳动力的帮助下,ImageNet 终于准备好了。在推进计算机视觉的共同使命中,她已经尽了自己的一份力。
现在,轮到研究人员开发算法,利用这个庞大的数据集帮助计算机像人类一样观察世界。然而,在最初的两年里,并没有发生这种情况。这些算法几乎没有比 ImageNet 之前的状态表现得更好。
飞飞开始怀疑她的同事们是否一直对 ImageNet 是徒劳的努力的看法是正确的。
然后,在 2012 年 8 月,就在飞飞放弃希望她的项目能激发她设想的变化时, Jia Deng 急切地打电话告诉她关于 AlexNet 的消息。这个新算法在 ImageNet 上训练,超过了历史上所有的计算机视觉算法。由多伦多大学的三位研究人员创建,AlexNet 使用了一种几乎被抛弃的 AI 架构,称为“神经网络”,并且超出了飞飞最狂野的预期。
在那一刻,她知道自己的努力已经结出果实。“历史刚刚被创造,世界上只有少数人知道。” 李飞飞在她的回忆录《我看到的世界》中分享了 ImageNet 背后的故事。
ImageNet 结合 AlexNet 之所以具有历史意义,有几个原因。
首先,神经网络的重新引用,长期以来被认为是一条死胡同的技术,成为了推动 AI 发展超过十年指数增长的,算法背后的实际架构。
其次,来自多伦多的三位研究人员(其中之一是你可能听说过的 Ilya Sutskever )是最早使用图形处理单元(GPU)来训练 AI 模型的人之一。现在这也是行业标准。
第三,AI 行业终于意识到飞飞多年前首次提出的观点:高级人工智能的关键要素是大量的数据。
我们都读过也听过诸如“数据是新石油”和“垃圾进,垃圾出”这样的谚语无数次。如果这些话不是关于我们世界的基本真理,我们可能会对它们感到厌烦。多年来,人工智能在幕后逐渐成为我们生活中越来越重要的一部分——影响着我们阅读的推文、观看的电影、我们支付的价格以及我们被认为值得的信用。所有这些都是通过精心追踪我们在数字世界中的每一个举动来收集数据所驱动的。
但是在过去两年里,自从一个相对不知名的初创公司 OpenAI 发布了一个名为 ChatGPT 的聊天机器人应用以来,人工智能的重要性已经从幕后走到了台前。我们正处于机器智能渗透到我们生活每一个方面的风口浪尖。随着关于谁将控制这种智能的竞争升温,对驱动它的数据的需求也在不断升温。
这就是这篇文章的主题。我们讨论了人工智能公司所需的数据规模和紧迫性,以及它们在获取数据时所面临的问题。我们探讨了这种永不满足的需求如何威胁到我们对互联网和数十亿贡献者的热爱。最后,我们介绍了一些新兴的初创公司,它们正在使用加密货币来解决这些问题和担忧。
在我们深入讨论之前,快速说明一下:这篇文章是从训练大型语言模型(LLMs)的角度撰写的,而不是所有 AI 系统。因此,我经常交替使用“AI”和“LLMs”。虽然这种用法在技术上不准确,但适用于 LLMs 的概念和问题,特别是关于数据的问题,也适用于其他形式的 AI 模型。
数据
大型语言模型的训练受三个主要资源的限制:计算、能源和数据。公司、政府和初创公司同时在争夺这些资源,背后有大量资本支持。在这三者中,对计算的竞争是最激烈的,部分归功于 NVIDIA 股价的急速上涨。
训练 LLMs 需要大量的专业图形处理单元 (GPU) 集群,特别是 NVIDIA 的 A100、H100 和即将推出的 B100 型号。这些不是你可以从亚马逊或当地电脑商店现成购买的计算机。相反,它们成本高达数万美元。NVIDIA 决定如何将其供应分配给 AI 实验室、初创公司、数据中心和超大规模的客户。
在 ChatGPT 发布后的 18 个月里,GPU 需求远远超过了供应,等待时间高达 11 个月。然而,随着最初的狂热尘埃落定,供需动态正在正常化。初创公司倒闭、训练算法和模型架构的改进、其他公司的专用芯片的出现,以及 NVIDIA 增加生产,所有这些都有助于增加 GPU 的可用性和价格的递减。
第二,能源。在数据中心运行 GPU 需要大量的能源。据某些估计,到 2030 年,数据中心将消耗全球能源的 4.5%。由于这种激增的需求给现有的电网带来压力,科技公司正在探索替代能源解决方案。亚马逊最近以 6.5 亿美元购买了一座由核电站供电的数据中心。微软已经聘请了一个核技术负责人。OpenAI 的Sam Altman 支持了像 Helion、Exowatt 和 Oklo 这样的能源初创公司。
从训练 AI 模型的角度来看——能源和计算只是商品。使用 B100 而不是 H100,或使用核能而不是传统能源可能会使训练过程更便宜、更快、更高效——但这不会影响模型的质量。换句话说,在创建最智能和最像人类的 AI 模型的竞赛中,能源和计算是基本要素,而不是区分因素。
关键资源是数据。
James Betke r是 OpenAI 的研究工程师。用他自己的话说,他已经训练了“比任何人都有权训练的更多生成模型”。在一篇博客文章中,他指出,“在相同的数据集上训练足够长的时间,几乎所有具有足够权重和训练时间的模型都会收敛在同一点上。”这意味着区分一个 AI 模型与另一个 AI 模型的是数据集。没有别的。
当我们提到一个模型为“ChatGPT”、“Claude”、“Mistral” 或 “Lambda” 时,我们谈论的不是架构、使用的 GPU 或消耗的能源,而是它所训练的数据集。
训练一个最先进的生成模型需要多少数据?
答案:很多。
GPT-4,在其发布一年多后仍被认为是最好的大型语言模型,它在估计 1.2 万亿个 token(或约 9000 亿个单词)上进行了训练。这些数据来自公开可用的互联网,包括维基百科、Reddit、Common Crawl(一个免费开放的网络爬取数据存储库)、超过一百万个转录 YouTube 数据小时,以及像 GitHub 和 Stack Overflow 这样的代码平台。
如果你认为那是很多数据,请稍等。在生成 AI 中有一个概念叫做“Chinchilla Scaling Laws”,它指出,对于给定的计算预算,在较大数据集上训练较小模型比在较小数据集上训练较大模型更有效。如果我们推断 AI 公司为训练下一代 AI 模型(如 GPT-5 和 Llama-4 )所分配的计算资源——我们发现这些模型预计需要五到六倍的计算能力,使用高达 100 万亿个 token 进行训练。
由于大多数公共互联网数据已经被爬取、索引并用于训练现有模型,那么额外的数据从哪里来?这已经成为 AI 公司的前沿研究问题。有两种方法可以解决这个问题。一种是你决定使用由 LLMs 直接生成的合成数据,而不是由人类生成。然而,这种数据在使模型变得更智能方面的有效性尚未经过测试。
另一种选择是简单地寻找高质量数据而不是合成创建。然而,获取额外数据具有挑战性,特别是当 AI 公司面临的问题不仅威胁到未来模型的训练,还威胁到现有模型的有效性时。
第一个数据问题涉及法律问题。尽管 AI 公司声称他们在“公开可用数据”上训练模型,但其中很多是受版权保护的。例如,Common Crawl 数据集包含了来自《纽约时报》和美联社等出版物的数百万篇文章,以及其他受版权保护的资料,如出版的书籍和歌词。
一些出版物和创作者正在对 AI 公司采取法律行动,声称其侵犯了他们的版权和知识产权。《泰晤士报》起诉 OpenAI 和微软“非法复制和使用《泰晤士报》独特且有价值的作品”。一群程序员提起集体诉讼,质疑使用开源代码训练 GitHub Copilot(一种流行的 AI 编程助手)的合法性。
喜剧演员萨拉·西尔弗曼和作家保罗·特雷姆布莱也因未经许可使用他们的作品而起诉 AI 公司。
其他人则通过与 AI 公司合作来拥抱变革的时代。《美联社》、《金融时报》和 Axel Springer 都与 OpenAI 签署了内容许可协议。苹果正在与 Condé Nast 和 NBC 等新闻机构探索类似的合作。谷歌同意每年支付 6000 万美元以获取 Reddit API 的使用权来训练模型,Stack Overflow 也与 OpenAI 达成了类似的协议。Meta 据考虑直接购买出版商西蒙与舒斯特。
这些合作与 AI 公司面临的第二个问题相一致:开放网络的关闭。
互联网论坛和社交媒体网站已经意识到 AI 公司通过利用他们平台上的数据训练模型所创造的价值。在与谷歌(以及未来可能的其他 AI 公司)达成交易之前, Reddit 开始对其之前免费的 API 收费,关闭了其流行的第三方客户端。类似地,Twitter 限制了对其 API 的访问并提高了价格,埃隆·马斯克使用 Twitter 数据为他自己的 AI 公司 xAI 训练模型。
即使是较小的出版物、同人小说论坛和互联网的其他小众角落,它们生产了供大家自由消费的内容,并通过广告(如果有的话)获利,现在也开始关闭。互联网原本被设想为一个神奇的网络空间,每个人都可以在这里找到一个分享他们独特兴趣和怪癖的部落。这种魔力似乎正在慢慢消散。
诉讼威胁、数百万内容交易的日益增长趋势,以及开放网络的关闭,这三个因素的结合产生了二个影响:
首先,数据战高度偏向科技巨头。初创公司和小公司既无法访问以前可用的API,也无法在不承担法律风险的情况下支付购买使用权所需的现金。这具有明显的集中效应,即能够购买最好的数据并创建最好的模型的富人将变得更加富有。
其次,用户生成内容平台的商业模式对用户越来越不利。像 Reddit 和 Stack Overflow 这样的平台依赖数百万未付薪酬的人类创作者和版主的贡献。然而,当这些平台与 AI 公司达成数百万美金的交易时,他们既不补偿用户,也不征求用户的许可,没有用户就没有数据可卖。
Reddit 和 Stack Overflow 都经历了显著的用户罢工,抗议这些决定。联邦贸易委员会(FTC)就其而言,已经对 Reddit 的销售、许可和与外部组织共享用户帖子以训练 AI 模型的行为展开了调查。
这些问题引起的问题与训练下一代 AI 模型和网络内容的未来息息相关。就目前而言,那个未来看起来很没有希望。加密解决方案能否为小公司和互联网用户创造公平竞争的环境,解决这些问题?
流程拆解
训练 AI 模型和创建有用的应用程序是复杂且昂贵的努力,需要数月的规划、资源分配和执行。这些过程包括多个阶段,每个阶段都有不同的目的和不同的数据需求。
让我们拆解这些阶段,以了解加密如何适应更大的 AI 难题。
预训练
预训练,是 LLM 训练过程中的第一步骤,也是最资源密集的步骤,它构成了模型的基础。在这个阶段,AI 模型在大量未标记的文本上进行训练,以捕获关于世界的一般知识和语言使用信息。当我们说 GPT-4 在 1.2 万亿个 token 上进行训练时,这指的是用于预训练的数据。
我们需要一个高层次的概述,了解 LLMs 的工作原理,以理解为什么预训练是 LLMs 的基础。注意,这是一个简化的概述。你可以在
Jon Stokes
的这篇优秀文章中找到更全面的解释,或在这个精彩视频中,
Andrej Karpathy
甚至在这本杰出书籍中找到更深入的分解。
Stephen Wolfram
LLMs 使用一种称为下一个 token 预测的统计技术。简单来说,给定一系列 token(即单词),模型尝试预测下一个最有可能的 token。这个过程重复进行,形成完整的响应。因此,你可以将大型语言模型视为一个“完并机器”。
让我们通过一个例子来理解这一点。
当我向 ChatGPT 提出一个问题,如 “太阳从哪个方向升起?” 时,它首先预测单词 “the”,然后是短语 “太阳从东方升起” 中的每个后续单词。但这些预测来自哪里?ChatGPT 如何确定在 “太阳从” 之后应该是 “东方” 而不是 “西方”、“北方” 或“阿姆斯特丹”?换句话说,它如何知道 “东方” 比其他选项在统计学上更有可能?
理解这一点的另一种方法是比较包含这些短语的维基百科页面的数量。 “太阳从东方升起”共 55 页,而“太阳从西方升起”则有 27 页。 “阿姆斯特丹的太阳升起”没有显示任何结果!这些是 ChatGPT 选取的模式。
答案在于从大量高质量训练数据中学习统计模式。如果你考虑互联网上的所有文本,什么更有可能出现 - “太阳在东方升起”还是“太阳在西方升起”?后者可能在特定语境中找到,如文学隐喻(“这就像相信太阳从西方升起一样荒谬”)或关于其他行星(如金星,太阳确实从西方升起)的讨论。但总体而言,前者要常见得多。
通过反复预测下一个单词,LLM 形成了对世界的整体看法(我们称之为常识)以及对语言规则和模式的理解。另一种看待 LLM 的方式是将其视为互联网的压缩版本。这也有助于理解为什么数据需要大量(更多类别可供选择)且高质量(提高模式学习准确性)。
但正如前面所讨论的,AI 公司正在用尽训练更大模型的数据。训练数据需求的增长速度远远超过开放互联网上新数据的生成速度。随着迫在眉睫的诉讼和主要论坛的封闭,AI 公司面临着严重的问题。
对于无法负担与像 Reddit 这样的专有数据提供商达成数百万美元交易的小公司来说,这个问题更加严重。
这就我们想到了 Grass,这是一个去中心化的住宅代理服务提供商,旨在解决其中一些数据问题。他们自称为“AI的数据层”。让我们首先了解住宅代理服务提供商的作用。
互联网是训练数据的最佳来源,爬取互联网是公司获取这些数据的首选方法。在实践中,为了规模、便捷和效率,爬取软件通常托管在数据中心。但是,拥有有价值数据的公司不希望他们的数据被用来训练 AI 模型(除非他们得到了报酬)。为了实施这些限制,他们经常阻止已知数据中心的 IP 地址,阻止大规模爬取。
这时住宅代理服务提供商就发挥作用了。网站只阻止已知数据中心的 IP 地址,而不是像你我这样的普通互联网用户的 IP 地址,这使得我们的互联网连接,或者说住宅互联网连接,变得有价值。住宅代理服务提供商汇集了数百万这样的连接,以便为 AI 公司大规模爬取网站。
然而,中心化的住宅代理服务提供商秘密运作。他们通常不会明确说明他们的意图。如果用户知道某个产品正在使用他们的带宽,并且该产品没有给予补偿,他们可能不愿意提供他们的带宽。更糟糕的是,他们可能要求对他们的带宽使用进行补偿,这反过来又会减少他们的利润。
为了保护他们的利润底线,住宅代理服务提供商将消耗带宽的代码附加在免费应用程序上,这些应用程序广泛分发,如移动工具应用程序(比如计算器和录音机)、VPN 提供商,甚至消费者电视屏保。认为自己可以免费获得产品的用户通常并不知道第三方住宅提供商正在消耗他们的带宽(这些细节通常被埋在很少有人阅读的服务条款中)。
最终,其中一些数据会流向 AI 公司,他们使用这些数据来训练模型,为自己创造价值。
Andrej Radonjic 在经营自己的住宅代理服务提供商时,意识到这些做法的不道德性质以及对用户的不公平。他看到加密货币的发展,并确定了一个创造更公平解决方案的方法。这就是 Grass 在 2022 年底成立的原因。几周后,ChatGPT 发布,改变了世界,使 Grass 在正确的时间出现在了正确的地点。
与其它住宅代理服务提供商采用偷偷摸摸的策略不同,Grass 向用户明确了使用带宽来训练 AI 模型的情况。作为回报,他们直接获得奖励。这种模式彻底颠覆了住宅代理服务提供商的运作方式。通过自愿提供带宽访问并成为网络的部分所有者,用户从不知情的被动参与者转变为积极的传播者,提高了网络的可靠性,并从 AI 创造的价值中获益。
Grass 的增长非常显著。自 2023 年 6 月推出以来,他们已经聚集了超过 200 万活跃用户运行节点(通过安装浏览器扩展或移动应用程序),并为网络贡献带宽。这种增长发生在没有任何外部营销成本的情况下,并由一个非常成功的推荐计划推动。
使用 Grass 的服务允许各种规模的公司,从大型 AI 实验室到开源初创公司,无需支付数百万美元,就能获得抓取的训练数据。与此同时,日常用户通过共享他们的互联网连接获得奖励,成为不断增长的 AI 经济的一部分。
除了原始抓取的数据,Grass 还为其客户提供了一些额外的服务。
首先,他们将非结构化的网页转换为结构化数据,这些数据可以更容易地被 AI 模型处理。这一步被称为数据清洗,通常是由 AI 实验室执行的一项资源密集型任务。通过提供结构化、清洁的数据集,Grass 提升了其对客户的价值。此外,Grass 还在训练一个开源的 LLM 来自动化抓取、清洗和标记数据的过程。
其次,Grass 正在将数据集与不可否认的来源证明捆绑在一起。鉴于高质量数据对 AI 模型的重要性,确保不良行为者 - 无论是网站还是住宅代理提供商 - 没有篡改数据集的权利,这对 AI 公司至关重要。
这个问题的严重性反映在诸如《数据与信任联盟》之类的机构的形成上,这是一个由 Meta、IBM 和 Walmart 等二十余家公司组成的非营利组织,它们共同合作创建来源标准,帮助组织确定一组数据是否适合且受信任地使用。
Grass 正在采取类似的措施。每次 Grass 节点抓取网页时,它还会记录元数据,以验证抓取的网页。这些来源证明存储在区块链上,并与客户共享(客户可以进一步与他们的用户共享)。
尽管 Grass 是建立在 Solana 之上的,Solana 是吞吐量最高的区块链之一,但在 L1 上存储每个抓取工作的来源是不切实际的。因此,Grass 正在构建一个rollup(在 Solana 上的第一批之一),它使用 ZK 处理器批量处理来源证明,然后将其发布在 Solana 上。这个 rollup,Grass 称之为“AI 的数据层”,成为他们所有抓取数据的数据帐本。
Grass 的 Web 3 优先方法赋予了它与中心化住宅代理提供商相比的几个优势。首先,通过使用激励措施让用户直接共享带宽,他们更公平地分配了 AI 创造的价值(同时也节省了支付应用程序开发者捆绑他们代码的成本)。其次,他们可以为提供“合法流量”收取溢价,这在行业中非常有价值。
另一个建立在“合法流量”角度上的协议是 Masa。该网络允许用户传递他们的Reddit、Twitter 或 TikTok 等平台的登录信息。网络上的节点然后抓取上下文、更新的数据。这种模型的优势在于收集的数据是一个正常 Twitter 用户在他们的 Feed 中会看到的内容。你可以实时拥有丰富的数据集来预判即将病毒式传播的情绪或内容
他们的数据集用于什么?就目前而言,这些上下文数据有两个主要用例。
金融 - 如果你有机制看到成千上万的人在他们的 Feed 上看到的内容,你可以根据它们开发交易策略。以情感数据为基础的智能代理可以在 Masa 的数据集上进行训练。
社交 - 基于 AI 的伴侣(或像 Replika 这样的工具)的出现意味着我们需要模仿人类对话的数据集。这些对话还需要用最新信息进行更新。Masa 的数据流可以用于训练能够有意义地谈论 Twitter 上最新趋势的代理。
Masa 的方法是从封闭花园(如 Twitter)中获取信息,并在获得用户同意后,使它们可供开发人员构建应用程序。这种以社交为先的方法收集数据,还允许围绕不同国家语言构建数据集。
例如,一个使用印地语的机器人可以使用在印地语操作的社交网络中收集数据。这些网络开启的应用类型还有待探索。
模型对齐
预训练的 LLM 远未准备好用于生产。想想看。到目前为止,模型所知道的只是如何在序列中预测下一个单词,没有别的。如果你给一个预训练模型一些文本,比如“谁是中本聪”,那么以下任何一个回答都将是有效的响应:
完成问题:中本聪?
将短语变成一个句子:这是一个多年来一直困扰比特币信徒的问题。
真正回答问题:中本聪是创建比特币(第一个去中心化加密货币)及其底层区块链技术的匿名人士或团体。
旨在提供有用答案的 LLM 将提供第三个响应。然而,预训练模型的响应并不连贯或正确。事实上,它们经常随机输出对最终用户毫无意义的文本。最坏的情况是,模型秘密地以事实上错误、有毒或有害的信息回应。当这种情况发生时,模型被称为“幻觉”。
这就是预训练的 GPT-3 回答问题的方式。
模型对齐的目标是使预训练模型对用户最终有用。换句话说,将其从单纯的统计文本工具完成转换为理解用户需求并与用户需求一致的聊天机器人,并进行连贯、有用的对话。
对话微调
这个过程的第一步是对话微调。微调是采用预训练的机器学习模型,并在较小的、针对性的数据集上进一步训练它,帮助它适应特定的任务或用例。对于训练 LLM,这个特定的用例是进行类似人类的对话。自然,此类微调的数据集是一组人类生成的提示-回应对,这些对话展示了模型应该如何表现。
这些数据集涵盖了不同类型的对话(问题-回答、摘要、翻译、代码生成),通常由具有出色语言技能和专业知识的受过高等教育的人类(有时称为 AI 导师)设计。
像 GPT-4 这样的最先进模型估计在大约 100,000 个这样的提示-响应对上进行了训练。
提示-响应对的示例
根据人类反馈进行强化学习 (RLHF)
将这个阶段想象成类似于人类训练宠物小狗:奖励好的行为,惩罚不良行为。模型给出一个提示,它的响应与人类标签员共享,标签员根据输出的准确性和质量在数字尺度上对其进行评分(例如,1-5)。另一种 RLHF 版本是获得一个提示以产生多个响应,然后由人类标签员从最好到最差进行排名。
RLHF 任务示例
RLHF 有助于将模型推向人类偏好和期望的行为。事实上,如果你使用ChatGPT,OpenAI 也使用你作为 RLHF 数据标签员!当模型有时产生两个响应,并要求你选择更好的一个时,就会发生这种情况。
即使是简单的点赞或不喜欢图标,提示你对答案的有用性进行评分,也是模型 RLHF 训练的一种形式。
当我们使用 AI 模型时,我们很少考虑投入其中的数百万小时的人力。这并不是 LLM 所独有的。从历史上看,即使是像内容审核、自动驾驶和肿瘤检测这样的传统机器学习用例,也需要大量的人力参与数据标注。
Mechanical Turk,是李飞飞用来创建 ImageNet 数据库的服务,被 Jeff Bezos 称为“人工的人工智能”,因为它的工人在 AI 训练幕后扮演数据标注的角色。
在今年早些时候的一个
《奇异故事》中,透露了亚马逊的 Just Walk Out 商店,顾客可以从货架上挑选商品然后走出去(稍后自动收费),并不是由一些先进的 AI 驱动。相反,是有 1000 名印度承包商在手动筛选商店录像。
关键是,每一个大规模 AI 系统都在某种程度上依赖人类,LLM 只是增加了对这些服务的需求。像 Scale AI 这样的公司,其客户包括 OpenAI,已经凭借这一需求达到了 11 位数的估值。即使是 Uber 也正在将其在印度的一些工人重新用于在不驾驶车辆时标注 AI 输出。
在他们成为全栈 AI 数据解决方案的探索中,Grass 也进入了这个市场。他们很快将发布一个 AI 标注解决方案(作为他们主要产品的扩展),在他们的平台上的用户将能够通过完成 RLHF 任务赚取激励。
问题是:Grass 通过去中心化过程相对于同一领域的数百家中心化公司获得了什么优势?
Grass 可以使用代币激励来引导工人网络。就像他们用代币奖励用户共享他们的互联网带宽一样,他们也可以用来奖励人类标注 AI 训练数据。在 Web2 世界中,对于零工经济工人的薪酬支付,尤其是对于全球分布的工作,与在像 Solana 这样的快速区块链上提供的即时流动性相比,是一个较差的用户体验。
总的来说,加密社区,特别是 Grass 现有的社区,已经有高度集中的受过教育的、互联网原生的和技术熟练的用户。这减少了 Grass 需要花费在招聘和培训工人上的资源。
你可能会想知道,用激励来交换标注 AI 模型响应的任务是否会引起农民和机器人的注意。我也有同样的疑问。幸运的是,已经进行了广泛的研究,使用基于共识的技术来识别高质量的标注者并筛选出机器人。
请注意,至少目前,Grass 只是进入了 RLHF(通过人类反馈进行强化学习) 市场,并没有帮助公司进行对话微调,这需要一个高度专业化的劳动力市场,且难以自动化。
专业微调
一旦完成预训练和对齐步骤,我们就得到了所谓的基础模型。基础模型对世界运作有一般性的理解,并且可以在广泛的主题上进行流畅、类似人类的对话。它还对语言有扎实的掌握,并且可以帮助用户轻松地撰写电子邮件、故事、诗歌、文章和歌曲。
当你使用 ChatGPT 时,你正在与基础模型 GPT-4 交互。
基础模型是通用模型。虽然它们对数百万类别的主题已经有了足够的了解,但它们并不专精于任何一个。当被要求帮助理解比特币的代币经济学时,回答将是有用且基本准确的。然而,当你要求它阐述如何降低 EigenLayer 这样的再质押协议风险时,你不应信任它。
回想一下,微调是采用预训练的机器学习模型,并在较小的、针对性的数据集上进一步训练,帮助它适应特定任务或用例的过程。我们之前在将原始文本完成工具转换为对话模型的背景下讨论了微调。同样,我们也可以对生成的基础模型进行微调,使其专业化于特定领域或特定任务。
Med-PaLM2,是 Google 基础模型 PaLM-2 的微调版本,被训练用来提供高质量的医疗问题答案。MetaMath 在 Mistral-7B 上进行微调,以更好地执行数学推理。一些微调模型专业化于特定类别,如故事讲述、文本摘要和客户服务,而其他模型则专业化于小众领域,如葡萄牙语诗歌、印地语-英语翻译和斯里兰卡法律。
对模型进行特定用例的微调需要与该用例相关的高质量数据集。这些数据集可以来源于特定领域的网站(如加密数据的时事快讯)、专有数据集(医院可能会记录成千上万的医患互动)或专家的经验(这将需要彻底的访谈来捕捉)。
随着我们进入拥有数百万 AI 模型的世界,这些小众的长尾数据集正变得越来越有价值。从像安永这样的大型会计师事务所到加沙的自由摄影师,这些数据集的所有者正在被追捧,因为它们很快将成为 AI 军备竞赛中最炙手可热的商品。像 Gulp Data 这样的服务已经出现,帮助企业公平地评估他们数据的价值。
OpenAI 甚至有一份公开请求,寻求与拥有“反映人类社会且今天已经不容易在线公开获取的大规模数据集”的实体建立数据合作伙伴关系。
我们知道至少有一种方法可以将寻找特定产品的买家与卖家匹配:互联网市场!Ebay 为收藏品创建了一个市场,Upwork 为人力劳动创建了一个市场,还有无数平台为无数其他类别创建了市场。毫不意外,我们也看到了市场的出现,有些是去中心化的,用于小众数据集。
Bagel 正在构建“通用基础设施”,这是一套工具,使“高质量、多样化数据”的持有者能够以一种可信赖的、保护隐私的方式与 AI 公司共享他们的数据。他们使用零知识(ZK)和完全同态加密(FHE)等技术来实现这一点。
公司经常掌握着他们无法货币化的但具有极高价值的数据,由于隐私或竞争问题。例如,一个研究实验室可能拥有大量基因组数据,他们以保护患者隐私不能共享,或者一个消费品制造商可能有供应链降低废品率的数据,它不能在不泄露竞争秘密的情况下公开。Bagel 使用密码学的进步使这些数据集有用,同时缓解附带的担忧。
Grass 的住宅代理服务也可以帮助创建专业数据集。例如,如果你想微调一个模型以提供专业的烹饪建议,你可以要求 Grass 从像 r/Cooking 和 r/AskCulinary 这样的 Reddit 子版块抓取数据。同样,一个面向旅行的模型创建者可以要求 Grass 从 TripAdvisor 论坛抓取数据。
虽然这些并不完全是专有数据源,但它们仍然可以成为其他数据集的有价值的补充。Grass 还计划使用其网络创建可以被任何客户重复使用的归档数据集。
上下文数据
试试问你喜欢的 LLM “你的训练截止日期是什么时候?”你会得到像 2023 年 11 月这样的答案。这意味着基础模型只提供那个日期之前可用的信息。考虑到训练这些模型(或微调它们)的计算成本和时间消耗,这是有意义的。
要保持它们实时更新,你必须每天训练和部署一个新模型,这根本是不可行的(至少到目前为止)。
然而,一个没有关于世界最新信息的 AI 对于许多用例来说是相当无用的。例如,如果我使用一个依赖 LLMs 响应的个人数字助手,当被要求总结未读邮件或提供上一场利物浦比赛的进球者时,它们将会受到限制。
为了绕过这些限制,并为用户提供基于实时信息的响应,应用程序开发人员可以查询并插入信息到所谓的基础模型的“上下文窗口”中。上下文窗口是 LLM 可以处理的输入文本,用于生成响应。它以 token 计量,代表 LLM 在任何给定时刻可以“看到”的文本。
所以,当我让我的数字助手总结我的未读邮件时,应用程序首先查询我的邮件提供商获取所有未读邮件的内容,将响应插入发送到 LLM 的提示中,并在提示后附加类似的东西:“我已经提供了 Shlok 收件箱中所有未读邮件的列表。请总结它们。”有了这个新上下文,LLM 然后可以完成任务并提供响应。将这个过程想象成你将一封邮件复制粘贴到 ChatGPT 中并要求它生成响应,但在后端发生。
要创建具有最新响应的应用程序,开发人员需要访问实时数据。Grass 节点可以实时抓取任何网站,可以为开发人员提供这些数据。例如,基于 LLM 的新闻应用程序可以要求 Grass 每五分钟抓取 Google 新闻上的所有热门文章。当用户查询“刚刚袭击纽约市地震的震级是多少?”时,新闻应用程序检索相关文章,将其添加到 LLM 的上下文窗口中,并与用户分享响应。
这也是 Masa 今天适应的地方。就目前而言,Alphabet、Meta 和 X 是唯一拥有不断更新用户数据的大型平台,因为它们拥有用户群。Masa 为较小的初创公司提供了公平竞争的环境。
这个过程的技术术语是检索增强生成(RAG)。RAG 工作流程是所有现代基于 LLM 的应用程序的核心。这个过程涉及向量化文本,或将文本转换为数字数组,然后可以被计算机轻松解释、操作、存储和搜索。
Grass 计划将来发布物理硬件节点,为客户提供向量化的、低延迟的实时数据,以简化他们的 RAG 工作流程。
行业中的大多数建设者预测,上下文级别查询(也称为推理)将来将使用大部分资源(能源、计算、数据)。这是有意义的。模型的训练将始终是一个时间限制的过程,它消耗一定数量的资源分配。另一方面,应用程序级别的使用理论上可以有无限的需求。
Grass 已经看到这种情况的发生,他们的大部分文本数据请求来自于寻找实时数据的客户。
LLMs 的上下文窗口随着时间的推移而扩大。当 OpenAI 首次发布 ChatGPT 时,它的上下文窗口是 32,000 个 token。不到两年后,Google 的 Gemini 模型的上下文窗口超过一百万 token。一百万 token 相当于超过十一本 300 页的书——大量的文本。
这些发展使得上下文窗口可以构建的东西比仅仅访问实时信息要大得多。例如,有人可以将所有泰勒·斯威夫特的歌词,或者这个新闻简报的全部存档,倾倒入上下文窗口,并要求 LLM 以类似的风格生成一件新的内容。
除非明确编程不这样做,否则该模型将产生相当不错的输出。
如果你能感受到这次讨论的走向,请稍等,看看接下来会发生什么。到目前为止,我们主要讨论了文本模型,但生成模型在其他模态,如声音、图像和视频生成方面也变得非常熟练。我最近在 Twitter 上看到了 Orkhan Isayen 创作的这张非常酷的伦敦插图。
Midjourney,这个流行的(而且非常好)的文本到图像的工具有一个叫做风格调节器的功能,可以生成与现有图像风格相同的新图像(这个功能也依赖于类似 RAG 的工作流程,但并不完全相同)。我上传了 Orkhan 手工制作的插图,并使用风格调节器提示 Midjourney 将城市改为纽约。这就是我得到的:
四幅图像,如果你浏览这位艺术家的插图,很容易误认为是他们的作品。这些都是基于单一输入图像,在 30 秒内由 AI 生成的。我请求的是“纽约”,但主题可以是任何东西,真的。在其他模态,如音乐中,也可以实现类似种类的复制。
回想我们之前的讨论,一些起诉 AI 公司的实体,包括创作者,你可以明白为什么他们这么做是有道理的。
互联网曾是创作者的福音,是他们与全世界分享他们的故事、艺术、音乐和其他形式的创造性表达的方式;是他们找到自己的 1000 个真实粉丝的方式。现在,同一个全球平台正在成为他们生计的最大威胁。
当你可以以每月 30 美元的 Midjourney 订阅费获得一件风格足够接近 Orkhan 作品的副本时,为什么还要支付 500 美元的委托费呢?
听起来很反乌托邦?
技术的伟大之处在于,它几乎总能提出解决它自身创造出的问题的新方法。如果你将对创作者看似严峻的情况颠倒过来,你会发现这是他们以前所未有的规模货币化他们才能的机会。
在 AI 之前,Orkhan 能够创造的艺术作品数量受到他们一天中拥有的小时数的限制。有了 AI,他们现在理论上可以服务于无限的客户群。
为了理解我的意思,让我们看看 elf.tech,这是音乐家 Grimes 的 AI 音乐平台。Elf Tech 允许你上传一首歌的录音,然后它将其转换成 Grimes 的声音和风格。从这首歌赚取的任何版税都由 Grimes 和创作者 50 比 50 平分。这意味着,作为 Grimes 的粉丝,她的声音,她的音乐会,或她的分发,你可以简单地想出一首歌的主意,然后平台利用 AI 将其转换成 Grimes 的声音。
如果这首歌走红,你和 Grimes 都会受益。这还使 Grimes 能够扩大她的才能并被动地利用她的分发。
TRINITI,是支持 elf.tech 的技术,是由 CreateSafe 公司创建的工具。他们的 litepaper 揭示了我们预见的区块链和生成 AI 技术最有趣的交叉点之一。
通过创作者控制的智能合约扩展数字内容的定义,并通过基于区块链的、点对点的、付费访问的微交易重新构想分发,允许任何流媒体平台即时验证并访问数字内容。生成性 AI 随后根据创作者指定的条款执行即时的微支付,并将体验流式传输给消费者。
Balaji 更简洁地表述了这一点。
随着新媒介的出现,我们急于弄清楚人类将如何与之互动。当它们与网络结合时,它们成为了推动变革的强大引擎。书籍为新教革命提供了燃料。广播和电视是冷战的重要组成部分。媒体通常是一个双刃剑。它可以被用于好的方面,也可以被用于坏的方面。
我们今天所拥有的是拥有大部分用户数据的中心化公司。这几乎就像我们相信自己的公司会为创造力、我们的心理健康和更好的社会发展做出正确的事。这是太多的权力,不能交给少数公司,我们对它们的内部运作几乎不了解。
我们还处在 LLM 革命的早期阶段。就像 2016 年的以太坊,我们几乎不知道可能使用它们构建什么样的应用程序。一个能和我祖母用印地语交谈的 LLM?一个能够浏览信息流并只呈现高质量数据的智能代理?一个让独立贡献者分享特定文化细微差别(如俚语)的机制?我们还不清楚太多的可能性。
然而,显而易见的是,构建这些应用程序将受到一个关键要素的限制:数据。
像 Grass、Masa 和 Bagel 这样的协议是基础设施,它以公平的方式提供数据来源。当考虑到可以建立在其上的内容时,人类的想象力是极限。对我来说,这似乎令人兴奋。