AI的世界正在以惊人的速度跃进,创造着一个全新的智能时代。
2024春节人工智能话题疯狂发酵。美国OpenAI公司正式发布其首个文本-视频生成模型Sora,能够根据文字指令创造出既逼真又充满想象力的场景,微软凭借OpenAI翻身市值超过3.1万亿美元,超越苹果成为全球市值最高公司。
随后,美国科技巨头谷歌(Google)宣布推出全球性能最强大、轻量级的开源模型系列Gemma,性能远超主流开源模型Llama 和Mistral,直接登顶Hugging Face开源大模型排行榜。
在人工智能BCI方面,马斯克宣称首个植入Neuralink大脑芯片的人类已经完全康复,患者仅用意念就可以控制鼠标,开创的脑机接口新时代。
英伟达发布了2023年四季度财务报告显示,英伟达去年四季度营收221亿美元,超各项数据均显著超出市场预期。技术创新催化下,全球人工智能概念股近期大涨,多股获机构扎堆关注。高盛预测2025年全球人工智能投资增长至1584亿美元,这只是冰山一角,根据最新的人工智能统计数据,截至 2023 年,全球人工智能市场规模估计为 4541.2 亿美元。按照每年 19% 的增长率,到 2032 年人工智能市场价值可能超过2.5 万亿美元。
我们可以确定,这个社会最终是要走向人工智能,那么人工智能下一步将会走向哪里?
人工智能和加速计算正在共同改变技术行业。下一波人工智能浪潮将是一种被称为具身AI的新型人工智能,即能够理解、推理并与物理世界互动的智能系统。英伟达创始人CEO黄仁勋指出了方向。
在探索智能与现实的交融上,WorldBrain坚持长期研究,建立技术储备,并取得突破新发展。WorldBrain是目前唯一一个将具身智能理念融入Crypto的卓越创新项目。通过模仿人脑建模的大型智能神经网络系统,WorldBrain将智能引入到具体的物体和机器中,赋予它们感知、理解和互动的能力。它的独特之处在于将智能从虚拟世界引向现实,探索智能与现实的交融之道。
具身智能的由来
具身智能的思想萌芽于人工智能诞生之初。
具身智能(Embodied Intelligence)这一概念,最早由人工智能之父图灵(Alan Mathison Turing)于1948年提出,embodied即人体的,intelligence即智能,结合在一起即具身的、离不开人体的智能。同时,图灵还提出了另一个与其相对的概念Disembodied Intelligence,即体外智能、离开人体的智能。
1950年,图灵在其开创新论文《Computing Machinery and Intelligence》中,提出人工智能可能的两条发展路径:一条路是聚焦抽象计算(比如下棋)所需的智能,另一条路则是为机器配备最好的传感器,赋予它们与人类沟通的能力,并像婴儿那样学习的能力。这两条道路便逐渐演变成了非具身智能和具身智能。
什么是具身智能?
具身智能(Embodied Artificial Intelligence,Embodied Intelligence,Embodied AI,简写:EAI),又称“具身AI"“具身人工智能”,指一种基于物理身体进行感知和行动的智能系统,其通过智能体(可以是生物或机械)与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
具身智能可以简要理解为通过创建软硬件结合的智能体,强调有物理身体的智能体通过与物理环境进行交互而获得智能的人工智能研究范式。我们拆分来看:一是“具身”,二是“智能”。具身的基本含义是指认知对身体的依赖性,即身体对于认知具有影响。认知不能脱离身体单独存在。此外,“具身”相对的概念是“离身”(Disembodiment),指的是认知与身体解耦。人工智能学科领域对智能的理解多偏人的抽象、逻辑能力及适应性能力。
探索AI新维度 WorldBrain的具身智能新视角
具身智能是相对于传统的抽象化的人工智能,是一种能够感知并交互自身环境并具有自我感知能力的智能形态。具身智能可以以多种形式存在,如机器人、自动驾驶等。它们不仅能理解环境中的信息,还能以更高层次从复杂的环境中获取并处理信息。
WorldBrain是基于WorldModel世界模型创造出一个前所未有的分布式智能神经网络系统,通过模拟人脑的运作机制和思考过程,以更好地理解人工智能和认知科学之间的联系。它是未来实现“强人工智能”的重要组成部分,通过采用复杂的计算模型,包括神经元网络的建模、信息处理、学习和决策制定等,有助于深入研究人类认知的基本原理,为AI系统提供更有效的灵感。
WorldBrain为人类带来了更加智能化、高效的信息处理方式,为未来的数字社会构建起一个全新的智能生态系统。
首先,具身智能可以理解和响应自己的环境。这是通过先进的感知技术,比如视觉传感器、语音识别系统或者触觉传感器,使得具身智能能够获取环境中的信息。WorldBrain借鉴大脑地图和参考系的机制,通过感知输入(例如视觉和位置传感器数据通过使用人脑中的地图和参考系作为学习世界模型的基础,获得更准确的空间感知和环境理解能力。这将使得 WorldBrain 能够更好地与物理世界进行交互,并实现更高级的认知和智能功能。
其次,具身智能能通过机器学习自我改善并学习新的技能。这通过大数据和深度学习技术,使得具身智能不仅仅是一个静态的系统,而是一个不断改善和学习的动态系统。WorldBrain 可以以无监督的方式快速训练,以学习环境的压缩空间和时间表示。通过使用从世界模型中提取的特征作为代理的输入,可以训练一个非常紧凑和简单的策略来解决所需的任务。
最后,具身智能能够和用户进行自然交互,理解并处理复杂的任务。人机交互上升到新的高度。不同于当前火热的大语言模型多模态多为文字、图片、音频、视频等之间的交互,具身智能重要表现是多模态+跨模态感知交互,尤其是视觉、语言和肢体行为的跨模态感知;这不仅需要人工智能,还需要人机交互、自然语言处理等多种技术。WorldBrain 可以通过感知和行为模拟来模仿人类的认知能力和行为表现,通过运动和身体表征模拟来模仿人类的运动能力 和身体表达,使得 WorldBrain 能够像人类一样进行复杂的操作和交互现。
具身智能是产生超级人工智能的一条可能路径。
具身智能是人工智能的新前沿,是向感知、理解、学习和适应等更高级别智能进化的关键一步。
《智源人工智能前沿报告》(2021-2022年度)指出:未来三年,基于虚拟世界、实时时空环境训练的具身模型会取得较大的发展,如自动驾驶、机器人、游戏中数字人等······未来五到十年,超大规模预训练模型(信息模型)和具身模型将会结合,成为‘数字超人’,在知识能力以及跟环境的互动程度上,将比以往的人类都要强,具身模型和机器人也将结合,在物理世界出现能力比人类还要强的无人系统,即‘具身超人’。乐观估计,在未来三十年,数字超人和具身超人可能会结合,最终诞生超级人工智能。
Sora一镜到底及多镜头画面功能强大,逼真且充满想象力。然而Sora不懂玻璃破碎和液体溢出的顺序,不明白蚂蚁有6条腿的常识,也并不能推理时间和因果关系。妄图用拟合的方法来认识世界,纯拟合路线成不了AGI,AGI最终需要自监督地去触摸和学习世界。
人工智能的终极梦想是实现超级人工智能。
具身智能是产生超级人工智能的一条可能路径。具身智能是能够提升当前的“弱人工智能”认知能力的重要方式。人工智能可以通过与环境交互的渠道,从真实的物理或虚拟的数字空间中学习和进步。
WorldBrain将继续沿革图灵所开拓的具身智能(Embodied Intelligence)的道路前进,追求在人工智能技术与现实世界之间构建更加紧密、更加自然的联系。尽管目前还处在初级阶段,但其打破人工智能与现实世界之间的障碍探索已经展现出无限的潜力。