通用AI(AGI)已经到来?深度解析 ChatGPT 获得智能的数学物理机理
产品详细介绍:
人工智能?《》文中阐述了“AGI 最重要的部分已经由当前一代先进的人工智能大语言模型实现了”的观点。与王庆法老师今年,为大家提供了一个理解大模型是如何具备了AGI的学习推理能力的思想框架。本文由此次分享内容整理而成。
在本周四(11月16日)集智俱乐部AGI读书会中,清华大学交叉信息学院助理教授袁洋老师将分享“基于范畴论的通用AI理论框架”。欢迎感兴趣的朋友参与!
研究领域:人工智能,大语言模型,自由能原理,重整化群流,统计物理,范畴论
,文中提到来自Google和斯坦福大学两位学者 Fellow,阐明“ 当今最先进的人工智能模型存在许多缺陷,但几十年后,它们将被公认为通用AI的第一个真实例子”,“AGI 最重要的部分已经由当前一代先进的人工智能大语言模型实现了”。两位学者分别从主题、任务、模态、语言、可指导性分析了为什么现在的大语言模型已能被判定为通用AI了。
并且两位学者分析了行业内许多人之所以不愿意承认通用AI是出于对对 AGI 指标的合理怀疑,或者对替代人工智能理论或技术的意识形态承诺,亦或者对人类 (或生物) 例外论的热爱,还有就是对 AGI 经济影响的担忧。
Karl Friston自由能理论推测大脑如此工作: 将“先验”与新的感官输入 (“似然”) 相结合,产生感知 (“后验”) ,是大脑对内外部两个信息源的整合,并按其相对精度 (逆不确定性) 进行了加权。这是知觉的基础原理。Friston 的感知概念数学形式,反映了大脑的感知其实是在做变分推断。
借助Embedding ,GPT 将人类的语言 “编码”成自己的语言,然后通过注意力Attention从中提取各种丰富的知识和结构,加权积累与关联生成自己的语言,然后“编码”回人类的语言。本质上看,GPT 其实是构建了一个高维的语言体系,可以将自然语言,程序语言,视觉听觉语言,映射(或者叫编码)到这个高维的语言空间中。高维语言空间是概率分布张成的空间。
Transformer是足够强大的特征提取器。仅从知识角度,GPT可以看作是一种以模型参数体现的隐式知识图谱。知识存储在Transformer的模型参数里:多头注意力存储信息的结构 (相关强度,信息整合方式等) ;类似Query/Key/Value结构的FFN存储知识主体。
代码训练,获取长程关联与推理能力。代码其实也可以看成特殊的思维链,训练能够更好的降低信息熵,让信息更可预测。大量这种语言结构示例参与预训练的话,GPT被注入足够的信息量,形成各种复杂关联的模式,涵盖代码中的知识和知识结构。高质量的代码,可以显著的降低GPT获取的信息熵,这也是为什么GPT在代码上比自然语言更让人惊艳。
GPT 构建了海量自然语言和代码的概率分布空间,被注入足够的信息量 (等于注入大量负的信息熵) ,形成各种复杂关联的模式,涵盖自然语言和代码中各种知识与结构。这些知识和结构,体现为概率分布的距离与关系,从而为对比、类比、归纳、演绎等推理步骤提供支撑,也就是“涌现出”这些推理能力。进一步看,LLM 机制上允许产生自主意识。
,文中整理了Ilya对ChatGPT的原理描述 :每个神经网络通过“Embedding”表示法,即高维向量,来代表单词、句子和概念。我们大家可以看一下这些高维向量,看看什么与什么相似,以及网络是怎么样看待这个概念或那个概念的?因此,只需要查看颜色的Embedding向量,机器就会知道紫色比红色更接近蓝色,以及红色比紫色更接近橙色。它只是通过文本就能知道所有这些东西。
他还提到,其中一个主要挑战是预测具有不确定性的高维向量。那就是目前的自回归Transformer已经具备了这种特性 [decoder-only] 。一个是对于给定一本书中任意的一页,预测其下一页的内容。下一页有非常多的可能性。这是一个很复杂的高维空间,而它们能很好地处理它。同样的情况也适用于图像。这些自回归Tranformer在图像上也运作得非常完美。
基于笔者对GPT3/4其智能原理的推演 (详见:“”章节) ,与Ilya SutskeverIlya的只言片语做一一对照分析,能够正常的看到笔者的技术原理推演与Ilya SutskeverIlya的表述完全吻合。
中提到,语言学中一个长期存在的难题是,儿童如何学习他们的语言的基本语法结构,从而能够创造出他们以前从未听过的句子。一项新的研究表明,这样的一个过程涉及一种相变,即当语法规则被学习者直觉地理解时,一种语言的“深层结构”会突然结晶出来。在这个相变点,一种语言从看起来像是随机的单词混合体转变为一个高度结构化的、富含信息的通信系统。
巴黎高等师范学校 (École Normale Supérieure) 的物理学家Eric DeGiuli认为,人类语言语法最简单的类型被称为无上下文文法 (CFG) ,可以被视为物理对象,其“表面”包括所有可能的单词排列方式,包括原则上无意义的句子。DeGiuli表示,这些许多单词组合就像统计力学中的微观态——一个系统的组成粒子的所有可能的排列方式。
DeGiuli看到CFG从随机和杂乱无序的CFG突然转变为具有高信息量的CFG。这种转变类似于水的结冰过程。他认为,这种转变可能解释了为什么在发展的某个阶段,孩子学习怎么样快速构造语法正确的句子。
一文中笔者提到,没有预训练的Transformer是一张各向对称的白纸,也就是其语言空间的密度函数ρ是均匀的。这个语言空间的密度函数决定了系统的信息熵,如果我们把 ρ 表示成向量 η,则信息熵可以表示为 F(η)。
随着语料不断被 emdedding 同时基于注意力机制 transform 到这个语言空间,空间的密度 ρ/η 发生改变,信息熵 F(η) 随着改变,引发语言空间对称性破缺与重建。
这个过程可能会在局部区域不同尺度下持续进行。一旦触及临界点,对称性破缺引发相变,大模型就会在某些领域、不同长度上下文表现出各种神奇的涌现能力。也就是语言空间中,出现了局部的“学习语言需要相变”中提到的“语言结晶”。
文中,微软总部研究院机器学习理论组负责人万引大神Sébastien Bubeck联手2023新视野数学奖得主Ronen Eldan、2023新晋斯隆研究奖得主李远志、2020斯隆研究奖得主Yin Tat Lee等人,在其论文《通用AI的火花:GPT-4早期实验》中申明:“GPT-4可被视作 AGI 的早期版本”。
Bubeck宣称传统机器学习已经不存在了,他和他的团队全面转向 AI 物理学。在机器学习中引入的所有工具在GPT-4的光芒下几乎无用且不相关,因为这是一个新领域。当然,我们不知道它会是啥样子,但我们尝试研究的方法是尝试理解“涌现现象”。
“让我们研究人工智能的物理学或者通用AI的物理学,因为从某一种意义上讲,我们现在真正看到的是这种通用智能。那么,研究通用AI的物理学意味着什么?它的意思是,让我们试着借鉴物理学家过去几个世纪用来理解现实的方法论”。
译文推导得出如下结论:Transformer模块的正向传递映射到响应数据的矢量自旋模型中的计算磁化。我们提议对一个一般矢量自旋系统的自由能求导,以得到一个完整transformer模块的架构蓝图。
通过从不相干的、统计力学的角度缩小和接近transformer,我们获得了transformer的物理直觉,当我们把自己局限在纷繁变化的显式神经网络架构时,这种直觉似乎很难获得。将transformer模块视为伪装的自旋模型不但可以作为近似计算磁化的不同方法,统一架构变体,而且还可以阐释transformer在深度学习中的经验性质的成功。
Transformer 等价于重整化群(RG)。RG 就是在 Ising Model的研究中提炼出来的。重整化“能够说是过去50年理论物理学中最重要的进展”。重整化群包括一个由大量自由度描述的系统,RG逐级尺度执行粗粒度化操作,自由度子集被组合在一起平均,以形成新的集体变量/隐变量。物理尺度如何引申到信息理论的“尺度”概念呢?
, 一种受贝叶斯统计推断启发的完全信息理论的重整化方法,我们叫做贝叶斯重整化。贝叶斯重整化的主要观点是,Fisher度量定义了一个相关长度,它起到了一个重整化群尺度的作用,量化了概率分布空间中邻近点之间的可区分性。
贝叶斯重整化有充足的通用性,即使在没有直接物理尺度的情况下也能应用,从而为数据科学环境中的重整化提供了一种理想的方法。我们将这个方程以及更广泛地使用贝叶斯推理动态更新信念的想法,称为动态贝叶斯推理 (Dynamic Bayesian Inference,或Dynamical Bayes,DB) 。DB的一个核心观察是,随着新数据的收集,“当前”最可能的模型流经“可能模型”的空间,流向真正负责生成观测数据的概率分布。
这一观察激发了这样一种想法,即重整化群流可以被视为与动态贝叶斯过程的“逆”过程,前者将数据生成模型降低到近似模型,后者将近似模型带回数据生成模型。
,文中讲到,如果用Z代表一张脸,借助我们刚才学会的群的数学形式能表达为: G(Z) = G1G2G3G…Gn( Z )。这里的G1到Gn对应不一样的层次上Operation 或者说Transformation,也就是在各个层次的潜变量 (“眼角、眉梢、到额头、五官,脸型,神态”) 构成的新坐标系里面的矩阵代表的变换,一如俄罗斯套娃。
大家知道,这些潜变量都是对应着简单的高斯分布的,其实都是个随机函数,Gx(Z)也就是Z这张脸在这些潜变量函数基张成的空间中的样子。概率分布是归一的,也就是normalize,反复的normalize就是renormalize。
对一张图像,重整化从细颗粒度到粗颗粒度,逐层提取潜变量Zn, 提取图像中蕴含的各层次的结构;而生成图像的过程就是从粗粒度,对潜变量的高斯概率分布进行采样,重建下一个层次的结构(类似你跟别人描述这个人浓眉大眼)。
重整化的群变换 Gn 在生成过程中用到 Gn 的逆。GPT 和其他大语言模型的使用的Transformer其实就可以类比这些重整化的群变换G,但是目前没看到学术研究 Transformer 是否严格有逆,也就是是否构成严格意义上的群。OpenAI应该是找到了这个逆。这是猫师傅没有交给虎徒弟的绝招。
,哈佛 大学两位学者的RGF-OT这篇文章,他们不仅确定了精确重整化群流的方程等效于场的相对熵的最优输运梯度流,还巧妙的使用最优输运的思想将重整化群转化为变分问题,这种RG的变分形式除了具有理论意义外,还可用于设计计算传统场的重整化群流的神经网络。
尺度变换的每一步,RG Flow 的流向,都将会沿着最优输运的方向进行,也就是物理量的 RG Flow 尺度变换前的概率分布与尺度变换后的概率分布的距离最近的方向,而这就是 Wasserstein 距离决定的方向。
Wasserstein 距离是概率分布空间上的距离度量,在最优输运中起着核心作用,用于衡量两个概率分布之间的距离。世界的不断演进,都是冥冥中遵循最小化各种代价或成本的方式来进行,最优输运某一种意义上是自然演化的必然方向和准则。
海量的文本或者多模态语料组成了大模型需要认知的外部世界的基础信息;嵌入构建高维概率化的语言空间,用来建模语言文字图像以及音视频,并对连续变量做离散化,例如时间序列, 人脑可能并不是特别需要离散化。
预训练以重整化群流的方式来进行,在不同尺度上提炼语料数据中的信息概率分布;重整化群流的每一步流动 (自回归预测逼近训练语料概率分布) ,都沿着最优输运的成本最低方向进行。
重整化群在不动点附近因新语料带来微扰而发生对称性破缺,滑入不同的相空间;不同的相空间,对应某一种意义上的范畴,可形象化为信息的结晶;这是大模型从语料中学到的内部世界模型。
在外部感官输入下 (被提示置于某种上下文) ,大模型内部将限定在相应的高维语言概率空间的子空间内推理;推理是在子空间中采样,类比推理时跨范畴采样;采样不断进行,基于内部概率化了的世界模型 (预训练获得的先验) ,针对感官输入 (提示) ,做变分推断,最小化自由能,获取最佳采样分布q*,作为对导致感官输入的外部后验的预测。
,引用了 文中的总 结:语言范畴中的对象是语言中的表达式,表达式之间用多头注意力捕捉的概率表征关系,构成概率丰富范畴。
仔细观察这个用概率丰富化了的范畴,由节点和节点之间的边构成,节点与边的概率由重整化群流的学习过程,通过例如Transformer的注意力机制提取。不断训练,不断提取。
当边的数量少时,范畴中仅有小部件;更多训练,更多的关系被注意力捕捉,生成更多的边,大部件慢慢的出现;持续学习,最终可以将几乎所有节点连结在一起。重整化群流一层层提取语料中的潜变量和潜变量之间的关系,潜变量形成概率丰富范畴中的节点,而潜变量之间的关系形成该范畴中概率表征的边。这是一个随机的生成过程。
重整化群流生成概率丰富范畴的过程,从上文描述看,特点符合类似 Erdős-Rényi 生成随机图 (Random Graph) 的随机过程,只不过更加庞大而且复杂的非同质随机图。随机图是许多复杂系统的基础,严格映射到随机图,证明同构,能确定系统将发生相变。同样, 非同质随机图相变也已经被理论上证明。
王庆法,二十多年从事数据与分析领域工作,先后服务于 IBM,微软,亚马逊等企业研发部门。现为世界500强龙头电子制造企业数字化转型的技术和分析负责人。长期研究深度学习、神经网络、以及现在大模型的数学物理原理。个人公众号“清熙”的作者。
王庆法老师在「GPT4 技术原理」的系列文章中,深度解析了 ChatGPT 获得智能的数学物理机理:
为了深入探讨 AGI 相关话题,集智俱乐部联合集萃深度感知技术研究所所长岳玉涛、麻省理工学院博士沈马成、天普大学博士生徐博文,共同发起,涵盖主题包括:智能的定义与度量、智能的原理、大语言模型与信息世界的智能、感知与具身智能、多视角下的人工智能、对齐技术与AGI安全性、AGI时代的未来社会。读书会从2023年9月21日开始,每周四晚上 19:00-21:00,预计持续7-10周。欢迎感兴趣的朋友报名参与!
集智学园VIP双十一限时特惠,加入就可以解锁集智所有资源,并有机会获得周边礼品!详情请见:《》