下一代大模型的新奇点是什么？

创始人

2024-07-08 01:09:24

0次

WAIC2024超越边界：探索下一代大模型的基础研究

作者／ IT时报记者沈毅斌

编辑／孙妍

大语言模型，文字界的创作者，可以撰写生动故事、制作文案策划、与人们深度交流对话；视觉大模型，拥有识别图像、分类图像、生成图像等能力，让其成为“画家”；多模态大模型则是一位全能选手，文本、图像、音频、视频等处理都不在话下……

这些以Transformer为核心架构的大模型，正在以前所未有的方式影响着人类社会的各个层面，实现从百万参数向万亿参数的飞跃发展。但新的挑战也随之而来，算力需求大、训练和推理消耗能源巨大、数据质量不佳等，让人们再次站在“十字路口”。

大模型需要“记忆分层”

尽管目前的大模型已经能够联想推理出相似的词句信息，但它还比不上人脑，人脑会不断预测，跨越多个尺度的表征层级。而实现这一能力的原因就是“记忆分层”，具体来看，就是当元知识、高频知识、低频知识等输入脑海时，会被分层处理为条件反射的隐性记忆、有意识回忆的显性记忆、暂时进行信息保存的工作记忆。

因此要让下一代大模型实现进一步智能化，同样需要进行分层处理。

“对于下一代大模型发展，第一要用好全量数据，第二要最大程度地降低成本和功耗。”中国科学院院士、北京科学智能研究院理事长鄂维南在“超越边界：探索下一代大模型的基础研究”论坛上表示，下一代人工智能的技术框架可以分为四层，第一层将是通用AI数据库，这个数据库会将结构化、非结构化、半结构化等不同类型的数据统一，不是被动的数据存储库，而是主动参与数据分析和决策过程的重要数据库。

在此基础上搭建的第二层为通用模型和专用知识库。通用模型提供强大的信息处理能力，专用知识库提供专业领域的深度和精准度，两者结合实现低成本、高效率地打造第三层智能体（小模型）。

随着一个个小模型参数量、数据结构复杂度等不断增加，就能逐步搭建起最顶层的操作程序，即大模型最终结构。

大模型发展的三大定律

在华为昇腾计算业务CTO周斌看来，如今大模型的发展离不开三大定律。第一定律为Scaling Law，即尺度定律，模型的规模大小决定了模型的能力上限。目前来看，大模型表现出对模型规模的依赖性，随着计算量、数据量和参数量的提升而提升，而这一提升是可以预测的。

因此引出第二定律Chinchilla Law（龙猫定律），即在有限的计算资源下，寻找模型的参数量和数据量之间一个最优比例，模型大小和训练token的数量也应该以相等的比例进行扩展。

第三定律Emergent Abilities（涌现能力），是计算量达到一定阈值后才可能出现。目前测试数据显示，LLMs的“涌现能力”普遍出现在进行10的22次方浮点运算之后，在10的22次方至10的24次方之间能力成线性增长。

周斌认为，在大模型达到百万亿参数级之前，Scaling Law将持续奏效，此后，Gemini、Sora这样突破百万tokens的超长序列将成为大模型主流标配。这就意味着，更大的模型+更多的数据+更多的计算才能让大模型从数据驱动走向算力驱动，形成下一代大模型。

下一代算力的挑战

“我们一直在规划下一代基础设施创新，以继续推动 AI能力越来越强大。”微软首席沟通官Frank Shaw曾表示，这意味着前所未有的投入、算力、能源等需求将为下一代大模型的发展带来诸多挑战。

从算力维度来看，训练单模型的算力规模呈现指数级别增长。从GPT-2到GPT-4，训练算力增加了3000~10000倍；过去十多年来，每年模型算力需求约增长3倍多；2027年前可能会出现价值百亿美元的单集群。不过，算力规模预计，指数级增长可能在2028年达到顶峰。

数据量方面，周斌现场展示了三组数据图，高质量语言数据存量40T Tokens ，预计2026年前耗尽；低质量数据可以支持到2040年左右；目前，图像数据集年增长率大约18%~31%，预计在2030年到2060年之间耗尽。

随着AI模型增大，单NPU/GPU芯片所需要的互联带宽快速增长，需求已经超过了传统交换芯片容量的增长速度；AI算力集群规模的增长加上单芯片互联带宽的增长，将互联网络的规模推向了新高，百万卡集群需近千万的互联端口，而因为能源供给等问题，也会进一步推高跨区域的DC互联带宽，这些都将成为下一代大模型基础设施建设的挑战。

周斌还表示，大模型训练是一个大型分布式全机应用，随着集群规模增加，故障发生间隔快速缩短，严重影响集群系统实际的可用计算时间，如何预测、检测、隔离和恢复系统故障，提升大模型训练的有效计算效率？这是大规模算力集群的另一个挑战。

AI研究AI是新奇点

智能手机的发展关键点是迎来了“iPhone时刻”，大模型走进大众视野的关键点是ChatGPT的横空出世，那么下一代大模型发展的新奇点会是什么？

“我们猜想是AI的研究自动化，可能会迎来智能爆炸时代。”周斌口中的AI研究自动化，即用AI来自动研究AI。在他看来，未来智能计算技术发展路径整体为摩尔定律延长线走向非冯架构（突破冯·诺依曼架构局限），再到新计算范式的兴起。

具体来看，是存、传、算、电、质五大方面的改变。计算介质由电子计算发展为量子计算，从近似计算发展为模拟计算；软件使能从混合精度变为AI OS；计算架构从对等架构变为存算一体架构；工艺工程的wafer scale尺寸将升级为M3D。在这些细节改变提升后，带宽、计算速度、计算能效、信息压缩等也能得到大幅提升，下一代大模型将拥有更强的智能计算能力。

对于如何打造下一代大模型，周斌认为，可以塑造一个新的模型结构，比如全连接基础上增加bypass路径，来提升大模型局部性计算的能力。目前，知识图谱、检索增强生成技术还处于一个早期状态，可以考虑制造通用大模型+领域大模型的混合模型，解决异构模型、小模型消费数据量少的情况。同时，将专业知识、物理和化学模型、生物和认知行为以及社会科学等机理融入到AI能力中。使大模型在线学习能力、强化学习能力可以持续演进。

排版／季嘉颖

图片／ WAIC

来源／《IT时报》公众号vittimes

E N D

上一篇：切尔西新援霍尔如何适配中场，加拉格尔又何去何从？

下一篇：原创 “小猪”看好桑乔，曼联可以争取马伦，拉什福德需要检讨

下一代大模型的新奇点是什么？

大模型需要“记忆分层”

大模型发展的三大定律

下一代算力的挑战

AI研究AI是新奇点

相关内容

热门资讯