下一代大模型的新奇点是什么?
创始人
2024-07-08 01:09:24
0

WAIC2024超越边界:探索下一代大模型的基础研究

作者/ IT时报记者沈毅斌

编辑/孙妍

大语言模型,文字界的创作者,可以撰写生动故事、制作文案策划、与人们深度交流对话;视觉大模型,拥有识别图像、分类图像、生成图像等能力,让其成为“画家”;多模态大模型则是一位全能选手,文本、图像、音频、视频等处理都不在话下……

这些以Transformer为核心架构的大模型,正在以前所未有的方式影响着人类社会的各个层面,实现从百万参数向万亿参数的飞跃发展。但新的挑战也随之而来,算力需求大、训练和推理消耗能源巨大、数据质量不佳等,让人们再次站在“十字路口”。

大模型需要“记忆分层”

尽管目前的大模型已经能够联想推理出相似的词句信息,但它还比不上人脑,人脑会不断预测,跨越多个尺度的表征层级。而实现这一能力的原因就是“记忆分层”,具体来看,就是当元知识、高频知识、低频知识等输入脑海时,会被分层处理为条件反射的隐性记忆、有意识回忆的显性记忆、暂时进行信息保存的工作记忆。

因此要让下一代大模型实现进一步智能化,同样需要进行分层处理。

“对于下一代大模型发展,第一要用好全量数据,第二要最大程度地降低成本和功耗。”中国科学院院士、北京科学智能研究院理事长鄂维南在“超越边界:探索下一代大模型的基础研究”论坛上表示,下一代人工智能的技术框架可以分为四层,第一层将是通用AI数据库,这个数据库会将结构化、非结构化、半结构化等不同类型的数据统一,不是被动的数据存储库,而是主动参与数据分析和决策过程的重要数据库。

在此基础上搭建的第二层为通用模型和专用知识库。通用模型提供强大的信息处理能力,专用知识库提供专业领域的深度和精准度,两者结合实现低成本、高效率地打造第三层智能体(小模型)。

随着一个个小模型参数量、数据结构复杂度等不断增加,就能逐步搭建起最顶层的操作程序,即大模型最终结构。

大模型发展的三大定律

在华为昇腾计算业务CTO周斌看来,如今大模型的发展离不开三大定律。第一定律为Scaling Law,即尺度定律,模型的规模大小决定了模型的能力上限。目前来看,大模型表现出对模型规模的依赖性,随着计算量、数据量和参数量的提升而提升,而这一提升是可以预测的。

因此引出第二定律Chinchilla Law(龙猫定律),即在有限的计算资源下,寻找模型的参数量和数据量之间一个最优比例,模型大小和训练token的数量也应该以相等的比例进行扩展。

第三定律Emergent Abilities(涌现能力),是计算量达到一定阈值后才可能出现。目前测试数据显示,LLMs的“涌现能力”普遍出现在进行10的22次方浮点运算之后,在10的22次方至10的24次方之间能力成线性增长。

周斌认为,在大模型达到百万亿参数级之前,Scaling Law将持续奏效,此后,Gemini、Sora这样突破百万tokens的超长序列将成为大模型主流标配。这就意味着,更大的模型+更多的数据+更多的计算才能让大模型从数据驱动走向算力驱动,形成下一代大模型。

下一代算力的挑战

“我们一直在规划下一代基础设施创新,以继续推动 AI能力越来越强大。”微软首席沟通官Frank Shaw曾表示,这意味着前所未有的投入、算力、能源等需求将为下一代大模型的发展带来诸多挑战。

从算力维度来看,训练单模型的算力规模呈现指数级别增长。从GPT-2到GPT-4,训练算力增加了3000~10000倍;过去十多年来,每年模型算力需求约增长3倍多;2027年前可能会出现价值百亿美元的单集群。不过,算力规模预计,指数级增长可能在2028年达到顶峰。

数据量方面,周斌现场展示了三组数据图,高质量语言数据存量40T Tokens ,预计2026年前耗尽;低质量数据可以支持到2040年左右;目前,图像数据集年增长率大约18%~31%,预计在2030年到2060年之间耗尽。

随着AI模型增大,单NPU/GPU芯片所需要的互联带宽快速增长,需求已经超过了传统交换芯片容量的增长速度;AI算力集群规模的增长加上单芯片互联带宽的增长,将互联网络的规模推向了新高,百万卡集群需近千万的互联端口,而因为能源供给等问题,也会进一步推高跨区域的DC互联带宽,这些都将成为下一代大模型基础设施建设的挑战。

周斌还表示,大模型训练是一个大型分布式全机应用,随着集群规模增加,故障发生间隔快速缩短,严重影响集群系统实际的可用计算时间,如何预测、检测、隔离和恢复系统故障,提升大模型训练的有效计算效率?这是大规模算力集群的另一个挑战。

AI研究AI是新奇点

智能手机的发展关键点是迎来了“iPhone时刻”,大模型走进大众视野的关键点是ChatGPT的横空出世,那么下一代大模型发展的新奇点会是什么?

“我们猜想是AI的研究自动化,可能会迎来智能爆炸时代。”周斌口中的AI研究自动化,即用AI来自动研究AI。在他看来,未来智能计算技术发展路径整体为摩尔定律延长线走向非冯架构(突破冯·诺依曼架构局限),再到新计算范式的兴起。

具体来看,是存、传、算、电、质五大方面的改变。计算介质由电子计算发展为量子计算,从近似计算发展为模拟计算;软件使能从混合精度变为AI OS;计算架构从对等架构变为存算一体架构;工艺工程的wafer scale尺寸将升级为M3D。在这些细节改变提升后,带宽、计算速度、计算能效、信息压缩等也能得到大幅提升,下一代大模型将拥有更强的智能计算能力。

对于如何打造下一代大模型,周斌认为,可以塑造一个新的模型结构,比如全连接基础上增加bypass路径,来提升大模型局部性计算的能力。目前,知识图谱、检索增强生成技术还处于一个早期状态,可以考虑制造通用大模型+领域大模型的混合模型,解决异构模型、小模型消费数据量少的情况。同时,将专业知识、物理和化学模型、生物和认知行为以及社会科学等机理融入到AI能力中。使大模型在线学习能力、强化学习能力可以持续演进。

排版/ 季嘉颖

图片/ WAIC

来源/《IT时报》公众号vittimes

E N D

相关内容

热门资讯

无人机助力缅甸地震救援 中国救...   中国日报网4月2日电 当地时间3月28日,缅甸发生7.9级地震,多座建筑倒塌,曼德勒等城市成为重...
寻迹中国|外国博主走进河池 体...   河池市是广西最大的茧丝绸主产区,也是我国优质茧丝生产基地。从“东桑西移”到“东绸西移”,近年来,...
东帝汶留学生感受“舌尖上的河西...   来自东帝汶的留学生杰克拉已经在甘肃省张掖市河西学院留学一年,活泼开朗的她对于中国美食一直十分向往...
美国加征关税 全球一片反对   美国白宫计划4月2日宣布对贸易伙伴征收“对等关税”的措施。这被认为是美国本届政府影响范围最广、冲...
美国“关税讹诈”破坏世界经济稳...   美国利用关税手段在全球范围内进行讹诈,已成为世界经济最大的不稳定和不确定因素。面对美国人为制造的...
特朗普关税乱拳开打 为何美国自...   当地时间4月2日,美国总统特朗普在白宫宣布对贸易伙伴征收所谓的“对等关税”措施。此外,特朗普当日...
美国对进口汽车加征25%关税正...   新华社华盛顿4月3日电(记者熊茂伶)美国总统特朗普此前宣布的对进口汽车加征25%关税的措施3日正...
缅甸强震后已发生63次余震   新华社缅甸曼德勒4月3日电(记者张东强)缅甸气象和水文局3日发布报告说,截至当地时间3日8时30...
缅甸强震已致3085人死亡   新华社快讯:缅甸国家管理委员会新闻信息小组发布消息说,截至当地时间4月3日上午8时,缅甸强震已致...
华为、腾讯、招商局....大湾...   从“孔雀东南飞”到“百万英才汇南粤”  今天的广东  比以往任何时候都更加  重视人才、渴求人才...