大模型Scaling Law(規(guī)模定律)將失效?長(zhǎng)期以來(lái),大模型的發(fā)展遵循依靠模型參數(shù)增加、數(shù)據(jù)集規(guī)模擴(kuò)充以優(yōu)化模型性能的規(guī)模定律。但隨著可用于預(yù)訓(xùn)練的開(kāi)源數(shù)據(jù)挖掘殆盡、模型訓(xùn)練所需的算力資源緊缺,大模型發(fā)展遵循的Scaling Law即將失效。
在近日舉行的清華大學(xué)基礎(chǔ)模型2025學(xué)術(shù)年會(huì)上,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授劉知遠(yuǎn)表示,“密度法則”將接替Scaling Law成為最新大模型迭代規(guī)律。根據(jù)這一法則,端側(cè)智能將迎來(lái)廣闊發(fā)展前景。
“密度法則”成為大模型發(fā)展新定律?
“芯片電路密度(即芯片計(jì)算單元數(shù)量與芯片面積的比值)每18個(gè)月翻1倍。”這是集成電路行業(yè)熟悉的摩爾定律。

劉知遠(yuǎn)提出的“密度法則”與這一規(guī)律類似,指大模型知識(shí)密度將每100天翻1倍。基于這一定律,劉知遠(yuǎn)認(rèn)為,模型將朝著參數(shù)小型化、成本普惠的方向發(fā)展,并提出基于該定律的四條推論:
推論一:實(shí)現(xiàn)特定AI水平的模型參數(shù)呈指數(shù)下降,實(shí)現(xiàn)相同智能水平的模型參數(shù)量每3.3個(gè)月下降一半,同時(shí)模型推理速度提升一倍。例如,2024年2月發(fā)布的2.4B規(guī)模的MiniCPM-1,能力與2023年9月發(fā)布的7B規(guī)模Mistral相當(dāng),但參數(shù)量?jī)H相當(dāng)于后者的35%。
推論二:模型推理開(kāi)銷隨時(shí)間呈指數(shù)級(jí)下降。例如,在過(guò)去20個(gè)月內(nèi),GPT-3.5級(jí)模型的API價(jià)格下降至原先的1/266.7,約2.5個(gè)月下降一半,而更低的價(jià)格將會(huì)帶來(lái)更多的應(yīng)用。
推論三:模型訓(xùn)練開(kāi)銷隨時(shí)間迅速下降。高質(zhì)量互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模約為15T,可訓(xùn)練的模型最大參數(shù)約為750B,但1年后,僅需58B參數(shù)模型便可實(shí)現(xiàn)相同能力。推論四:大模型能力密度呈加速增強(qiáng)趨勢(shì)。ChatGPT發(fā)布之前,大模型能力密度約按每4.8個(gè)月增加1倍的速度增長(zhǎng);ChatGPT發(fā)布后,大模型密度倍增時(shí)間縮短至3.2個(gè)月。
模型小型化彰顯端側(cè)AI能力
在“密度法則”下,模型將沿著這樣的路徑發(fā)展:同等智能水平模型的訓(xùn)練、推理開(kāi)銷等成本降低,模型規(guī)?s小,能力密度持續(xù)增強(qiáng)。與此同時(shí),在摩爾定律仍在發(fā)揮作用的情況下,端側(cè)芯片的承載能力仍在增強(qiáng)。

這意味著,隨著時(shí)間的推演,將出現(xiàn)能力水平非常高的大模型,同時(shí)其參數(shù)規(guī)模能夠縮小到一定的程度,使其能夠裝載到消費(fèi)級(jí)計(jì)算設(shè)備上。屆時(shí),端側(cè)AI能力將得以彰顯。但將運(yùn)行在云端的PB級(jí)的知識(shí)規(guī)模濃縮到GB級(jí)的小模型參數(shù)中,是一項(xiàng)具備挑戰(zhàn)性的工作。如何進(jìn)行海量互聯(lián)網(wǎng)數(shù)據(jù)的治理、如何利用數(shù)據(jù)背后的知識(shí)實(shí)現(xiàn)模型高效學(xué)習(xí)以實(shí)現(xiàn)大模型的科學(xué)化制備,將成為未來(lái)大模型構(gòu)建的關(guān)鍵課題。
智能算法創(chuàng)新遠(yuǎn)未收斂
在過(guò)去5年中,一項(xiàng)項(xiàng)技術(shù)創(chuàng)新推動(dòng)著大模型的發(fā)展:2018年出現(xiàn)的自監(jiān)督預(yù)訓(xùn)練技術(shù),使大模型具備了掌握人類知識(shí)的能力。但這一階段,模型只是實(shí)現(xiàn)了學(xué)習(xí),還不能實(shí)現(xiàn)模型應(yīng)用;2021年,有監(jiān)督的微調(diào)技術(shù),使模型具備了理解人類意圖的能力,可從用戶的負(fù)責(zé)指令中挖掘出人類的真實(shí)意圖,并調(diào)用自己掌握的知識(shí),完成該指令。
2025年,模型借助強(qiáng)化學(xué)習(xí)技術(shù),具備了深度思考的能力,可以在完成任務(wù)之前,像人一樣深思熟慮,通過(guò)一步一步的思考給出準(zhǔn)確的回答。面向未來(lái),劉知遠(yuǎn)認(rèn)為,智能算法創(chuàng)新和演進(jìn)遠(yuǎn)遠(yuǎn)沒(méi)有收斂,未來(lái)人工智能邁向AGI(通用人工智能)過(guò)程中還要不斷拓展能力樹(shù),這也是人工智能邁向的核心任務(wù)之一。其需要拓展的能力包括自主學(xué)習(xí)、合作、創(chuàng)新創(chuàng)造等。如果停止算法創(chuàng)新,則將落后于其他發(fā)展AI能力的行業(yè)參與者。
就像人類個(gè)體具備一定智能水平之后,其彼此之間通過(guò)協(xié)同實(shí)現(xiàn)了群體智能涌現(xiàn)一樣,劉知遠(yuǎn)認(rèn)為,人工智能在結(jié)束個(gè)體的智能涌現(xiàn)之后,將通過(guò)多智能體群聚,迎來(lái)群體智能的第二次涌現(xiàn)。就像互聯(lián)網(wǎng)把全球信息和人連接在一起,群體智能就有機(jī)會(huì)通過(guò)智能體互聯(lián)網(wǎng)連接在一起,實(shí)現(xiàn)智能的二次涌現(xiàn)。制定智能體接入與溝通協(xié)議,有利于異質(zhì)智能體溝通協(xié)作,共同完成任務(wù)。且不同專業(yè)能力的智能體有機(jī)結(jié)合,將完成個(gè)體所不能勝任的更復(fù)雜的任務(wù)。










共0條 [查看全部] 網(wǎng)友評(píng)論