大模型Scaling Law(規模定律)將失效?長期以來,大模型的發展遵循依靠模型參數增加、數據集規模擴充以優化模型性能的規模定律。但隨著可用于預訓練的開源數據挖掘殆盡、模型訓練所需的算力資源緊缺,大模型發展遵循的Scaling Law即將失效。
在近日舉行的清華大學基礎模型2025學術年會上,清華大學計算機科學與技術系副教授劉知遠表示,“密度法則”將接替Scaling Law成為最新大模型迭代規律。根據這一法則,端側智能將迎來廣闊發展前景。
“密度法則”成為大模型發展新定律?
“芯片電路密度(即芯片計算單元數量與芯片面積的比值)每18個月翻1倍。”這是集成電路行業熟悉的摩爾定律。
劉知遠提出的“密度法則”與這一規律類似,指大模型知識密度將每100天翻1倍。基于這一定律,劉知遠認為,模型將朝著參數小型化、成本普惠的方向發展,并提出基于該定律的四條推論:
推論一:實現特定AI水平的模型參數呈指數下降,實現相同智能水平的模型參數量每3.3個月下降一半,同時模型推理速度提升一倍。例如,2024年2月發布的2.4B規模的MiniCPM-1,能力與2023年9月發布的7B規模Mistral相當,但參數量僅相當于后者的35%。
推論二:模型推理開銷隨時間呈指數級下降。例如,在過去20個月內,GPT-3.5級模型的API價格下降至原先的1/266.7,約2.5個月下降一半,而更低的價格將會帶來更多的應用。
推論三:模型訓練開銷隨時間迅速下降。高質量互聯網數據規模約為15T,可訓練的模型最大參數約為750B,但1年后,僅需58B參數模型便可實現相同能力。推論四:大模型能力密度呈加速增強趨勢。ChatGPT發布之前,大模型能力密度約按每4.8個月增加1倍的速度增長;ChatGPT發布后,大模型密度倍增時間縮短至3.2個月。
模型小型化彰顯端側AI能力
在“密度法則”下,模型將沿著這樣的路徑發展:同等智能水平模型的訓練、推理開銷等成本降低,模型規模縮小,能力密度持續增強。與此同時,在摩爾定律仍在發揮作用的情況下,端側芯片的承載能力仍在增強。
這意味著,隨著時間的推演,將出現能力水平非常高的大模型,同時其參數規模能夠縮小到一定的程度,使其能夠裝載到消費級計算設備上。屆時,端側AI能力將得以彰顯。但將運行在云端的PB級的知識規模濃縮到GB級的小模型參數中,是一項具備挑戰性的工作。如何進行海量互聯網數據的治理、如何利用數據背后的知識實現模型高效學習以實現大模型的科學化制備,將成為未來大模型構建的關鍵課題。
智能算法創新遠未收斂
在過去5年中,一項項技術創新推動著大模型的發展:2018年出現的自監督預訓練技術,使大模型具備了掌握人類知識的能力。但這一階段,模型只是實現了學習,還不能實現模型應用;2021年,有監督的微調技術,使模型具備了理解人類意圖的能力,可從用戶的負責指令中挖掘出人類的真實意圖,并調用自己掌握的知識,完成該指令。
2025年,模型借助強化學習技術,具備了深度思考的能力,可以在完成任務之前,像人一樣深思熟慮,通過一步一步的思考給出準確的回答。面向未來,劉知遠認為,智能算法創新和演進遠遠沒有收斂,未來人工智能邁向AGI(通用人工智能)過程中還要不斷拓展能力樹,這也是人工智能邁向的核心任務之一。其需要拓展的能力包括自主學習、合作、創新創造等。如果停止算法創新,則將落后于其他發展AI能力的行業參與者。
就像人類個體具備一定智能水平之后,其彼此之間通過協同實現了群體智能涌現一樣,劉知遠認為,人工智能在結束個體的智能涌現之后,將通過多智能體群聚,迎來群體智能的第二次涌現。就像互聯網把全球信息和人連接在一起,群體智能就有機會通過智能體互聯網連接在一起,實現智能的二次涌現。制定智能體接入與溝通協議,有利于異質智能體溝通協作,共同完成任務。且不同專業能力的智能體有機結合,將完成個體所不能勝任的更復雜的任務。
共0條 [查看全部] 網友評論