<p id="uqxxk"></p>
<style id="uqxxk"></style>
<legend id="uqxxk"><track id="uqxxk"><menuitem id="uqxxk"></menuitem></track></legend><style id="uqxxk"></style>
    久久中文字幕一区二区,欧美黑人又粗又大又爽免费,东方av四虎在线观看,在线看国产精品自拍内射,欧美熟妇乱子伦XX视频,在线精品另类自拍视频,国产午夜福利免费入口,国产成人午夜福利院

    中自數(shù)字移動傳媒

    您的位置:首頁 >> 綜合新聞 >> 加速AI計算

    加速AI計算

    已有3997次閱讀2023-11-06標(biāo)簽:

      隨著AI大模型的發(fā)展,如何加速計算成了行業(yè)想要突破的重點領(lǐng)域。大模型的蓬勃發(fā)展讓AI芯片成為了熱門話題。為了更好地支持AI大模型,如何提高AI芯片性能也成為了產(chǎn)業(yè)關(guān)注的話題。

      在談?wù)揂I芯片性能的時候,首先想到的一個指標(biāo)就是算力即每秒操作數(shù),通常用TOPS(Tera Operations Per Second)來表示,例如NVIDIA的H100INT8 Tensor Core可以達到3958TOPS。

      AI芯片的算力固然重要,但也并不能了解芯片的能效,尤其是對于邊緣端芯片,低功耗是一個剛需指標(biāo)。因此,通常使用單位功率下的每秒操作數(shù)來衡量芯片的能效,常用單位為TOPS/W。以英偉達Orin舉例,200 TOPS算力下,功耗45W的話,能效為200TOPS/45W=4.44TOPS/W。

      再展開了解,除了每秒操作數(shù)和能效,AI芯片的性能的衡量還和時延、功耗、芯片成本/面積、吞吐量、可擴展性、靈活性和適用性和熱管理等。既然AI芯片的衡量指標(biāo)有這么多,那么想要提升芯片的表現(xiàn)也就需要從改善這些方面下手。

      AI芯片知多少

      在探討如何提升AI芯片性能之前,先來了解一下幾個AI芯片的指標(biāo)的影響因素。

      1.時延

      時延通常與AI神經(jīng)網(wǎng)絡(luò)處理的數(shù)據(jù)大小(包括Batch size)有關(guān)。反映的是AI芯片的實時性能,主要適用于客戶端應(yīng)用。

      2. 功耗

      在云端、邊緣和終端,功耗都是十分重要的指標(biāo)。功耗包括芯片中計算單元的功率消耗,也包括片上存儲和片外存儲的功率消耗。

      3. 芯片成本/面積

      裸片面積對成本有直接影響,每片晶圓上產(chǎn)出的合格芯片越多,單個芯片的成本就越低。相同的設(shè)計,芯片面積大小取決于所用的工藝技術(shù)節(jié)點,節(jié)點越小,面積就越小。這也就解釋了為什么行業(yè)一直在追求更先進節(jié)點。

      4 吞吐量

      單位時間內(nèi)能夠處理的數(shù)據(jù)量。對于視頻應(yīng)用來說,通常用分辨率和FPS(Frames Per Second,也就是幀率)來表示,大的吞吐量能夠保證視頻畫面的連續(xù)性。提高吞吐量的方法包括:提高時鐘頻率、增加處理單元數(shù)量、提高處理單元的利用率等。

      5. 可擴展性

      可擴展性表示是否可以通過擴展處理單元及存儲器來提高計算性能,Scale up指對單個AI芯片的架構(gòu),通過添加更多的處理單元,核數(shù)和存儲器來提升芯片整體性能。Scale out指是由多個AI芯片構(gòu)成的系統(tǒng),通過添加更多AI芯片來提升系統(tǒng)的整體性能。(性能包括:運算能力,還有存儲能力和數(shù)據(jù)傳輸能力等)以英偉達H100為例,這款GPU包括多個規(guī)格,這也讓算力范圍實現(xiàn)了26 teraFLOPS~3958 TOPS*的不同表現(xiàn)。

      6. 靈活性和適用性

      靈活性和適用性決定了相同的設(shè)計是否可以應(yīng)用在不同的領(lǐng)域,以及芯片是否可以運行不同的深度學(xué)習(xí)模型,這一指標(biāo)可能設(shè)計許多軟件層面的工作。

      7.熱管理

      隨著單位面積中的晶體管數(shù)量不斷增加,芯片工作時的問題急劇升高,需要有較好的熱管理方案。常見的散熱方法為風(fēng)扇散熱,谷歌的TPUv3則用到了最新的液體冷卻技術(shù)。如一款A(yù)I芯片算力相當(dāng)高,但功耗也同樣很高,經(jīng)常一過熱就要導(dǎo)致自動降頻這樣的AI芯片也很難說是一款優(yōu)秀的AI芯片。

      AI芯片的限制

      提到AI芯片的限制,就不得不提到“馮·諾依曼瓶頸”,而這個詞已經(jīng)不再那么陌生。

      在傳統(tǒng)馮·諾伊曼體系結(jié)構(gòu)中,數(shù)據(jù)從處理單元外的存儲器提取,處理完之后再寫回存儲器。在 AI芯片實現(xiàn)中,由于訪問存儲器的速度無法跟上運算部件消耗數(shù)據(jù)的速度,再增加運算部件也無法得到充分利用,即形成所謂的馮·諾伊曼“瓶頸”,或“內(nèi)存墻”問題,是長期困擾計算機體系結(jié)構(gòu)的難題。

      這也就引出一個提高AI性能的路徑,即支持高效的數(shù)據(jù)訪問。例如利用高速緩存(Cache) 等層次化存儲技術(shù)盡量緩解運算和存儲的速度差異。

      AI芯片中需要存儲和處理的數(shù)據(jù)量遠遠大于之前常見的應(yīng)用。大部分針對 AI,特別是加速神經(jīng)網(wǎng)絡(luò)處理而提出的硬件架構(gòu)創(chuàng)新都是在和馮·諾伊曼的瓶頸做斗爭。

      在架構(gòu)層面可以減少訪問存儲器的數(shù)量,比如減少神經(jīng)網(wǎng)絡(luò)的存儲需求、 數(shù)據(jù)壓縮和以運算換存儲等 ;也可以降低訪問存儲器的代價,盡量拉近存儲設(shè)備和運算單元的“距離”,甚至直接在存儲設(shè)備中進行運算。

      從AI芯片設(shè)計的角度來說,要達到較好的性能和能效,最好是對架構(gòu)級、算法級和電路級三個層面進行跨層設(shè)計,以實現(xiàn)對各種指標(biāo)的總體權(quán)衡。

      使用領(lǐng)先的工藝節(jié)點是過去的重要途徑,但由于基礎(chǔ)物理原理限制和經(jīng)濟的原因,持續(xù)提高集成密度將變得越來越困難。目前,CMOS 器件的橫向尺寸接近幾納米,層厚度只有幾個原子層,這會導(dǎo)致顯著的電流泄漏,降低工藝尺寸縮小的效果。此外,這些納米級晶體管的能量消耗非常高,很難實現(xiàn)密集封裝。

      因為工藝的提升空間有限,是否有其他角度的解決方案能突破AI芯片的技術(shù)瓶頸。

      兩種解決方法

      1.類腦芯片

      在計算架構(gòu)和器件層面,類腦芯片是一個不錯的思路。神經(jīng)元和大腦突觸的能量消耗比最先進的CMOS 器件還低幾個數(shù)量級。IBM的Neuromorphic的終極理念是把記憶和運算建立在高維連接上,而不是器件上;當(dāng)然最終也降低了運算功耗。許多人工智能算法在其程序中模擬神經(jīng)網(wǎng)絡(luò)。 他們使用并行處理來識別圖像中的對象和語音中的單詞。

      近期,IBM推出了一款新的類腦芯片NorthPole“北極”,北極模糊了計算和存儲之間的界限,IBM研究院的Dharmendra Modha表示,“在單個內(nèi)核級別,NorthPole 顯示為接近計算的內(nèi)存,而在芯片外部,在輸入輸出級別,它顯示為活動內(nèi)存。這使得 NorthPole 易于集成到系統(tǒng)中,并顯著降低了主機上的負載。”

      英特爾也推出了Loihi 神經(jīng)形態(tài)計算處理機器。應(yīng)用腦研究聯(lián)合首席執(zhí)行官、滑鐵盧大學(xué)教授克里斯·埃利亞史密斯 (Chris Eliasmith) 是使用這項新技術(shù)的幾位研究人員之一。他表示 “使用 Loihi 芯片,我們已經(jīng)能夠證明運行實時應(yīng)用程序時的功耗降低了 109 倍。 深度學(xué)習(xí) 與 GPU 相比,功耗降低了 5 倍……更好的是,當(dāng)我們將網(wǎng)絡(luò)擴展 50 倍時,Loihi 可以保持實時性能結(jié)果,并且僅使用 30% 的電量,而物聯(lián)網(wǎng)硬件使用的電量增加了 500%,并且不再是實時的。”

      2.存算一體

      近年來,可以存儲模擬數(shù)值的非易失性存儲器發(fā)展迅猛,它可以同時具有存儲和處理數(shù)據(jù)能力,可以破解傳統(tǒng)計算體系結(jié)構(gòu)的一些基本限制,有望實現(xiàn)類腦突觸功能。(某種意義上存算一體就是實現(xiàn)類腦計算的方式。)

      目前比較流行的存內(nèi)計算范式是——利用存內(nèi)計算加速VMM(Vector-Matrix Multiplication)或GEMM(General Matrix Multiplication)運算。

      基于憶阻器內(nèi)存高速訪問、斷電后仍可保存數(shù)據(jù)的特性,可以實現(xiàn)內(nèi)存+硬盤二合一,解決數(shù)據(jù)的大量移動,從而進一步實現(xiàn)了完全在芯片上進行學(xué)習(xí)任務(wù)。憶阻存內(nèi)計算范式則被認為是有望解決該問題的候選方案之一。以機器學(xué)習(xí)為代表的軟計算應(yīng)用方向已經(jīng)在憶阻陣列上得到了廣泛的驗證,包括神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)聚類和回歸等諸多領(lǐng)域。同時,以科學(xué)計算和圖像處理為代表的硬計算也成功在憶阻陣列上實現(xiàn),并在降低功耗和時間復(fù)雜度等方面取得了很大突破。究其根本,這些應(yīng)用的發(fā)展都得益于憶阻陣列能夠以很高的并行性執(zhí)行并行矩陣向量乘法操作,并消除了大量的數(shù)據(jù)移動任務(wù)。然而,憶阻存內(nèi)計算仍面臨著從底層硬件到系統(tǒng)設(shè)計各個層面的不可忽視的挑戰(zhàn)。

      2023年10月,清華大學(xué)集成電路學(xué)院教授吳華強、副教授高濱基于存算一體計算范式,研制出全球首款全系統(tǒng)集成、支持高效片上學(xué)習(xí)(機器學(xué)習(xí)能在硬件端直接完成)的憶阻器存算一體芯片。相同任務(wù)下,該款芯片實現(xiàn)片上學(xué)習(xí)的能耗僅為先進工藝下專用集成電路系統(tǒng)的3%,展現(xiàn)出卓越的能效優(yōu)勢,具有滿足人工智能時代高算力需求的應(yīng)用潛力。相關(guān)成果可應(yīng)用于手機等智能終端設(shè)備,還可以應(yīng)用于邊緣計算場景,比如汽車、機器人等。

      存算一體已經(jīng)成為多個存儲芯片廠商的主要研究方向。

      3.加速不同組件之間的數(shù)據(jù)傳輸速度

      另一個問題是要解決,設(shè)備之間的內(nèi)存鴻溝:包括內(nèi)存容量、內(nèi)存帶寬和I/O延遲等問題。

      過去服務(wù)器內(nèi)的芯片連接通常是用 PCIe 完成的,從性能和軟件的角度來看,使用 PCIe,不同設(shè)備之間通信的開銷相對較高。此外,連接多臺服務(wù)器通常意味著使用以太網(wǎng)或InfiniBand,這些通信方法存在著相同的問題,具有高延遲和低帶寬。

      2018 年,IBM 和 Nvidia 帶來了解決PCIe與NVLink缺陷的解決方案,應(yīng)用在當(dāng)時世界上最快的超級計算機Summit上。AMD在Frontier超級計算機中也有類似的專有解決方案,名為Infinity Fabric。之后,英特爾制定了自己的標(biāo)準(zhǔn),并于 2019 年將其專有規(guī)范作為CXL1.0 捐贈給了新成立的 CXL 聯(lián)盟。該標(biāo)準(zhǔn)得到了半導(dǎo)體行業(yè)大多數(shù)買家的支持。

      CXL是一種開放式行業(yè)標(biāo)準(zhǔn)互連,可在主機處理器與加速器、內(nèi)存緩沖區(qū)和智能 I/O 設(shè)備等設(shè)備之間提供高帶寬、低延遲連接,從而滿足高性能異構(gòu)計算的要求,并且其維護CPU內(nèi)存空間和連接設(shè)備內(nèi)存之間的一致性。CXL優(yōu)勢主要體現(xiàn)在極高兼容性和內(nèi)存一致性兩方面上。基于業(yè)界大多數(shù)參與者的支持,CXL 使向異構(gòu)計算的過渡成為可能。

      CXL 聯(lián)盟已經(jīng)確定了將采用新互連的三類主要設(shè)備:

      智能網(wǎng)卡等加速器通常缺少本地內(nèi)存。通過 CXL,這些設(shè)備可以與主機處理器的 DDR 內(nèi)存進行通信。

      GPU、ASIC 和 FPGA 都配備了 DDR 或 HBM 內(nèi)存,并且可以使用 CXL 使主機處理器的內(nèi)存在本地可供加速器使用,并使加速器的內(nèi)存在本地可供 CPU 使用。它們還位于同一個緩存一致域中,有助于提升異構(gòu)工作負載。

      可以通過 CXL 連接內(nèi)存設(shè)備,為主機處理器提供額外的帶寬和容量。內(nèi)存的類型獨立于主機的主內(nèi)存。

      不同于存內(nèi)計算,CXL則是處理器廠商的主要攻克方向。

      在加速AI計算的硬件之路,不同公司都在探索新的方法。哪些嘗試會帶來跨時代的改變?我們拭目以待。
     
    分享到:

    [ 新聞搜索 ]  [ ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關(guān)閉窗口 ]  [ 返回頂部 ]

    0條 [查看全部]  網(wǎng)友評論

    移動互聯(lián)

    2010年,中國移動互聯(lián)網(wǎng)用戶規(guī)模達到3.03億人2011年,中國移動互聯(lián)網(wǎng)行業(yè)進入了更加快速發(fā)展的一年,無論是用戶規(guī)模還是手機應(yīng)用下載次數(shù)都有了快速的增長。在移動互聯(lián)網(wǎng)發(fā)展的大的趨勢下,中自傳媒已經(jīng)開始進行區(qū)別于傳統(tǒng)互聯(lián)網(wǎng)的運營模式探索,伴隨著產(chǎn)業(yè)鏈和產(chǎn)業(yè)格局的變化提供創(chuàng)新的服務(wù)

    更多>>推薦視頻

    工業(yè)轉(zhuǎn)型升級-中國電器工業(yè)協(xié)會電力電子分會 秘書長 肖向鋒

    工業(yè)轉(zhuǎn)型升級-中國電器工業(yè)協(xié)會

    在本次2012北京國際工業(yè)自動化展上,我們將全面剖析在新...
    中國高壓變頻器產(chǎn)業(yè)發(fā)展之路——走過十三年 李玉琢

    中國高壓變頻器產(chǎn)業(yè)發(fā)展之路——

    中國高壓變頻器產(chǎn)業(yè)發(fā)展之路走過十三年 李玉琢
    從企業(yè)家角度 談行業(yè)的未來發(fā)展——匯川技術(shù)股份有限公司

    從企業(yè)家角度 談行業(yè)的未來發(fā)展

    從企業(yè)家角度 談行業(yè)的未來發(fā)展匯川技術(shù)股份有限公司
    現(xiàn)代能源變換的核心技術(shù)——電力電子 李崇堅

    現(xiàn)代能源變換的核心技術(shù)——電力

    中國電工技術(shù)學(xué)會常務(wù)理事---李崇堅,電力電子是先進能源...
    打造專業(yè)電力電子元器件品牌 助力變頻器產(chǎn)業(yè)發(fā)展

    打造專業(yè)電力電子元器件品牌 助

    聯(lián)合主辦單位深圳市智勝新電子有限公司領(lǐng)導(dǎo)嘉賓致辭 7月...
    主站蜘蛛池模板: 国产亚洲综合一区二区三区| 自拍偷在线精品自拍偷99| 亚洲欧美日韩国产精品专区| 日本无人区码卡二卡三卡| 又爽又黄又无遮挡的激情视频| 精品久久久久中文字幕APP | 亚洲欧美综合精品成人网站| 欧美日韩精品一区二区三区高清视频| 无码gogo大胆啪啪艺术| 国产综合久久99久久| 色吊丝二区三区中文字幕| 成年女人免费碰碰视频| 久久综合五月丁香久久激情| 国产馆在线精品极品粉嫩| 夜色福利站WWW国产在线视频 | 国产在线午夜不卡精品影院 | 视频一区视频二区卡通动漫| 亚洲春色在线视频| 久久精品国产亚洲av高| 1769国内精品视频在线播放| 日本伊人色综合网| 最新国产精品拍自在线观看| 精产国品一二三产区别手机 | 日韩精品福利视频在线观看| 又大又紧又粉嫩18p少妇| 精品熟女少妇av免费久久| 一本色道久久综合亚洲精品不卡| 久久久亚洲欧洲日产国码αv| 国产精品高清一区二区不卡| 国产又粗又爽视频| 精精国产XXX在线观看| 久久精品人人做人人爽电影蜜月| 亚洲一区二区三区啪啪| 亚洲欧美日韩中文字幕网址| 日韩精品无码区免费专区| 成人自拍小视频在线观看| 亚洲国产午夜精品福利| 久久亚洲精品中文字幕无男同| 国产精品亚洲综合一区二区| av免费一区二区三区不卡| 日本一区二区久久人妻高清|