亚洲国产精品毛片av不卡在线,男人狂桶女人出白浆免费视频,亚洲av国产成人精品区,日本高清中文字幕免费一区二区,国产午夜福利精品视频

　　隨著chatGPT的爆火和AGI的繁榮，英偉達正在以前所未見的速度發(fā)展，這不但造就了GPU的繁榮，同時還讓扮演關鍵角色HBM熱度高居不下。

　　繼美光和SKHynix在日前表示，今年的HBM產(chǎn)能自己售罄以后。美光和三星在近日也帶來了HBM新品，以期在這個蓬勃發(fā)展的市場占有一席之地。其中，前者帶來了將用在英偉達GH200的之余，還表示將在2024年3月帶來36GB12-HiHBM3E產(chǎn)品，后者則表示，公司發(fā)布的HBM3E12H將性能和容量提高了50%以上。

　　由此可見，HBM的競爭愈演愈烈，HBM也成為了決定AI芯片命運的關鍵。這也就是為何TimothyPrickettMorgan認為，誰掌控了HBM，就掌握了AI訓練。

　　以下為TimothyPrickettMorgan的分享正文：

　　2024年推動Nvidia數(shù)據(jù)中心GPU加速器發(fā)展的最重要因素是什么？

　　是即將推出的“Blackwell”B100架構(gòu)嗎？我們確信該架構(gòu)將比當前的“Hopper”H100及其胖內(nèi)存弟弟H200提供性能飛躍？不。

　　是該公司有能力從代工合作伙伴臺積電那里拿回數(shù)百萬顆H100和B100GPU芯片嗎？不，它不是。

　　是NvidiaAIEnterprise軟件堆棧及其CUDA編程模型和數(shù)百個庫嗎？事實上，至少其中一些軟件（如果不是全部）是AI訓練和推理的事實上的標準。不過，又沒有。

　　雖然所有這些無疑都是巨大的優(yōu)勢，并且是許多競爭對手都集中精力的優(yōu)勢，但Nvidia在2024年推動其業(yè)務的最重要因素與金錢有關。具體來說：英偉達在1月份結(jié)束了2024財年，現(xiàn)金和銀行投資略低于260億美元，如果本財年按預期進行，收入將突破1000億美元，其中約占50%以上如果以凈利潤的形式體現(xiàn)出來，那么即使在支付了稅款、龐大的研發(fā)業(yè)務以及公司的正常運營費用之后，它將為其金庫增加約500億美元。

　　你可以用750億美元或更多的資金做很多事情，其中之一就是不必太擔心為數(shù)據(jù)中心級GPU購買HBM堆棧DRAM內(nèi)存所需的巨額資金。這種內(nèi)存正在以相當好的速度變得更快、更密集（就每芯片千兆位而言）和更胖（FAT，就兆字節(jié)帶寬和千兆字節(jié)容量而言），但其改進速度并沒有達到人工智能加速器所需的速度。

　　隨著美光科技(MicronTechnology)加入SK海力士(SKHynix)和三星(Samsung)的供應商行列，HBM的供應量有所改善，并且進給量和速度也隨之改善。我們強烈懷疑供應將無法滿足需求，HBM內(nèi)存的價格將隨著HBM在一定程度上推動的GPU加速器價格而繼續(xù)攀升。

　　AMD擁有57.8億美元的現(xiàn)金和投資，沒有那么多閑置資金，盡管英特爾的銀行存款略高于250億美元，但它必須建立代工廠，這確實非常昂貴（按順序如今每次流行150億至200億美元）。因此，它也確實不能在HBM內(nèi)存上揮霍。

　　對NvidiaGPU加速器業(yè)務有利的另一個因素是，在GenAI繁榮時期，客戶愿意為數(shù)百、數(shù)千甚至數(shù)萬個數(shù)據(jù)中心GPU支付幾乎任何費用。我們認為，2022年3月宣布的原始“Hopper”H100GPU的價格，特別是在SXM配置中，對于具有80GBHBM3內(nèi)存、速度為3.35TB/秒的單個H100，其價格超過30,000美元，我們不知道具有96GB內(nèi)存，速度為3.9TB/秒的H100的費用，但我們能推測Nvidia對具有141GBHBM3E內(nèi)存、運行速度為4.8TB/秒的H200設備的收費。H200基于與H100完全相同的“Hopper”GPU，將內(nèi)存容量提高了76.3%，內(nèi)存帶寬提高了43.3%，H100芯片的性能提高了1.6倍到1.9倍�？紤]到額外的容量意味著需要更少的GPU并消耗更少的電量來針對靜態(tài)數(shù)據(jù)集訓練給定模型，我們認為與原始H100相比，Nvidia可以輕松地為H200收取1.6倍到1.9倍的費用。

　　黃金法則：擁有黃金的人制定規(guī)則

　　我們并不是說H200在第二季度開始發(fā)貨時就會發(fā)生這種情況。（我們認為英偉達除了財務數(shù)據(jù)外還談論日歷季度。）我們只是說這樣的舉動是有邏輯的。很大程度上取決于AMD對“Antares”InstinctMI300XGPU加速器的收費，該加速器具有192GB的HBM3，運行速度為5.2TB/秒。MI300X具有更多的原始浮點和整數(shù)能力，HBM容量比Nvidia的H200高36.2%，帶寬比H200高10.4%。

　　你可以用ElonMusk的最后一塊錢打賭，AMD沒有心情做任何事，除了對MI300X收取盡可能多的費用，甚至有建議稱該公司正在努力升級到更胖、更快的HBM3E內(nèi)存領域，以保持對Nvidia的競爭。MI300使用具有八高DRAM堆棧的HBM3，MI300中的內(nèi)存控制器具有信號和帶寬容量，可以替換為時鐘速度更快的十二高堆棧HBM3E。這意味著容量增加了50%，帶寬也可能增加了25%。也就是說，每個MI300X具有288GB的HBM3E容量和6.5TB/秒的帶寬。

　　據(jù)推測，這樣一個經(jīng)過精心設計的MI350X芯片（我們可能會這樣稱呼它）在其峰值失敗次數(shù)中執(zhí)行了相當大的實際工作量，甚至更多，就像Nvidia從H100跳躍到H200時所發(fā)生的那樣。

　　正是在這樣的背景下，我們想談談HBM領域發(fā)生的事情。我們將從SKHynix開始，該公司展示了16個芯片高的HBM3E堆棧，每個堆棧提供48GB的容量和1.25TB/秒的帶寬。MI300X配備8個內(nèi)存控制器，可實現(xiàn)384GB內(nèi)存和9.6TB/秒帶寬。

　　有了這些數(shù)字，您就不必將CPU作為擴展內(nèi)存控制器來處理大量工作負載。。。。

　　我們還沒有看到關于SK海力士十六高HBM3E內(nèi)存的介紹，也不知道它什么時候上市。去年8月，SK海力士展示了第五代HBM內(nèi)存和第一代HBM3E內(nèi)存，據(jù)稱每個堆棧可提供1.15TB/秒的帶寬。正如下面由Trendforce創(chuàng)建的HBM路線圖所示，我們的預期是提供24GB和36GB容量，這意味著8高堆棧和12高堆棧。

　　去年8月，Nvidia顯然將成為這些芯片的大客戶，并且有傳言稱SKHynix的這款24GBHBM3E內(nèi)存將用于即將推出的“Blackwell”B100GPU加速器。如果是這樣，那么BlackwellGPU小芯片上的六個內(nèi)存控制器將產(chǎn)生144GB的容量，如果B100封裝按預期具有兩個GPU小芯片，則意味著最大容量為288GB，帶寬為13.8TB/秒。很難說收益率如何，可能只有5/6可用。也有可能-但我們希望不是-B100看起來不像一個GPU，而是系統(tǒng)軟件的兩個GPU（就像兩個芯片組AMD“Arcturus”MI250X所做的那樣，而不像MI300X那樣，后者有8個較小的GPU芯片組這加起來會帶來更多的魅力，看起來就像一個GPU到系統(tǒng)軟件）。我們將看看那里會發(fā)生什么。

　　美光科技(MicronTechnology)進入HBM領域較晚，但鑒于供應短缺和需求旺盛，該公司無疑在該領域最受歡迎，該公司今天表示，它正在開始生產(chǎn)其首款HBM3E內(nèi)存，這是一種八高堆棧容量為24GB，并補充說該內(nèi)存是H200GPU的一部分。我們?nèi)ツ?月介紹過的MicronHBM3E變體的引腳運行速度為9.2Gb/秒，每個堆棧提供1.2TB/秒的內(nèi)存。美光還聲稱，其HBM3E內(nèi)存的消耗量比“競爭產(chǎn)品”少30%，想必它正在談論嚴格的HBM3E比較。

　　美光還表示，它已開始對其12高36GBHBM3E變體進行送樣，其運行速度將超過1.2TB/秒。美光沒有透露比1.2TB/秒快多少。

　　今天晚些時候，三星推出了十二高堆棧HBM3E，這也是其第五代產(chǎn)品，該公司代號為“Shinebolt”。

　　Shinebolt取代了去年推出的“Icebolt”HBM3內(nèi)存。Icebolt堆棧式DRAM內(nèi)存為容量為24GB的十二層堆棧提供819GB/秒的帶寬。ShineboltHBM3E在36GB堆棧中提供1.25TB/秒的帶寬，就像SKHynixHBM3E十二高堆棧一樣。

　　三星在公告中補充道：“用于AI應用時，預計與采用HBM38H相比，AI訓練的平均速度可提高34%，同時推理服務的并發(fā)用戶數(shù)可提升34%。”擴大11.5倍以上。”三星指出，這是基于內(nèi)部模擬，而不是實際的人工智能基準。

　　三星的ShineboltHBM3E12H現(xiàn)已提供樣品，預計在6月底前全面投產(chǎn)。

　　這些12高和16高的HBM3E堆棧幾乎是我們在2026年HBM4發(fā)布之前所擁有的。人們可能希望HBM4會在2025年出現(xiàn)，毫無疑問，我們面臨著推動路線圖升級的壓力，但這似乎不太可能。據(jù)猜測，HBM4的內(nèi)存接口將增加一倍，達到2,048位。HBM1到HBM3E使用了1,024位內(nèi)存接口，信號傳輸速度從AMD與SKHynix設計并于2013年交付的初始HBM內(nèi)存相比，已經(jīng)從1Gb/秒增加到9.2Gb/秒。接口加倍將允許兩倍的速度。需要大量內(nèi)存來掛起接口，并以一半的時鐘速度提供給定量的帶寬，并且隨著時鐘速度再次提升，帶寬會逐漸增加�；蛘�。它們從一開始就以每引腳9.2Gb/秒的速度推出，我們只需支付以瓦為單位的價格。

　　美光路線圖表示，HBM4將提供36GB和64GB的容量，驅(qū)動速度為1.5TB/秒到2TB/秒，因此看起來會是寬速和慢速、寬速和更快的混合，但在發(fā)布時不會完全滿足需求。談到帶寬。看起來，寬度加倍幾乎可以使容量和帶寬加倍。預計HBM4將具有十六層DRAM堆疊，僅此而已。

　　在2026年另一個宇宙的夢想世界中，HBM4將擁有2,048位接口，類似于引腳上的11.6Gb/秒信號傳輸，具有24個高DRAM堆疊，具有33.3%密度的DRAM內(nèi)存（4GB而不是3GB），因此，每個堆棧的速度約為3.15TB/秒，每個堆棧的速度約為96GB。哦，那我們就瘋狂吧。假設一個GPU復合體有十幾個小芯片，每個小芯片都有自己的HBM4內(nèi)存控制器。這將為每個GPU設備提供37.8TB/秒的聚合內(nèi)存帶寬，以及每個設備1,152GB的容量。

　　從這個角度來看，根據(jù)Nvidia的說法，一個1750億個參數(shù)的GPT-3模型需要175GB的容量來進行推理，因此我們正在討論的理論GPU上的內(nèi)存大小大概能夠處理1.15萬億個參數(shù)推理。對于GPT-3訓練，需要2.5TB內(nèi)存來加載數(shù)據(jù)語料庫。如果您的Hoppers具有80GBHBM3內(nèi)存，則需要32個Hopper才能完成這項工作。但我們的32臺設備的容量將增加14.4倍，因此能夠加載相應更大的數(shù)據(jù)量。我們假設的設備上的帶寬也高出11.3倍。

　　請注意，我們沒有提及這十幾個GPU小芯片的失敗情況？在大多數(shù)情況下，以超過80%的利用率運行任何東西都非常棘手，特別是當它可能以不同的精度執(zhí)行不同的操作時。我們想要的是讓觸發(fā)器與比特/秒的比率恢復正常。我們想要制造一臺12缸發(fā)動機，它有足夠的噴油器來實際喂養(yǎng)野獸。

　　我們的猜測是，80GB的H100的HBM3內(nèi)存約為理想值的三分之一，帶寬也約為理想值的三分之一。這是一種最大化GPU芯片銷售和收入的方法，正如Nvidia已經(jīng)清楚地證明的那樣，但這并不是構(gòu)建平衡的計算引擎的方法-就像英特爾在其X86芯片上放置一半的DRAM內(nèi)存控制器并將其全部賣給我們一樣——兩個帶有中間倉部件的插座一直是數(shù)據(jù)中心通用計算的正確答案。我們還需要更多的內(nèi)存容量和帶寬。

　　因此，如果使用這個概念性BeastGPU加速器將帶寬增加11.3倍，那么與原始H100相比，計算量可能只會增加4倍。在張量核心上，H100在FP64精度下的額定速度為67teraflops，在FP8精度（未使用稀疏性）下的額定速度為1.98petaflops。因此，這個TP100GPU復合體在FP64下的額定速度為268teraflops，在FP8下的額定速度為7.92petaflops，每個GPU小芯片的性能將是H100芯片性能的三分之一，并且可能是其大小的四分之一到五分之一，具體取決于使用的工藝技術。假設它是TSMC2N或Intel14A與真正的H100上使用的TSMC4N。畢竟，這是我們談論的2026年。

　　這就是我們想要寫的那種野獸，如果我們銀行里有260億美元，并且未來還有500億美元以上的前景，這就是我們會做的。但是大量的HBM內(nèi)存和計算引擎都塞滿了它。

　　很難說這會花費多少錢。你不可能打電話給Fry'sElectronics詢問2026年HBM4內(nèi)存的市場價格是多少。一方面，F(xiàn)ry's已經(jīng)死了。另一方面，我們現(xiàn)在甚至無法很好地了解GPU和其他矩陣引擎制造商為HBM2e、HBM3和HBM3e內(nèi)存支付的費用。每個人都知道（或者認為他們知道），HBM內(nèi)存和用于將內(nèi)存鏈接到設備的任何中介層是現(xiàn)代人工智能訓練和推理引擎的兩個主要成本。（當然，混合使用片上SRAM和普通DRAM的人除外。）

　　在市場上，用于服務器的最大、最厚、最快的256GBDDR5內(nèi)存模塊在4.8GHz下運行的價格約為18,000美元，每GB約為70美元。但僅可擴展至32GB的更薄模塊每GB成本僅為35美元。因此，HBM2e的價格約為每GB110美元，“超過3倍”，如上面的Nvidia圖表所示。96GB的價格約為10,600美元。很難說HBM3和HBM3E的提升在該設備的“市場價格”上可能值多少錢，但如果達到HBM3僅提升25%，那么H100的市場價格約為30,000美元80GB容量，HBM3的價格為8,800美元。轉(zhuǎn)向96GBHBM3E可能會將內(nèi)存成本提高到“市場價格”至16,500美元，因為技術成本又增加了25%，而且額外的16GB內(nèi)存和H10096GB的市場價格應約為37,700美元。

　　聽到有關具有141GB容量（由于某種原因不是144GB）的H200的價格的傳言將會很有趣。但如果這種內(nèi)存價格分層成立——我們意識到這些都是瘋狂的估計——那么141GB的HBM3E本身價值約為25,000美元。但按照這樣的價格，H200的“市場價格”約為41,000美元。（注意：這不是我們認為Nvidia為HBM3和HBM3E內(nèi)存支付的費用——這不是物料清單成本——而是分配給最終用戶的價格。）

　　我們認為漲幅不會超過25%左右，因為內(nèi)存升級到HBM3，然后再升級到HBM3E將推高內(nèi)存價格，使其高于市場上傳聞的NvidiaGPU價格。

　　請記住，這只是一個思想實驗，旨在展示HBM內(nèi)存定價如何控制Nvidia和AMD可以投入該領域的GPU數(shù)量，而不是相反。內(nèi)存尾巴正在搖晃GPU的狗。內(nèi)存容量和帶寬與H200的配合越來越緊密，如果Nvidia僅對額外的內(nèi)存及其額外的速度收取象征性的費用，那么不僅設備的實際效率會提高，而且性價比也會提高。但如果Nvidia只是對這些更強大的H100和H200進行定價，以便性能增益和內(nèi)存增益達到平衡，那么花的錢就會少得多，而要花的錢就會多得多。

　　老實說，我們不知道Nvidia會做什么，也不知道AMD在MI300獲得HBM3E升級后會做什么。現(xiàn)在美光進入該領域的HBM供應商增加了50%，而且SKHynix和三星將產(chǎn)量提高了2倍，這是一個很大的數(shù)字，但相對于GPU和GPU的需求，市場上的HBM內(nèi)存仍然只增加了3倍。他們的內(nèi)存更大，可以說大于3倍。這不是一個可以降價的環(huán)境。在這種環(huán)境下，人們會提高更先進的計算引擎及其內(nèi)存的價格，并繼續(xù)盡可能薄地擴展HBM內(nèi)存。

　　這就是為什么只要Nvidia平臺繼續(xù)成為首選，能夠支付高價購買HBM內(nèi)存的人（即Nvidia聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛）就可以設定人工智能訓練的步伐和價格。

　　換而言之，對于GPU和HBM來說，他們面對的都是生死局。

HBM，生死局?

共0條 [查看全部] 網(wǎng)友評論

移動互聯(lián)

更多>>推薦視頻

工業(yè)轉(zhuǎn)型升級-中國電器工業(yè)協(xié)會

中國高壓變頻器產(chǎn)業(yè)發(fā)展之路——

從企業(yè)家角度談行業(yè)的未來發(fā)展

現(xiàn)代能源變換的核心技術——電力

打造專業(yè)電力電子元器件品牌助

關注我們

HBM，生死局?