ag九游会官网100 个token-九游会J9·(china)官方网站-真人游戏第一品牌
(原標(biāo)題:這個餐盤一樣大的芯片,卓越GPU)
要是您但愿不錯經(jīng)常碰頭,接待標(biāo)星保藏哦~
起原:內(nèi)容編譯自nextplatform,謝謝。
就在幾個月前,晶圓級詭計前驅(qū) Cerebras Systems 還自大說,在運(yùn)行由 Meta Platforms 創(chuàng)建的開源 Llama 3.1 基礎(chǔ)模子時,將其少數(shù)幾個 WSE-3 引擎一語氣在一談,不錯卓越基于 Nvidia“Hopper”H100 GPU 的 Nvidia GPU 實(shí)例。
咫尺,正如軟件工程師終于趕上硬件功能時平素發(fā)生的那樣,Cerebras 再次吹噓說,在運(yùn)行最新的 Llama 3.2 模子時,其推感性能上風(fēng)更大。8 月至 10 月時間,AI 推感性能的飛躍是浩瀚的,提高了 3.5 倍,它拉開了 Cerebras CS-3 系統(tǒng)在腹地或由 Cerebras 或其金主妥洽伙伴 Group 42運(yùn)營的云中運(yùn)行的差距。
與 AI 試驗(yàn)比擬,AI 推理市集邊界更大,而且在許多方面齊更容易攻克,而 Nvidia 基本上照舊鎖定了 AI 試驗(yàn)市集。要是你想知談為什么 Cerebras 等了這樣久才插足推理市集,謎底很通俗:該公司過甚因循者但愿在向華爾街傾銷該公司的初度公開募股時講一個大故事。AI 試驗(yàn)是一個振作的大問題,但宇宙上大廣泛組織齊莫得資源來試驗(yàn)我方的模子,他們將尋找性能最高、本錢最低的推理來部署他們的 AI 利用門徑。
咫尺,基于 Artificial Analysis 完成的 Llama 3.2 70B 基準(zhǔn)測試以及公有云上 GPU 實(shí)例、平素會提高性能的專用 GPU 云以及競爭敵手 Groq 和 SambaNova Systems 的非 GPU 系統(tǒng)的訂價公開數(shù)據(jù),Cerebras 似乎照實(shí)在 AI 推理競賽中成功。
在這一輪推理基準(zhǔn)比較中,Cerebras 專注于對僅在 Llama 3.2 70B 模子上運(yùn)行的推理進(jìn)行更新,顧名想義,該模子有 700 億個參數(shù)。在 16 位數(shù)據(jù)離別率下有 700 億個參數(shù),僅加載這些參數(shù)就需要 140 GB 內(nèi)存,而每個 WSE-3 引擎只好 44 GB 的片上 SRAM 內(nèi)存,因此僅加載 Llama 70B 模子的參數(shù)并留出一些內(nèi)存來運(yùn)行它們就需要三個多少許的 WSE-3 引擎和四個 CS-3 系統(tǒng)節(jié)點(diǎn)。(咱們在 3 月份對 WSE-3 引擎和 CS-3 系統(tǒng)進(jìn)行了長遠(yuǎn)計劃。)
CS-3 節(jié)點(diǎn)與晶圓上的結(jié)構(gòu)互連,晶圓上的結(jié)構(gòu)是 CS-3 架構(gòu)的一部分,由其 SwarmX 蟻合堆棧不休。每個 WSE-3 晶圓的額定速率為 125 千萬億次浮點(diǎn)運(yùn)算(由晶圓上的 900,000 個張量中樞驅(qū)動),在其 44 GB 的 SRAM 塊上具有 21 PB/秒的總帶寬,并為 SwarmX 蟻合提供 214 PB/秒的總帶寬。
Cerebras 在 AI 推理方面所展現(xiàn)出的性能飛躍平素需要一兩年的時辰,但這并不稀薄。Nvidia 的 GPU 硬件和軟件很好地闡述了這一旨趣。一般來說,自 Pascal 以來的每一代新 GPU 齊僅基于硬件就為 AI 責(zé)任負(fù)載提供了純粹 2 倍的性能。而到下一代硬件問世時,軟件堆棧的性能照舊提高了 4 到 5 倍,使舊硬件的性能提高了 8 到 10 倍。然后,軟件調(diào)度和調(diào)優(yōu)歷程在新硬件上再次運(yùn)轉(zhuǎn)。
策動詞,字據(jù) Cerebras 炫夸的數(shù)字,Nvidia 過甚 GPU 妥洽伙伴最佳運(yùn)轉(zhuǎn)進(jìn)行調(diào)度。因?yàn)樗麄冊谛阅芎蛢r錢方面齊受到了打擊。讓咱們來望望這些數(shù)字。
字據(jù)東談主工智能分析,Llama 3.2 70B 推理的性能如下:
早在 8 月份,Cerebras 運(yùn)行 Llama 3.1 70B 時每秒可推送 450 個token,而 9 月份,使用早期版塊的 Llama 3.2 70B 時,每秒可推送 589 個token。通過這些調(diào)度和優(yōu)化,Cerebras 的軟件工程師約略在 8 月份使用的 CS-3 互連的相通四個節(jié)點(diǎn)上將其推送到驚東談主的每秒 2,100 個token。這是軟件改造的 4.7 倍——這是 Nvidia 在兩年內(nèi)終了的。
咫尺,要么是 Cerebras 軟件工程師莫得作念出喜悅,因此他們約略在要津時刻逾額完成任務(wù)——斯科特先生會感到無比自重——要么他們?nèi)〉昧撕棋鋈祟A(yù)料的沖破。Cerebras 并莫得炫夸。但 Cerebras 居品營銷總監(jiān)、前 Nvidia GeForce 居品司理 James Wang 告訴The Next Platform,這可能是咱們在 CS-3 處理器上不錯期待的大部分性能升遷。
趁機(jī)說一句,早在 8 月份,Cerebras 在運(yùn)行 Llama 3.1 8B 模子時每秒就能產(chǎn)生 1,800 個令牌,因此不管該公司對其推理堆棧作念出何種變調(diào),它齊能以高于昔時 8B 的速率提供 70B 的推理,這意味著推理速率不錯提高 17% 閣下,從而愈加準(zhǔn)確。
關(guān)于 Cerebras 來說,攻擊的是,字據(jù) Artificial Analysis 網(wǎng)羅的數(shù)據(jù),其 Llama 3.2 70B 性能比在各式云上使用“Hopper” H100 GPU 的八路 HGX 節(jié)點(diǎn)朝上 8 倍到 22 倍,這些節(jié)點(diǎn)僅運(yùn)行 3B 參數(shù)數(shù)目。請看一看:
望望這些基準(zhǔn)測試的準(zhǔn)確度相反會很意思意思。但 Cerebras 不錯運(yùn)行密度高 23.3 倍的模子,速率可提高 8 倍到 22 倍——上圖炫夸的數(shù)據(jù)中,平均速率快 13.2 倍——字據(jù)咱們的詭計,這是 308 倍的乘法推感性能上風(fēng)。
要是將 Cerebras 云霄每個token的訂價與 Nvidia Hopper 云霄 GPU 節(jié)點(diǎn)進(jìn)行比較,Cerebras 在這里仍然具有上風(fēng):
咱們不知談購買 Nvidia Hopper 系統(tǒng)和 Cerebras CS-3 系統(tǒng)的東談主是否反饋了這種價錢相反。是以要防御。但咱們不錯作念一些詭計來查驗(yàn)。
據(jù)咱們了解,從 G42 上安設(shè)的 Condor Galaxy 超等詭計機(jī)的參議來看,576 個 CS-3 節(jié)點(diǎn)的本錢約為 9 億好意思元,即每個節(jié)點(diǎn) 156 萬好意思元。帶有 CPU 主機(jī)、主內(nèi)存、閃存和蟻合適配器的 H100 HGX 節(jié)點(diǎn)的本錢可能約為 37.5 萬好意思元。關(guān)于四臺 CS-3 機(jī)器,每令牌每秒的本錢為 2,976 好意思元。
在公有云上,Llama 3.1 或 3.2 型號的性能并不高,性價比辭別不大。要是您將上述性能圖表中的云實(shí)例性能平均化,并將其看成 Llama 3.2 70B 推感性能的推測圭臬,您將得回每秒 45.9 個令牌,即每秒每個令牌 8,170 好意思元。
因此,在購買鐵礦石時,Cerebras 和云霄 Hoppers 之間的性價比相反為 2.75 倍,但租用鐵礦石時,性價比相反為 5.2 倍,這似乎意味著 Cerebras 在出租容量時圓寂慘重。出租容量和出售容量之間的這種相反不是一種交易模式,而是一家初創(chuàng)公司試圖詮釋我方不雅點(diǎn)的虧本銷售。但這是否可捏續(xù)還有待不雅察。要找到謎底,Cerebras 將不得不提高其銷售和分娩以鐫汰硬件采購本錢,而作念到這少許的獨(dú)一紀(jì)律是讓許多東談主感意思,并在短期內(nèi)因云而蒙受圓寂。
除了 Nvidia 和 AMD 以外,總共加快器供應(yīng)商齊在作念相同的事情,因?yàn)樗麄冊谠葡鲣N售容量。
押注數(shù)據(jù)中心推理來鼓舞 Cerebras 的收入流(實(shí)驗(yàn)上亦然總共 AI 初創(chuàng)公司的收入流)很容易。推理運(yùn)轉(zhuǎn)越來越像試驗(yàn),需要更多時辰進(jìn)行詭計,需要更多詭計才調(diào)更好地進(jìn)行推理。此圖表闡述了想路鏈推理和代理 AI 將奈何鼓舞更密集的推理:
通過加多 10 倍到 100 倍的詭計量來進(jìn)行推理,Cerebras 不錯運(yùn)轉(zhuǎn)得回豪闊的數(shù)目來鐫汰其 WSE-3 引擎和 CS-3 系統(tǒng)的價錢。
咱們想知談,亦然許多潛在的 Cerebras 客戶想知談的是,CS-3 系統(tǒng)奈何運(yùn)行 Llama 3.2 405B 模子,顧名想義,該模子有 4050 億個參數(shù),況且在推理測試中的準(zhǔn)確性比 70B、8B 和 3B 模子高得多。
“咱們實(shí)足不局促 405B,”王說。“事實(shí)上,咱們咫尺正在建議 405B,我剛剛參加的會議即是參議何時建議這個問題、以何種景況建議。是以你不錯確定地說,咱們行將在 405B 邊界發(fā)布一些內(nèi)容。”
字據(jù)咱們的詭計,加載這個大型 Llama 3.2 模子中的 4050 億個參數(shù)需要 810 GB 的內(nèi)存,這意味著加載這些參數(shù)至少需要 18.4 個 WSE-3 引擎。為了便于參議,咱們將其稱為 20 個引擎。這是一個價值 3125 萬好意思元的集群,但至少您無須使用果然用于 AI 試驗(yàn)而不是推理的 MemoryX 內(nèi)存集群。咱們想知談將 20 個 CS-3 節(jié)點(diǎn)互連以運(yùn)行如斯大型的推理引擎對性能的影響。
“咱們平素被問到這個問題:要是你在多個晶圓上運(yùn)行,你的帶寬不是受限的嗎?”王承認(rèn)。“咱們將模子拆分紅多個層,以適宜這些不同的晶圓,節(jié)點(diǎn)間帶寬條目稀罕低——純粹是咱們實(shí)驗(yàn)可用硬件帶寬的 5%。果然需要帶寬的是張量并行。這即是 Nvidia 必須作念 NVLink 和 NVSwitch 的原因,對咱們來說,這部分在咱們的晶圓結(jié)構(gòu)上責(zé)任。是以咱們不局促更大的模子。事實(shí)上,咱們很期待它們。咱們照實(shí)必須對內(nèi)存進(jìn)行一些優(yōu)化,這樣咱們就無須使用太多的系統(tǒng)。”
按照咱們的目標(biāo),Cerebras 需要 3D 垂直緩存來延遲其詭計晶圓的內(nèi)存,就像昨天一樣。咱們實(shí)足折服 WSE-3 詭計引擎不是詭計受限,而是 SRAM 容量受限。與其收縮晶圓晶體管來制造 WSE-4,不如但愿它不錯再行加工晶圓上的芯片,在芯片下方或上方領(lǐng)有多個 SRAM 堆棧,就像 AMD 在其 Epyc CPU 的 X 版塊上使用 3D V-Cache(上圖)以及在 Instinct MI300X 和 MI300A GPU 上使用 Infinity Cache(下圖)一樣。逸想情況下,每個 SRAM 堆棧可能會提供荒謬的 60 GB SRAM,天然咱們在這里作念夢,但為什么不有三四個 SRAM 堆棧呢?假定模子將需要更多的內(nèi)存容量和帶寬。
Cerebras 架構(gòu)中照舊有豪闊的延遲空間用于 AI 試驗(yàn),但更多的 SRAM 可能有助于試驗(yàn)和推理。
關(guān)于 CS-3 機(jī)器,企業(yè)客戶不錯選擇 24 TB 和 36 TB 的 MemoryX 內(nèi)存(一種用于晶圓上 SRAM 的緩存),而超大邊界和云構(gòu)建者不錯選擇 120 TB 和 1,200 TB,這為企業(yè)邊界的高端提供了 4800 億和 7200 億個參數(shù)的存儲,為超大邊界和云構(gòu)建者提供了 2.4 萬億或 24 萬億個參數(shù)。攻擊的是,總共這些 MemoryX 內(nèi)存齊不錯孤獨(dú)于詭計進(jìn)行延遲——這是任何 GPU 以致 Nvidia 的 Grace-Hopper 超等芯片攙雜芯片齊無法作念到的,后者也具有靜態(tài)內(nèi)存成立。
https://www.nextplatform.com/2024/10/25/cerebras-trains-llama-models-to-leap-over-gpus/
半導(dǎo)體杰作公眾號保舉
專注半導(dǎo)體邊界更多原創(chuàng)內(nèi)容
柔柔環(huán)球半導(dǎo)體產(chǎn)業(yè)動向與趨勢
*免責(zé)聲明:本文由作家原創(chuàng)。著作內(nèi)容系作家個東談主不雅點(diǎn),半導(dǎo)體行業(yè)不雅察轉(zhuǎn)載僅為了傳達(dá)一種不同的不雅點(diǎn),不代表半導(dǎo)體行業(yè)不雅察對該不雅點(diǎn)贊同或因循,要是有任何異議,接待策動半導(dǎo)體行業(yè)不雅察。
今天是《半導(dǎo)體行業(yè)不雅察》為您共享的第3927內(nèi)容,接待柔柔。
『半導(dǎo)體第一垂直媒體』
及時 專科 原創(chuàng) 深度
公眾號ID:icbank
可愛咱們的內(nèi)容就點(diǎn)“在看”共享給小伙伴哦ag九游會官網(wǎng)