九游會j9網(wǎng)站首頁:一文了解國產(chǎn)AI芯片和英偉達的差距有多大
作者:j9九游會發(fā)布時間:2025-01-13
一、英偉達AI芯片的優(yōu)勢分析
從最終用戶的視角對英偉達GPU產(chǎn)品優(yōu)勢的評價,可概況為如下5點;
好用:從芯片性能角度市場top1,不接受反駁。易用:CUDA生態(tài)配套工具齊全,上手無壓力。都在用:產(chǎn)品案例多、成熟度強,市場認(rèn)可度高。各類場景都能用:產(chǎn)品布局全,各類場景都有高中低產(chǎn)品對應(yīng)。不同規(guī)模都能用:擴展性強,支持大規(guī)模集群擴展,千卡、萬卡、十萬卡,統(tǒng)統(tǒng)不在話下。九游會j9官網(wǎng)真人游戲第一品牌
二、國內(nèi)英偉達和國產(chǎn)芯片的市占率情況
今年最新數(shù)據(jù)暫時沒找到,下圖是IDC公布的去年H1國內(nèi)AI芯片出貨量情況,可以看到英偉達市的出貨量占據(jù)主導(dǎo)地位,市占率高達90%,總出貨量為51萬片,其中英偉達為46萬片,華為近4萬片,其他品牌總計在1萬片多一點, 國產(chǎn)芯片排名靠前的分別為HW、昆侖芯和寒武紀(jì)等。
(圖片可放大看)

三、單芯片性能層面的對比
單卡性能差距集中在芯片算力(以FP16為例)、顯存大小和顯存類型、顯存帶寬、AI芯片間互聯(lián)帶寬等,如下2個截圖有詳細展示,大家自行查看:
1、英偉達在售或者即將發(fā)售的旗艦GPU產(chǎn)品
2、國產(chǎn)在售的主流AI芯片(部分)參數(shù)情況
四、單臺八卡機整機的性能對比
除了整機計算性能差距外,雖然都是八卡整機,但是在其他規(guī)格方案也有差異,主要集中在芯片互聯(lián)和網(wǎng)卡配置,英偉達H100整機標(biāo)配8張cx7的400G網(wǎng)卡,而HW的ST八卡機是8張200G網(wǎng)卡,摩爾僅配置2張400G;
HW ST OAM八卡機的基本配置如下:
摩爾 S4000 OAM八卡機的內(nèi)存和網(wǎng)卡配置(截圖于其官網(wǎng)視頻):
五、AI芯片生態(tài)層面差距分析
芯片性能是紙面參數(shù),生態(tài)的成熟是決定用戶能否真正用起來的關(guān)鍵,英偉達CUDA生態(tài)發(fā)展了十余年成熟度和客戶使用覆蓋度都是最優(yōu)的,國內(nèi)AI芯片想突破英偉達壁壘主要是兩類路線,分布式兼容或者構(gòu)建自有生態(tài),天數(shù)、摩爾線程、海光DCU以兼容Cuda為主,而寒武紀(jì)、昆侖芯、昇騰、燧原、算能等則是構(gòu)建自有軟件棧,還有很長的路要走。
下圖為寒武紀(jì)的軟件棧布局(供參考)
六、大規(guī)模集群(千卡-萬卡)實際落地方面差距巨大
近2年以來,大模型訓(xùn)練相關(guān)的需求激增,對應(yīng)的AI服務(wù)器集群規(guī)模也越來越大。規(guī)模增大對GPU集群的真實效率和穩(wěn)定性提出了更高要求。放眼全球,OpenAI、微軟、xAI 和 Meta 在內(nèi)的多個頭部公司都在爭相建立超過 10 萬卡的GPU 集群,其中馬斯克宣布在短短122天內(nèi)建設(shè)10萬張英偉達H100卡的Colossus集群,全球AI算力的競爭進入了全新階段。
據(jù)已公開的信息,國內(nèi)最大規(guī)模以萬卡集群為主,前幾天看新聞報道,百度升級AI異構(gòu)計算平臺百舸4.0,具備了10萬卡集群部署和管理能力,個人認(rèn)為國內(nèi)萬卡到十萬卡依然需要依賴英偉達的GPU。從國產(chǎn)AI芯片的角度,千卡集群不完全成熟(看不到落地實際案例,建好用不起來的除外),國產(chǎn)AI芯片廠商依然在宣傳千卡集群(如下截圖)j9九游會。