您當(dāng)前的位置:檢測資訊 > 科研開發(fā)
嘉峪檢測網(wǎng) 2025-02-04 10:13
過去兩周,DeepSeek已經(jīng)成為了全球的熱點。尤其是在西方世界,這個來自于中國的生成式人工智能系統(tǒng)引發(fā)了廣泛討論。
在發(fā)布的前18天內(nèi),DeepSeek便實現(xiàn)了驚人的1600萬次下載,這一數(shù)字幾乎是競爭對手OpenAI的ChatGPT在同期下載量的兩倍,充分展示了其強大的市場吸引力和用戶基礎(chǔ)。
據(jù)市場分析公司Appfigures的權(quán)威數(shù)據(jù),DeepSeek的應(yīng)用程序于1月26日首次登頂蘋果App Store,并自此持續(xù)保持其全球領(lǐng)先的霸主地位。數(shù)據(jù)統(tǒng)計顯示,自今年初發(fā)布以來,迅速攀升至140個國家的蘋果App Store下載排行榜首位,并在美國的Android Play Store中同樣占據(jù)榜首位置。
作為一個中國的AI大模型,DeepSeek能夠獲得這個關(guān)注度,除了其出色的性能表現(xiàn)以外,其低訓(xùn)練成本也是其吸引全球目光的關(guān)鍵。在今天的文章中,我們來看一下藏在DeepSeek背后的芯片和系統(tǒng)。
DeepSeek的架構(gòu)自述
早在2024年8月,8 月,DeepSeek團隊發(fā)表了一篇論文,描述了它創(chuàng)建的一種新型負(fù)載均衡器,用于將其混合專家 (MoE:mixture of experts) 基礎(chǔ)模型的元素相互連接。
DeepSeek在文章中表示,對于混合專家 (MoE) 模型,專家負(fù)載( expert load)不均衡將導(dǎo)致路由崩潰(routing collapse)或計算開銷( computational overhead)增加?,F(xiàn)有方法通常采用輔助損失( auxiliary loss )來促進負(fù)載平衡,但較大的輔助損失會在訓(xùn)練中引入不可忽略的干擾梯度(interference gradients),從而損害模型性能。
為了在訓(xùn)練過程中控制負(fù)載平衡但不產(chǎn)生不良梯度(undesired gradients ),DeepSeek團隊提出了無損平衡(Loss-Free Balancing),其特點是無輔助損失的(auxiliary-loss-free)負(fù)載平衡策略。
具體而言,在進行 top-K 路由決策(routing decision)之前,無損平衡將首先對每個專家的路由分?jǐn)?shù)(routing scores)應(yīng)用專家偏見(expert-wise bias )。通過根據(jù)每個專家的近期負(fù)載動態(tài)更新其偏見,無損平衡可以始終保持專家負(fù)載的均衡分布。
此外,由于無損平衡不會產(chǎn)生任何干擾梯度,它還提升了從 MoE 訓(xùn)練中獲得的模型性能的上限。DeepSeek團隊還在多達 3B 個參數(shù)、在多達 200B 個 token 上訓(xùn)練的 MoE 模型上驗證了無損平衡的性能。實驗結(jié)果表明,與傳統(tǒng)的輔助丟包控制負(fù)載均衡策略相比,無損平衡策略既實現(xiàn)了更好的性能,也實現(xiàn)了更好的負(fù)載均衡。

圖 1:無損平衡根據(jù)每個訓(xùn)練步驟中的“偏見門控分?jǐn)?shù)”(biased gating score)選擇專家,并在每個訓(xùn)練步驟之后更新此專家偏見。
在2024年年底發(fā)布的報告《DeepSeek-V3 Technical Report》中,DeepSeek團隊對其DeepSeek-V3模型的技術(shù)架構(gòu)進行了深入解讀,這為我們了解這家公司的技術(shù)有了更多參考。
他們在報告中直言,出于前瞻性的考慮,公司始終追求模型性能強、成本低。因此,在架構(gòu)方面,DeepSeek-V3 仍然采用多頭潛在注意力(MLA:Multi-head Latent Attention) 進行高效推理和 DeepSeekMoE 以實現(xiàn)經(jīng)濟高效的訓(xùn)練。而為了實現(xiàn)高效訓(xùn)練,DeepSeek團隊的解決方案支持 FP8 混合精度訓(xùn)練,并對訓(xùn)練框架進行了全面優(yōu)化。在他們看來,低精度訓(xùn)練已成為高效訓(xùn)練的一種有前途的解決方案,其發(fā)展與硬件能力的進步密切相關(guān)。

圖2:采用 FP8 數(shù)據(jù)格式的整體混合精度框架。為了清楚起見,僅說明了線性算子。
通過對FP8計算和存儲的支持,DeepSeek團隊實現(xiàn)了加速訓(xùn)練和減少GPU內(nèi)存使用。在訓(xùn)練框架方面,他們設(shè)計了DualPipe算法來實現(xiàn)高效的流水線并行,該算法具有更少的流水線氣泡,并通過計算-通信重疊(overlap)隱藏了訓(xùn)練過程中的大部分通信。

圖 3:DeepSeek-V3 基本架構(gòu)圖。繼 DeepSeek-V2 之后,該公司采用 MLA 和 DeepSeekMoE 進行高效推理和經(jīng)濟訓(xùn)練。
DeepSeek團隊表示,這種重疊確保了隨著模型的進一步擴大,只要保持恒定的計算與通信比率,公司仍然可以跨節(jié)點使用細(xì)粒度的專家(fine-grained experts),同時實現(xiàn)接近于零的全對全通信開銷(all-to-all communication overhead)。
此外,DeepSeek團隊還開發(fā)了高效的跨節(jié)點全對全通信內(nèi)核,以充分利用InfiniBand(IB)和NVLink帶寬。公司還對內(nèi)存占用進行了精心優(yōu)化,使得無需使用昂貴的張量并行即可訓(xùn)練DeepSeek-V3。
在將這些努力結(jié)合起來,DeepSeek團隊實現(xiàn)了很高的訓(xùn)練效率。

表 1:DeepSeek-V3 的訓(xùn)練成本,假設(shè) H800 的租賃價格為每 GPU 小時 2 美元。
根據(jù)DeepSeek團隊在論文中強調(diào),通過優(yōu)化算法、框架和硬件的協(xié)同設(shè)計實現(xiàn)的。在預(yù)訓(xùn)練階段,每萬億個 token 上訓(xùn)練 DeepSeek-V3 只需要 180K H800 GPU 小時,也就是說,在其擁有 2048 個 H800 GPU 的集群上只需要 3.7 天。因此,公司的預(yù)訓(xùn)練階段在不到兩個月的時間內(nèi)完成,花費了 2664K GPU 小時。加上上下文長度擴展的 119K GPU 小時和后訓(xùn)練的 5K GPU 小時,DeepSeek-V3 完整訓(xùn)練僅花費 278.8 萬 GPU 小時。
假設(shè) H800 GPU 的租賃價格為每小時 2 美元,則代表著其總訓(xùn)練成本僅為 557.6 萬美元DeepSeek團隊還特意強調(diào),上述成本僅包括 DeepSeek-V3 的官方訓(xùn)練,不包括與架構(gòu)、算法或數(shù)據(jù)的先前研究和消融實驗相關(guān)的成本。作為對比,OpenAI 老板 Sam Altman 表示,訓(xùn)練 GPT-4 需要超過 1 億美元。
在1 月 20 日,DeepSeek 推出了 DeepSeek-R1 模型,該模型增加了兩個強化學(xué)習(xí)階段和兩個監(jiān)督微調(diào)階段,以增強模型的推理能力。DeepSeek AI 對 R1 模型的收費比基礎(chǔ) V3 模型高出 6.5 倍。隨后,DeepSeek發(fā)布了Janus-Pro,這是其多模態(tài)模型 Janus 的更新版本。新模型改進了訓(xùn)練策略、數(shù)據(jù)擴展和模型大小,增強了多模態(tài)理解和文本到圖像的生成。
至此,DeepSeek火爆全球。
躲在DeepSeek背后的芯片
在DeepSeek橫空出世之后,一些圍繞著其系統(tǒng)和技術(shù)研究框架的討論,也遍布全網(wǎng),具體到硬件方面。因為其極低的成本,這引致了整個AI芯片市場的震蕩,早幾天英偉達的大跌,正是這個擔(dān)憂的最直接的反映。
如上所述,DeepSeek 表示,用于訓(xùn)練 V3 模型的集群只有 256 個服務(wù)器節(jié)點,每個節(jié)點有 8 個 H800 GPU 加速器,總共有 2,048 個 GPU。據(jù)nextplatform的分析師推測,這些GPU卡是 英偉達H800 卡的 H800 SXM5 版本,其 FP64 浮點性能上限為 1 萬億次浮點運算,其他方面與世界上大多數(shù)公司可以購買的 80 GB 版本的 H100 卡相同。
其中,節(jié)點內(nèi)的八個 GPU 與 NVSwitch 互連,以在這些 GPU 內(nèi)存之間創(chuàng)建共享內(nèi)存域,并且節(jié)點具有多個 InfiniBand 卡(可能每個 GPU 一個)以創(chuàng)建到集群中其他節(jié)點的高帶寬鏈接。
具體到H800,這是當(dāng)初英偉達因應(yīng)美國的出口限制需求推出的GPU。當(dāng)時的美國GPU出口禁令規(guī)定主要限制了算力和帶寬兩個方面。其中,算力上限為4800 TOPS,帶寬上限為600 GB/s。A800和H800的算力與原版相當(dāng),但帶寬有所降低。

圖4:H800的細(xì)節(jié)
如上所述,DeepSeek在訓(xùn)練中使用的是H800 SXM版本。據(jù)了解,所謂SXM 架構(gòu),是一種高帶寬插座式解決方案,用于將 NVIDIA Tensor Core 加速器連接到其專有的 DGX 和 HGX 系統(tǒng)。對于每一代 NVIDIA Tensor Core GPU,DGX 系統(tǒng) HGX 板都配有 SXM 插座類型,為其匹配的 GPU 子卡實現(xiàn)了高帶寬、電力輸送等功能。
資料顯示,專門的 HGX 系統(tǒng)板通過 NVLink 將 8 個 GPU 互連起來,實現(xiàn)了 GPU 之間的高帶寬。NVLink 的功能使 GPU 之間的數(shù)據(jù)流動速度極快,使它們能夠像單個 GPU 野獸一樣運行,無需通過 PCIe 或需要與 CPU 通信來交換數(shù)據(jù)。NVIDIA DGX H800 連接了 8 個 SXM5 H800,通過 4 個 NVLink 交換芯片,每個 GPU的帶寬為 400 GB/s,總雙向帶寬超過 3.2 TB/s。每個 H800 SXM GPU 也通過 PCI Express 連接到 CPU,因此 8 個 GPU 中的任何一個計算的數(shù)據(jù)都可以轉(zhuǎn)發(fā)回 CPU。

圖5:基本的SGX/HGX to CPU框架圖
過去幾年里,大型企業(yè)對英偉達DGX熱度大增,這是因為SXM GPU 更適合規(guī)?;渴?。如上所說,八 個 H800 GPU 通過 NVLink 和 NVSwitch 互連技術(shù)完全互連。而在 DGX 和 HGX 中,8 個 SXM GPU 的連接方式與 PCIe 不同;每個 GPU 與 4 個 NVLink Switch 芯片相連,基本上使所有的 GPU 作為一個大 GPU 運行。這種可擴展性可以通過英偉達 NVLink Switch 系統(tǒng)進一步擴展,以部署和連接 256 個 DGX H800,創(chuàng)建一個 GPU 加速的 AI 工廠。

圖6:基本的8 PCIe GPU to CPU框架圖
外國分析師眼里的DeepSeeK
基于這些GPU和系統(tǒng),搞出這個成就,西方不少分析人士一面倒抨擊Deepseek團隊,但nextplatform的分析師表示,如果你仔細(xì)閱讀這篇 53 頁的論文,就會發(fā)現(xiàn) DeepSeek 已經(jīng)采取了各種巧妙的優(yōu)化和方法來制作 V3 模型,他們也確實相信,這確實減少了效率低下的問題,并提高了 DeepSeek 在硬件上的訓(xùn)練和推理性能。
他們認(rèn)為, DeepSeek團隊訓(xùn)練 V3 基礎(chǔ)模型所采用方法的關(guān)鍵創(chuàng)新是使用 Hopper GPU 上的 132 個流式多處理器 (SM) 中的 20 個,作為數(shù)據(jù)的通信加速器和調(diào)度器,因為訓(xùn)練運行會仔細(xì)檢查token并從參數(shù)深度集生成模型的權(quán)重,因此數(shù)據(jù)會在集群中傳遞。據(jù)nextplatform推測,正如 V3 論文所述,這種“計算和通信之間的重疊可以隱藏計算過程中的通信延遲”,使用 SM 在不在同一節(jié)點的 GPU 之間創(chuàng)建實際上是 L3 緩存控制器和數(shù)據(jù)聚合器的東西。
按照nextplatform對其論文的分享,DeepSeek 創(chuàng)建了自己的 GPU 虛擬 DPU,用于執(zhí)行與 GPU 集群中的全對全通信相關(guān)的各種類似 SHARP 的處理。
如上文所述,DeepSeek團隊設(shè)計了 DualPipe 算法以實現(xiàn)高效的流水線并行。對此,nextplatform指出,如果 DeepSeek 可以將這 2,048 個 GPU 上的計算效率提高到接近 100%,那么集群將開始認(rèn)為它有 8,192 個 GPU(當(dāng)然缺少一些 SM)運行效率不高,因為它們沒有 DualPipe。作為對比,OpenAI 的 GPT-4 基礎(chǔ)模型是在 8,000 個 Nvidia 的“Ampere”A100 GPU 上訓(xùn)練的,相當(dāng)于 4,000 個 H100(差不多)。
此外,包括輔助無損負(fù)載平衡、 FP8 低精度處理、將張量核心中中間結(jié)果的高精度矩陣數(shù)學(xué)運算提升到 CUDA 核心上的矢量單元以保持更高精度的表象、在反向傳播期間重新計算所有 RMSNorm 操作和重新計算所有 MLA 向上投影等也都是DeepSeek的創(chuàng)新點之一。
知名半導(dǎo)體分析機構(gòu)SemiAnalysis的Dylan Patel雖然對DeepSeek團隊所披露的成本有質(zhì)疑。但他們也承認(rèn)DeepSeek有過人之處。
SemiAnalysis表示,DeepSeek-R1 能夠取得與 OpenAI-o1 相當(dāng)?shù)某晒?,?o1 在 9 月份才發(fā)布。DeepSeek 為何能如此迅速地趕上?這主要是因為推理已經(jīng)成為了是一種新的范式,與以前相比,現(xiàn)在推理的迭代速度更快,計算量更小,卻能獲得有意義的收益。作為對比,以前的模式依賴于預(yù)訓(xùn)練,而預(yù)訓(xùn)練的成本越來越高,也很難實現(xiàn)穩(wěn)健的收益。
他們指出,新范式側(cè)重于通過合成數(shù)據(jù)生成和現(xiàn)有模型后訓(xùn)練中的 RL 來實現(xiàn)推理能力,從而以更低的價格獲得更快的收益。較低的準(zhǔn)入門檻加上簡單的優(yōu)化,意味著 DeepSeek 能夠比以往更快地復(fù)制 o1 方法。
“R1 是一個非常優(yōu)秀的模型,我們對此并無異議,而且這么快就趕上了推理邊緣,客觀上令人印象深刻。”SemiAnalysis強調(diào)。他們總結(jié)說:
一方面,DeepSeek V3 以前所未有的規(guī)模采用了多token預(yù)測(MTP:Multi-Token Prediction)技術(shù),這些附加的注意力模塊(attention modules)可以預(yù)測下幾個token,而不是單個token。這提高了模型在訓(xùn)練過程中的性能,并可在推理過程中舍棄。這是一個算法創(chuàng)新的例子,它以較低的計算量提高了性能。還有一些額外的考慮因素,比如在訓(xùn)練中提高 FP8 的準(zhǔn)確性;
另一方面,DeepSeek v3 也是專家模型(experts model,)的混合體,它是由許多專門從事不同領(lǐng)域的其他小型模型組成的大型模型?;旌蠈<夷P兔媾R的一個難題是,如何確定將哪個token交給哪個子模型或 "專家"。DeepSeek 實施了一個 "門控網(wǎng)絡(luò)"(gating network),以不影響模型性能的平衡方式將token路由到合適的專家。這意味著路由選擇非常高效,相對于模型的整體規(guī)模,每個token在訓(xùn)練過程中只需改變少量參數(shù)。這不僅提高了訓(xùn)練效率,還降低了推理成本;
再者,就 R1 而言,有了強大的基礎(chǔ)模型(v3),它將受益匪淺。部分原因在于強化學(xué)習(xí)(RL)。
強化學(xué)習(xí)有兩個重點:格式化(確保提供連貫的輸出)以及有用性和無害性(確保模型有用)。在合成數(shù)據(jù)集上對模型進行微調(diào)時,推理能力出現(xiàn)了;
SemiAnalysis重申,MLA 是 DeepSeek 大幅降低推理成本的關(guān)鍵創(chuàng)新技術(shù)。原因在于,與標(biāo)準(zhǔn)注意力(standard attention)相比,MLA將每次查詢所需的KV緩存量減少了約93.3%。KV 緩存是轉(zhuǎn)換器模型中的一種內(nèi)存機制,用于存儲代表對話上下文的數(shù)據(jù),從而減少不必要的計算。
對英偉達芯片的潛在影響
在文章開頭我們就提到,DeepSeek爆火以后,英偉達用暴跌來回應(yīng)。因為如果美國大型科技公司開始向 DeepSeek 學(xué)習(xí),選擇更便宜的人工智能解決方案,這可能會給 Nvidia 帶來壓力。
隨后,Nvidia 對 DeepSeek 的進展給予了積極評價。該公司在一份聲明中表示,DeepSeek 的進展很好地展示了 AI 模型的新操作方式。該公司表示,向用戶提供此類 AI 模型需要大量 Nvidia 芯片。
但著名投資人、方舟投資CEO“木頭姐”凱西·伍德在采訪中表示,DeepSeek證明了在AI領(lǐng)域成功并不需要那么多錢,并且加速了成本崩潰。
Counterpoint Research 人工智能首席分析師孫偉也表示,Nvidia 的拋售反映了人們對人工智能發(fā)展的看法轉(zhuǎn)變。她進一步指出:“DeepSeek 的成功挑戰(zhàn)了人們認(rèn)為更大的模型和更強大的計算能力能夠帶來更好性能的信念,對 Nvidia 由 GPU 驅(qū)動的增長戰(zhàn)略構(gòu)成了威脅。”
SemiAnalysis強調(diào),算法改進的速度太快了,這對 Nvidia 和 GPU 來說也是不利的。
美媒《財富》更是預(yù)警道,DeepSeek 正在威脅英偉達的 AI 主導(dǎo)地位。
如前文所說,DeepSeek 已采用性能更低、價格更便宜的芯片打造了其最新型號,這也給 Nvidia 帶來了壓力,一些人擔(dān)心其他大型科技公司可能會減少對 Nvidia 更先進產(chǎn)品的需求。
AvaTrade 首席市場分析師凱特·利曼 (Kate Leaman) 向《財富》雜志表示:“投資者擔(dān)心 DeepSeek 與性能較弱的 AI 芯片配合使用的能力可能會損害英偉達在 AI 硬件領(lǐng)域的主導(dǎo)地位,尤其是考慮到其估值嚴(yán)重依賴于 AI 需求。”
值得一提的是,根據(jù)tomshardware的報道,DeepSeek 的 AI 突破繞過了英偉達的CUDA不成盒,而是使用了類似匯編的 PTX 編程,這從某種程度上加大了大家對英偉達的擔(dān)憂。
據(jù)介紹,Nvidia 的 PTX(Parallel Thread Execution:并行線程執(zhí)行)是 Nvidia 為其 GPU 設(shè)計的中間指令集架構(gòu)。PTX 位于高級 GPU 編程語言(如 CUDA C/C++ 或其他語言前端)和低級機器代碼(流式匯編或 SASS)之間。PTX 是一種接近金屬的 ISA,它將 GPU 公開為數(shù)據(jù)并行計算設(shè)備,因此允許細(xì)粒度優(yōu)化,例如寄存器分配和線程/warp 級別調(diào)整,這是 CUDA C/C++ 和其他語言無法實現(xiàn)的。一旦 PTX 進入 SASS,它就會針對特定一代的 Nvidia GPU 進行優(yōu)化。
在訓(xùn)練 V3 模型時,DeepSeek 重新配置了 Nvidia 的 H800 GPU:在 132 個流式多處理器中,它分配了 20 個用于服務(wù)器到服務(wù)器通信,可能用于壓縮和解壓縮數(shù)據(jù),以克服處理器的連接限制并加快交易速度。為了最大限度地提高性能,DeepSeek 還實施了高級管道算法,可能是通過進行超精細(xì)的線程/warp 級別調(diào)整來實現(xiàn)的。
報道指出,這些修改遠遠超出了標(biāo)準(zhǔn) CUDA 級開發(fā)的范圍,但維護起來卻非常困難。
不過,晨星策略師布萊恩·科萊洛 (Brian Colello) 直言,DeepSeek 的進入無疑給整個人工智能生態(tài)系統(tǒng)增加了不確定性,但這并沒有改變這一運動背后的壓倒性勢頭。他在一份報告中寫道:“我們認(rèn)為人工智能 GPU 的需求仍然超過供應(yīng)。因此,盡管更輕薄的機型可能能夠以相同數(shù)量的芯片實現(xiàn)更大的發(fā)展,但我們?nèi)匀徽J(rèn)為科技公司將繼續(xù)購買所有他們能買到的 GPU,作為這場人工智能‘淘金熱’的一部分。”
英特爾前首席執(zhí)行官帕特·基辛格 (Pat Gelsinger) 等行業(yè)資深人士也認(rèn)為,像人工智能這樣的應(yīng)用程序可以利用它們能夠訪問的所有計算能力。至于 DeepSeek 的突破,基辛格認(rèn)為這是一種將人工智能添加到大眾市場中大量廉價設(shè)備中的方法。
SemiAnalysis在其報告中透露,自DeepSeek V3 和 R1 發(fā)布以來,H100 的 AWS GPU 價格在許多地區(qū)都有所上漲。類似的 H200 也更難找到。“V3 推出后,H100 的價格暴漲,因為 GPU 的貨幣化率開始大大提高。以更低的價格獲得更多的智能意味著更多的需求。這與前幾個月低迷的 H100 現(xiàn)貨價格相比發(fā)生了重大轉(zhuǎn)變。”SemiAnalysis說,
所以,大家認(rèn)為,DeepSeek將如何發(fā)展?英偉達芯片,還能繼續(xù)獨霸天下嗎?
參考鏈接
https://arxiv.org/html/2408.15664v1
https://arxiv.org/html/2412.19437v1
https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/
https://www.lthpc.com/cms/jishufenxiang/71.html
https://semianalysis.com/2025/01/31/deepseek-debates/
https://finance.yahoo.com/news/chinese-ai-startup-deepseek-threatening-153810959.html
https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead

來源:半導(dǎo)體行業(yè)觀察