隨著AI技術(shù)的快速發(fā)展和普及,中小企業(yè)對(duì)AI應(yīng)用的需求正在快速增長。特別是生成式AI和國內(nèi)DeepSeek大模型技術(shù)的出現(xiàn),使得中小企業(yè)看到了通過AI提升效率和競(jìng)爭(zhēng)力的機(jī)會(huì)。例如:企業(yè)已經(jīng)開始嘗試將AI應(yīng)用于銷售流程優(yōu)化、客戶服務(wù)提升以及工廠生產(chǎn)數(shù)據(jù)統(tǒng)計(jì)、分析,提升產(chǎn)能及效率等領(lǐng)域。
盡管需求旺盛,但AI應(yīng)用中仍面臨諸多挑戰(zhàn):
·成本問題:AI基礎(chǔ)設(shè)施和模型開發(fā)需要大量資金投入,企業(yè)成本高。
·技術(shù)門檻:AI技術(shù)復(fù)雜,企業(yè)缺乏專業(yè)人才和技術(shù)經(jīng)驗(yàn)。
·數(shù)據(jù)基礎(chǔ)薄弱:企業(yè)在數(shù)據(jù)標(biāo)注和基礎(chǔ)設(shè)施建設(shè)方面存在不足,制約了AI技術(shù)的落地。
·缺乏明確的落地路徑:API應(yīng)用涉及數(shù)據(jù)出域,數(shù)據(jù)有外泄安全風(fēng)險(xiǎn)。
目前市場(chǎng)上出現(xiàn)DeepSeek一體機(jī)“百團(tuán)大戰(zhàn)“,信息繁雜,企業(yè)用戶一時(shí)難消化、選擇,宏創(chuàng)盛安結(jié)合Intel最新的至強(qiáng)6性能核CPU,針對(duì)中小企業(yè)AI應(yīng)用需求,推出性能、效率俱佳的“標(biāo)槍“級(jí)DeepSeek一體機(jī)本地化解決方案,為企業(yè)提供簡(jiǎn)潔、高效的DeepSeek本地化部署選項(xiàng)。
對(duì)于中小企業(yè)來說,選擇合適的蒸餾模型需要在性能、成本、部署難度和應(yīng)用場(chǎng)景之間找到平衡。DeepSeek 本地部署所需的資源取決于多個(gè)因素,包括模型規(guī)模、應(yīng)用場(chǎng)景(推理/訓(xùn)練)、性能需求(響應(yīng)速度/吞吐量)以及是否使用量化等技術(shù)。
Intel最新推出的至強(qiáng)6性能核CPU,采用30A制程工藝,與上一代產(chǎn)品相比,至強(qiáng)6處理器在廣泛的企業(yè)工作負(fù)載中實(shí)現(xiàn)了平均1.4倍的性能提升。作為AI系統(tǒng)的機(jī)頭節(jié)點(diǎn)CPU,至強(qiáng)6可與GPU搭配,為客戶提供優(yōu)選組合。此外,它以更少的核心數(shù)量,提供高達(dá)1.5倍的AI推理性能提升。至強(qiáng)6處理器還具備出色的每瓦性能效率,以5年使用周期計(jì),平均可以實(shí)現(xiàn)以一臺(tái)新的服務(wù)器替代五臺(tái)舊服務(wù)器,在某些用例中該比例可達(dá)10:1,從而節(jié)省高達(dá)68%的總體擁有成本(TCO)。
DeepSeek的蒸餾模型通過壓縮大模型的知識(shí)到更小的模型中,其中,DeepSeek-R1-Distill-Llama-70B模型在保持高性能的同時(shí)顯著降低了計(jì)算資源需求。
Javelin DeepSeek All in One
硬件規(guī)格
·支持8張雙寬全高GPU,每卡顯存24GB,F(xiàn)P16算力約366.4 TFLOPS
·雙路6767P 至強(qiáng)6 CPU,128核心,256線程,2.4-3.0GHz頻率
·支持MRDIMM DDR5內(nèi)存,8路通道,速率高達(dá)8000MT/s
·支持PCIe5.0 NVMe SSD熱插拔硬盤,速率達(dá)Read:12GB/s,R/W:6GB/s。
DeepSeek性能數(shù)據(jù)
并發(fā)數(shù)
·部署DeepSeek-R1-Distill-Llama-70B模型最小顯存需求約為180GB,為滿足70B大模型顯存需求,推薦算力配置為:8張Nvidia 24GB GPU卡(8*24=192GB顯存)。實(shí)測(cè)使用vllm在本地部署,在300并發(fā)下能無延遲使用。
·部署DeepSeek-R1-Distill-Qwen-32B模型最小顯存需求約為80GB,為滿足32B大模型顯存需求,推薦算力配置為:4張Nvidia 24GB GPU卡(4*24=96GB顯存)。實(shí)測(cè)使用vllm在本地部署,在300并發(fā)下能無延遲使用。
NCCL Bus BW帶寬
NCCL(NVIDIA Collective Communication Library)Bus BW測(cè)試是一種用于評(píng)估GPU之間通信性能的工具。它通過測(cè)量集體通信操作(如AllReduce、Broadcast等)的帶寬,反映硬件的實(shí)際使用效率。
·256GB內(nèi)存總線帶寬18.42GB/s
·512GB內(nèi)存總線帶寬21.06GB/s,提升14%
vLLM Benchmark
vLLM(Very Large Language Model)Benchmark測(cè)試是一套用于評(píng)估大語言模型推理性能的基準(zhǔn)測(cè)試工具,主要用于衡量模型在不同工作負(fù)載下的表現(xiàn)。
模型 | 內(nèi)存(GB) | GPU-24GB | Token Throughput |
DeepSeek-R1-Distill-Llama-70B | 8*32 | 8*4090 | 1870 Token/s |
16*32 | 8*4090 | 2187 Token/s | |
DeepSeek-R1-Distill-Qwen-32B | 16*32 | 4*4090 | 3072 Token/s |
16*32 | 8*4090 | 3849 Token/s |
在Intel XEON6性能核CPU+ NVIDIA平臺(tái)上,通過vLLM實(shí)現(xiàn)DeepSeek-70B中等規(guī)模模型本地化私有化部署,數(shù)據(jù)安全落在企業(yè)本地,該配置在量化推理場(chǎng)景下可流暢運(yùn)行70B模型,可供300個(gè)用戶同時(shí)在線使用,滿足中等規(guī)模企業(yè)推理服務(wù)應(yīng)用需求。