超聚變FusionOne AI單機跑滿血DeepSeek，吞吐性能飆升60%

新視界作者智能相對論 / 砍柴網 / 2025-03-24 23:54

作者：智能相對論

如今，人工智能發展迅猛，大模型更是成為推動AI技術進步的“引擎”。然而，隨著模型參數量的激增，算力需求也呈指數級增長，如何高效、低成本地運行大模型成為行業面臨的共同挑戰。

以DeepSeek R1滿血大模型為例，其參數量高達6710億，由于其采用了前沿的MLA注意力機制、共享專家和路由專家共同組成的混合專家（MoE）架構，在提升推理效能方面成果顯著，但是企業在實際應用過程中，對大模型的性價比有著更為極致的追求。

近日，超聚變FusionOne AI大模型一體機通過軟硬協同，深度調優，成功打破了H20運行DeepSeek滿血大模型的性能天花板。在模擬問題對話場景（上下文序列長度1K/1K）下，僅需1臺FusionServer G8600搭載8張H20硬件，即可流暢運行DeepSeek R1滿血版，支持1024并發訪問數，總吞吐量高達6335 token/s，性能領先業內H20方案60%。其中，TPOT（Time per Output Token）時延相比業內H20方案減少40%，單臺FusionOne AI大模型一體機即可支撐數千人規模企業使用，將單機H20運行大模型的性能推向新高度。

軟硬協同調優，打破 H20 性能天花板

算力釋放，顯存最優分配：通過內核優化，提升顯存空間利用率20%，KV cache池使用率提升至93%，保障模型參數、過程KV高效運行數據、模型并行調度：通過DP數據并行、TP模型張量并行技術，調度多卡分布式并行計算，提升token產生的吞吐效率50%，有效提升計算效能推理任務切片混合調度：Prefill階段（首token輸出階段任務）長文本切片, 加速初始內容生成速度，同時在每個切片計算過程中，混合調度Decode任務（后續token迭代生成任務）并行運行, 無需串行等待，提高資源利用率，降低TTFT（Time to First Token）和TPOT（Time per Output Token ）。

超聚變FusionOne AI大模型一體機以極致成本、性能躍升的雙重突破，大幅降低DeepSeek-R1 671B模型的部署門檻，以普惠形態讓更多企業和科研機構能夠輕松應用。未來，超聚變將持續加大研發投入，聚焦AI算力優化與應用拓展，加速企業AI應用落地。

*本文圖片均來源于網絡

僅代表個人觀點，未經授權，任何人不得以任何方式使用，包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡，且未核實版權歸屬，不作為商業用途，如有侵犯，請作者與我們聯系。

•AI產業新媒體;

•澎湃新聞科技榜單月度top5;

•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

•著有《人工智能十萬個為什么》

•【重點關注領域】智能家電（含白電、黑電、智能手機、無人機等AIoT設備）、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發者以及背后的芯片、算法等。

分享到

聲明：砍柴網尊重行業規范，任何轉載稿件皆標注作者和來源；砍柴網的原創文章，請轉載時務必注明文章作者和"來源：砍柴網"，不尊重原創的行為將受到砍柴網的追責；轉載稿件或作者投稿可能會經編輯修改或者補充，有異議可投訴至：post@ikanchai.com

您想第一時間獲取互聯網領域的資訊和商業分析，請在微信公眾號中搜索"砍柴網"或者"ikanchai"，或用微信掃描左邊二維碼，即可添加關注，從此和砍柴網建立直接聯系。

超聚變FusionOne AI單機跑滿血DeepSeek，吞吐性能飆升60%

相關推薦

最新文章

熱文導讀

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產 Apple Car 汽車電池

關注我們

超聚變FusionOne AI單機跑滿血DeepSeek，吞吐性能飆升60%

相關推薦

最新文章

熱文導讀

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產 Apple Car 汽車電池

關注我們

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！