<wbr id="bijqn"><pre id="bijqn"></pre></wbr>

      1. <wbr id="bijqn"></wbr>
        <em id="bijqn"></em>

        <sub id="bijqn"><listing id="bijqn"><nobr id="bijqn"></nobr></listing></sub>
        <sub id="bijqn"></sub>

        超聚變FusionOne AI單機跑滿血DeepSeek,吞吐性能飆升60%

        新視界作者 智能相對論 / 砍柴網 / 2025-03-24 23:54
        "

        作者:智能相對論

        如今,人工智能發展迅猛,大模型更是成為推動AI技術進步的“引擎”。然而,隨著模型參數量的激增,算力需求也呈指數級增長,如何高效、低成本地運行大模型成為行業面臨的共同挑戰。

        以DeepSeek R1滿血大模型為例,其參數量高達6710億,由于其采用了前沿的MLA注意力機制、共享專家和路由專家共同組成的混合專家(MoE)架構,在提升推理效能方面成果顯著,但是企業在實際應用過程中,對大模型的性價比有著更為極致的追求。

        近日,超聚變FusionOne AI大模型一體機通過軟硬協同,深度調優,成功打破了H20運行DeepSeek滿血大模型的性能天花板。在模擬問題對話場景(上下文序列長度1K/1K)下,僅需1臺FusionServer G8600搭載8張H20硬件,即可流暢運行DeepSeek R1滿血版,支持1024并發訪問數,總吞吐量高達6335 token/s,性能領先業內H20方案60%。其中,TPOT(Time per Output Token)時延相比業內H20方案減少40%,單臺FusionOne AI大模型一體機即可支撐數千人規模企業使用,將單機H20運行大模型的性能推向新高度。

         

        軟硬協同調優,打破 H20 性能天花板

        算力釋放,顯存最優分配:通過內核優化,提升顯存空間利用率20%,KV cache池使用率提升至93%,保障模型參數、過程KV高效運行數據、模型并行調度:通過DP數據并行、TP模型張量并行技術,調度多卡分布式并行計算,提升token產生的吞吐效率50%,有效提升計算效能推理任務切片混合調度:Prefill階段(首token輸出階段任務)長文本切片, 加速初始內容生成速度,同時在每個切片計算過程中,混合調度Decode任務(后續token迭代生成任務)并行運行, 無需串行等待,提高資源利用率,降低TTFT(Time to First Token)和TPOT(Time per Output Token )。

        超聚變FusionOne AI大模型一體機以極致成本、性能躍升的雙重突破,大幅降低DeepSeek-R1 671B模型的部署門檻,以普惠形態讓更多企業和科研機構能夠輕松應用。未來,超聚變將持續加大研發投入,聚焦AI算力優化與應用拓展,加速企業AI應用落地。

        *本文圖片均來源于網絡

        僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。

        部分圖片來自網絡,且未核實版權歸屬,不作為商業用途,如有侵犯,請作者與我們聯系。

        •AI產業新媒體;

        •澎湃新聞科技榜單月度top5;

        •文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

        •著有《人工智能 十萬個為什么》

        •【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發者以及背后的芯片、算法等。

        分享到
        聲明:砍柴網尊重行業規范,任何轉載稿件皆標注作者和來源;砍柴網的原創文章,請轉載時務必注明文章作者和"來源:砍柴網",不尊重原創的行為將受到砍柴網的追責;轉載稿件或作者投稿可能會經編輯修改或者補充,有異議可投訴至:post@ikanchai.com
        您想第一時間獲取互聯網領域的資訊和商業分析,請在微信公眾號中搜索"砍柴網"或者"ikanchai",或用微信掃描左邊二維碼,即可添加關注,從此和砍柴網建立直接聯系。

        相關推薦

        熱文導讀

        1
        3
        免费观看性行为的视频网站